전체 글

싱싱한 자연어를 탐구합니다.
· Paper Review
(EMNLP 2023) SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language ModelsarXiv: https://arxiv.org/abs/2303.08896code: https://github.com/potsawee/selfcheckgpt 1. ProblemHallucination Detection기존의 fact verification 방법은 ChatGPT와 같은 블랙박스 모델에서는 작동하지 않을 수 있으므로 외부 리소스 없이도 Hallucination을 Detection 할 수 있는 새로운 접근 방식이 필요함 2. Related Worksintrinsic uncertainty metrics ..
· Paper Review
(ICLR 2023 notable-top-25%) Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language GenerationarXiv: https://arxiv.org/abs/2302.09664code: https://github.com/lorenzkuhn/semantic_uncertainty 1. MotivationLLM이 생성한 답변의 uncertainty를 추정하는 것은 Trustworthy LLM과 관련하여 중요한 문제임그러나 답변의 uncertainty를 추정하는 기존의 token-likelihood 기반 방법들은 semantic equivalence 문제를 고려하지 않음 semantic..
· Paper Review
(venue year) TitlearXiv:code: 1. Problem..2. Importance of the Problem..3. Related Works..4. Proposed Key Ideas..5. Summary of Experimental Results..
· Paper Review
Publication Info: TACL 2024arXiv: https://arxiv.org/abs/2307.03172code: https://nelsonliu.me/papers/lost-in-the-middle심리학에는 서열 위치 효과(serial-position effect)라는 용어가 있다. 사람들은 어떠한 나열들을 기억할 때 처음과 끝의 내용들은 잘 기억하지만, 중간에 있는 내용들은 쉽게 기억하지 못하는 경향의 현상을 의미하는 용어이다.  갑자기 웬 심리학인가 할수도 있지만, Lost in the Middle 논문은 이러한 서열 위치 효과 현상이 LLM에서도 발생하는지 실험적으로 분석했다. (저자들이 서열 위치 효과를 직접적으로 논문의 motivation으로 꼽은건 아니지만, 저자들도 이 효과에 ..
· Paper Review
arXiv: https://arxiv.org/abs/2406.04744code: https://gitlab.aicrowd.com/aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/meta-comphrehensive-rag-benchmark-starter-kit/문제 제기전통적인 QA 벤치마크들 (NQ, MS Marco 등) 은 RAG의 역동적인 특징을 평가하지 못함RAG를 평가하기 위해 새롭게 제시된 벤치마크들(FreshQA, RGB 등)도 (고작) 몇 백개의 질문들로 LLM의 특정 능력만 평가함저자들이 생각하는 좋은 QA 벤치마크의 특징 5가지 중 핵심 2가지Realism: 벤치마크 데이터가 실제 사용 사례를 반영해야 한다. Richne..
· Paper Review
arXiv : https://arxiv.org/abs/2310.14696code : https://github.com/gankim/tree-of-clarifications1. Introduction & Related WorkOpen-domain question answering (ODQA) task에서 사용자들은 종종 ambiguous questions (AQs)를 질문할 때가 있는데, 이러한 AQs는 여러 뜻으로 해석 될 수 있는 문제점이 있음 AQs를 다루기 위한 3가지 관련 연구Min et al., AmbigQA: Answering Ambiguous Open-domain Questions, EMNLP 2020providing individual answers to disambiguated quest..
oneonlee
One Only