반응형
(ICLR 2023 notable-top-25%) Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation
arXiv: https://arxiv.org/abs/2302.09664
code: https://github.com/lorenzkuhn/semantic_uncertainty
1. Motivation
- LLM이 생성한 답변의 uncertainty를 추정하는 것은 Trustworthy LLM과 관련하여 중요한 문제임
- 그러나 답변의 uncertainty를 추정하는 기존의 token-likelihood 기반 방법들은 semantic equivalence 문제를 고려하지 않음
- semantic equivalence: 어휘적(lexical)으로는 다른 문장이 의미적(semantic)으로는 같은 의미를 가지는 것
- 본 논문은 LLM에서 불확실성을 측정하는 문제, 특히 semantic equivalence 문제로 인해 기존 방법이 어려움을 겪는 QA task의 문제를 해결함
2. Related Work on Uncertainty Estimation
- predictive entropy of the output distribution
- $PE(x) = H(Y \vert x) = -\int p(y \vert x) \log{p(y \vert x)} dy$
3. Proposed Key Ideas
- semantic likelihood
- 의미적으로 유사한 샘플들에서 발생하는 불확실성을 줄이기 위해, 해당 샘플들에 대해 marginalization을 수행하여, 그들의 정보를 하나로 통합함으로써 비지도 방식으로 uncertainty를 측정하는 지표
- 이 방은 bidirectional entailment clustering을 사용하여 의미적으로 동등한 결과물을 그룹화하고, 이러한 클러스터의 분포를 기반으로 불확실성을 계산함
4. Summary of Experimental Results
- 더 큰 모델과 더 까다로운 데이터 세트의 경우, semantic entropy는 기존의 불확실성 측정값보다 AUROC 성능이 뛰어남
- 비슷한 baseline보다 QA task에서 모델의 정확도를 더 잘 예측하며, 모델 크기가 커질수록 성능이 향상됨
반응형
'Paper Review' 카테고리의 다른 글
[논문 간단 정리] Studying Catastrophic Forgetting in Neural Ranking Models (0) | 2024.10.25 |
---|---|
[논문 간단 정리] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (0) | 2024.09.30 |
논문 간단 정리 포스팅 템플릿 (4) | 2024.09.30 |
[논문리뷰] Lost in the Middle: How Language Models Use Long Contexts (0) | 2024.07.29 |
[논문리뷰] CRAG — Comprehensive RAG Benchmark (0) | 2024.07.22 |