티스토리

One Only

검색하기

[논문리뷰] CRAG — Comprehensive RAG Benchmark

Paper Review

[논문리뷰] CRAG — Comprehensive RAG Benchmark

oneonlee 2024. 7. 22. 08:38

arXiv: https://arxiv.org/abs/2406.04744

code: https://gitlab.aicrowd.com/aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/meta-comphrehensive-rag-benchmark-starter-kit/

문제 제기

전통적인 QA 벤치마크들 (NQ, MS Marco 등) 은 RAG의 역동적인 특징을 평가하지 못함
RAG를 평가하기 위해 새롭게 제시된 벤치마크들(FreshQA, RGB 등)도 (고작) 몇 백개의 질문들로 LLM의 특정 능력만 평가함

저자들이 생각하는 좋은 QA 벤치마크의 특징 5가지 중 핵심 2가지

Realism: 벤치마크 데이터가 실제 사용 사례를 반영해야 한다.
Richness: 벤치마크는 다양한 instance types를 포함해야 한다. (간단한 질문, 복잡한 질문 등)

Contributions

CRAG는 4,409 건의 QA pairs로 구성된 풍부한 데이터를 제공하며, 7개 타입의 complex questions를 제공
- Conditions, Comparison, Aggregation, Multi-hop, Set queries, Post-processing-heavy, False-pemise
기존의 Exact Matching이나 F1-score 기반의 metric과 달리, hallucination을 반영하기 위해 hallucinated answers와 missing answers로 구분하여 평가함
ChatGPT 기반의 automatic evaluation mechanism을 제안하고, human eval과 비교하여 검증했을 때, 별 차이가 없음을 보임으로써 벤치마크에 대한 신뢰도를 높였음

Metrics

(+1점) Perfect: 정답과 Ground Truth과 Exact Matching이 되는 경우
(+0.5점) Acceptable: Evaluator LLM이 판단했을 때, 정답이라고 판단되는 경우
(0점) Missing: 모르면 모른다고 답을 하는 경우
(-1점) Incorrect: 답이 틀린 경우

Challenges

질문과 무관한 검색 결과에 대해 hallucination을 생성하는 경향이 있기 때문에, 이를 극복하는 solution이 필요함
- Retrieval noise에 신경쓰지 않고 retrieval results를 적절히 사용하는 방법은 무엇일까?
Real-time이나 Fast-changing 카테고리의 dynamism 질문들에 대해서는 성능이 낮다. 이 부분에 대해 개선할 여지가 충분이 있음.

의견

실제로는 모르면 모른다고 답변을 하는게 어려운 능력이기도 하지만, 모든 답변에 "I don't know"로 대답한다면 Missing으로 처리되어서 0점 처리 될 것임. 따라서 관점에 따라 'Missing을 마이너스로 해야되지 않을까?'하는 의견도 있음. (예를 들어 -0.1점)
논문에서 현재는 Question type과 Dynamism에 대한 분석이 많고, 단면적인 도메인에 대한 분석이 부족한 듯.

저작자표시 비영리 동일조건