arXiv: https://arxiv.org/abs/2406.04744code: https://gitlab.aicrowd.com/aicrowd/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024/meta-comphrehensive-rag-benchmark-starter-kit/문제 제기전통적인 QA 벤치마크들 (NQ, MS Marco 등) 은 RAG의 역동적인 특징을 평가하지 못함RAG를 평가하기 위해 새롭게 제시된 벤치마크들(FreshQA, RGB 등)도 (고작) 몇 백개의 질문들로 LLM의 특정 능력만 평가함저자들이 생각하는 좋은 QA 벤치마크의 특징 5가지 중 핵심 2가지Realism: 벤치마크 데이터가 실제 사용 사례를 반영해야 한다. Richne..