SQuAD
SQuAD (The Stanford Question Answering Dataset)는 Question and Answering (Q&A)분야에서 쓰이는 데이터셋으로, 지문, 질문 그리고 답을 위키피디아와 사람들을 통해 만든 데이터이다.
Q&A란 주어진 지문을 읽고 질문에 대한 올바른 답을 하는 시스템을 뜻한다. 지문을 읽고 이해하여 질문에 답을 하기에 'Machine Reading Comprehension'이라고도 불린다.
질문에 대한 답이 지문에 있기에 SQuAD는 답을 단어로 가지지 않고 지문 속 답의 위치로 가지고 있다. 이러한 영역을 span이라고 부른다. 즉, SQuAD를 푼다는 것은 주어진 지문을 읽고 질문에 맞는 답을 지문 속 위치를 찾아내야하는 것과 같다.
SQuAD 1.1 버전이 나온 후에 많은 사람들이 도전하였고 사람이 풀어낸 실력보다 더 높은 AI 모델들이 나왔다. 그러면서 좀 더 어려운 문제들을 요구하게 되었고 다음으로 나온 것이 SQuAD 2.0이다. 새로운 버전에서의 가장 큰 차이점은 지문에 답이 없는 경우이다.
FEVER
FEVER(Fact Extraction and Verification)는 앞서 설명한 SQuAD와 유사하게 주어진 텍스트로부터 질문에 대한 답을 찾는 task이다. 하지만 차이점은 주어진 텍스트는 지문이 아니라 위키피디아 문서들이라는 점과 질문이 주어진 문장의 참/거짓을 판별하는 것이라는 점이다.
주어진 문장이 참인지 거짓인지 판별하는 것은 상당히 중요한 문제인데, 가장 대표적인 활용 분야가 바로 가짜 뉴스 판별이다. 기사 혹은 온라인 소셜 네트워크에서 나오는 글이 가짜인 경우 그 정보가 퍼짐으로써 나타나는 파급력은 상당하기에 글의 참/거짓 판별은 상당히 중요하다.
참/거짓 여부 판별에 있어 중요한 것은 관련 문서를 찾는 것이다. 해당 문장의 참/거짓 여부를 판별한 증거를 찾는다고 볼 수 있다.
우리는 대체로 사실이 적혀있다고 가정하는 백과사전, 논문 등을 참고 문서 데이터로 삼은 후 주어진 문장과 관련 있는 문서를 찾아 이를 비교하여 참/거짓을 판별한다. FEVER는 위키피디아를 참고 문서로 삼는다. 이를 통해 주어진 문장(Claim)에 대해 참/거짓 여부를 판별해야 한다.
레이블은 아래와 같다.
- Supported: 참
- Refuted: 거짓
- NonEnoghInfo: 정보 부족
해당 데이터를 만드는 사람들은 Shared task를 통해 팀들 간에 경쟁을 하게 한다. 그래서 두 번째 shared task (FEVER 2.0)에서는 기존의 참/거짓 여부 판별에 추가로 다른 팀을 공격할 수 있도록 adversarial attack을 만드는 것까지 추가하였다.
GLUE
General Language Understanding Evaluation (GLUE) 데이터는 Natural Language Understanding (NLU)이라는 기계가 자연어를 이해하는 작업을 수행할 수 있는 데이터셋을 뜻한다. 해당 데이터에는 앞서 설명한 Question Answering을 비롯하여 Sentiment Anlaysis, Textual Entailment 등이 포함되어 있다.
GLUE에 있는 과제들은 아래와 같다.
- The Corpus of Linguistic Acceptability
- The Stanford Sentiment Treebank
- Microsoft Research Paraphrase Corpus
- Semantic Textual Similarity Benchmark
- Quora Question Pairs
- MultiNLI Matched
- MultiNLI Mismatched
- Question NLI
- Recognizing Textual Entailment
- Winograd NLI
- Diagnostics Main
SuperGlue
SuperGlue는 GLUE에 비해서 더 긴 텍스트를 이해하고 사고하는 능력을 요구하는 데이터셋이다.
'NLP' 카테고리의 다른 글
Word Vectors (0) | 2024.04.01 |
---|---|
Long-tail knowledge 개념 (0) | 2024.03.28 |
Topics for Language Modeling (0) | 2024.01.17 |
RLHF (Reinforcement Learning from Human Feedback) [devfest Cloud 2023] (0) | 2023.12.10 |
언어모델에서 Adapter Tuning이 필요한 이유 [devfest Cloud 2023] (0) | 2023.12.10 |