incheonkirin
6 min readJan 9, 2021

machine reading comprehension dataset

  1. Cloze Tests

Gap-filling tests라고 불리는 Cloze tests는 학생들의 언어 실력을 평가하는 시험에서 쓰이는 방식인데, 현재는 Machine의 NLU(natural language understanding) 성능을 평가하는데도 쓰이고 있다.

Cloze Tests에서 Question은 Passage에서 등장한 words나 entities를 제거하여 만든다. 여기에 Machien이 빈칸을(제거된 항목을) 채워 넣는 Task이다. (일부 tasks는 정답 후보를 제공하기도 하지만, 이는 선택사항이다.)

Cloze Tests 는 Context를 이해하는 것 뿐만 아니라 단어의 용법 또한 이해해야하기 때문에, 어려운 MRC (Machine Reading Comprehension) Task이다.

Cloze Tests의 특징은 다음과 같다 : (i) answer A 는 주어진 context C에서 등장하는 word 나 entity이다. ; (ii) question Q 는 주어진 context C에서 word나 entity를 제거함으로써 만들어진다. 예컨대, Q = C — A 와 같다.

2. Multiple choice

Multiple choice는 Cloze Tests와 같이, 언어 평가 시험에서 영향을 받은 MRC (Machine Reading Comprehension) Task이다.

Multiple choice는 제공된 context와 일치하는 정답을 정답 후보 사이에서 선택하는 방식이다. Cloze Tests와 비교하면 Context의 words나 entities제한되지 않기에, answer 형식이 자유로운 편이다. 하지만 정답 후보가 제공되어야 한다.

multiple choice의 특징은 다음과 같다. : candidate answers A = A1, A2, · · · , An 는 answer을 예측하기위한 보조 정보로 사용된다.

3. Span Extraction

Cloze tests 와 Multiple choice로 Machine의 NLU(Nautral Language Understanding) 성능을 측정하는데, 한계점이 존재했다.

질문의 답이 되기에 단어나 엔티티만으로 충분하지 않았다. 완전한 문장이 필요한 경우도 있었다. 또한 정답 후보가 없는 경우가 많이 있었다.

Span extraction task는 이러한 약점들을 극복했는데, 주어진 context와 question으로 지문에서 텍스트 스팬을 추출하여 답으로 하는 방법을 사용하였다.

Span extraction의 특징은 다음과 같다. : answer A는 context C에 연결된 부분시퀀스(continuous subsequence )가 되어야 한다.

4. Free Answering

Cloze tests와 Multiple choice에 비하면 Span Extraction이 Machine으로 하여금 더 유연한(flexible) 답변을 만드는데 기여했지만, 충분하지는 않았다. Context의 span만을 답으로 제한하는 것은 여전히 현실적이지 않기 때문이다.

질문에 답하기 위해 Machine은 여러 조각의 text를 종합하여 추론해야하고, 증거(evidence)들을 요약해야한다.

네 가지 중에 free answering이 가장 복잡한 Task이다. 질문에 답을 하는데 제한이 없기 때문이다. 이는 실제 적용 시나리오(real application scenario)에 더욱 알맞다.

Free Answering은 다른 Task와 다르게, 답변의 제약을 줄이고 (더 나은 답을 위해) 자유형식의 자연어를 사용하고자 한다는 것이다.

5. 비교

- Construction (데이터셋 구축 난이도) : Task를 위한 데이터셋을 구축하기 쉬운지 혹은 어려운지 평가하는 지표이다. 쉬울수록 점수가 높다.

- Understanding (모델 이해도 테스트의 효율성) : Task가 Machin의 Understanding을 얼마나 잘 테스트할 수 있는지 평가하는 지표이다. Task가 높은 이해도와 추론을 요구할수록 점수가 높다.

- Flexibility (Answer의 유연성) : Answer form의 유연성으로 task의 품질을 측정 할 수 있다. Answer가 자유로울수록 점수가 높다.

- Evaluation (평가/채점의 용이성) : MRC task에서는 평가(Evaluation)가 필요하다. Whether a task can be easily evaluated also determines its quality..쉽게 평가할 수 있을수록 점수가 높다.

- Application (현실 적용 가능성) : 좋은 task는 현실에서의 적용과 가까워야 한다. 현실에서 적용이 쉬울수록 점수가 높다.

점수는 Task별로 상이함

- Cloze Test는 데이터 세트를 구축하고 평가하기 쉬움 단, context에서 answer form이 단일 word 또는 named entity로 제한되므로, 모델의 Understanding을 효율적으로 테스트 할 수 없으며 현실과도 맞지 않음

- Multiple choice는 각 질문에 대한 답변 후보를 제공하여 context에서 답이 제한되지 않아도 쉽게 평가/채점할 수 있음. 언어 시험에서의 데이터를 사용할 수 있어, 데이터셋 구축이 용이함. 그러나 답변 후보를 제공하는 것은 현실과는 괴리가 있음.

- Span Extraction은 데이터셋을 쉽게 구축하고 평가할 수 있음. 또한, Machine의 텍스트의 이해도를 효율적으로 테스트할 수 있음. 이러한 장점은 Span Extraction이 활발히 연구되게끔 하는데 기여함. 단점은 Answer가 현실세계와는 다르게, context의 부분시퀀스로 제한된다는 것임

- Free Answering은 Machine의 이해도를 효율적으로 테스트할 수 있고, Answer의 유연성도 높음. 또한 현실 적용 가능성도 높음. 하지만, Answer from의 유연성 때문에 데이터셋을 구축하기 다소 어려우며, 이러한 작업에서 성능을 효과적으로 평가/채점하는 방법은 여전히 과제로 남아 있음

출처 : Neural Machine Reading Comprehension: Methods and Trends

No responses yet