NLP Dataset

자연어 처리 모델을 평가하기 위해 사용하는 GLUE 데이터셋들을 정리해봤다. GLUE 말고도 많지만, 일단 GLUE 먼저

자연어 처리 데이터셋이란?

  • 자연어 처리 알고리즘을 개발할 때 학습/검증/테스트용으로 사용하는 데이터이다.
  • 보통 알고리즘을 개발하려는 목적 Task에 따라 데이터셋을 만들기 때문에 Task 이름으로 대충 부르기도 한다. 영어의 경우 공개 데이터셋이 많다.
    • CoLA, SST-2, MRPC, SQuAD, …

GLUE Task의 데이터셋

  • CoLA(The Corpus of Linguistic Acceptability)
    • (문장, 레이블)로 구성되며, 문장이 문법적으로 적절한지 레이블링(적절, 부적절)
    • MCC(Matthews Correlation Coefficient)
    • https://nyu-mll.github.io/CoLA/
  • SST-2(The Stanford Sentiment Treebank)
  • MPRC(Microsoft Research Paraphrase Corpus)
  • STS-B(The Semantic Textual Similarity Benchmark)
    • 뉴스 헤드라인, 비디오나 이미지에 달린 문구, 사용자 포럼의 글
    • (문장1, 문장2, 레이블)로 구성되며, 두 문장이 의미적으로 비슷한지 레이블링(0.0점에서 5.0점 사이)
    • PSC(Pearson and Spearman Correlation)
    • http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark
  • QQP(Quora Question Pairs)
  • MNLI(Multi-Genre Natural Language Inference)
    • 다양한 장르(소설, 편지, 전화 대화, 리포트 등) 문서
    • (전제문장, 추론문장, 레이블)로 구성되며, 전제문장에서 추론문장이 추론되는지 레이블링(추론,반대,중립)
    • 정확도(accuracy)
    • https://www.nyu.edu/projects/bowman/multinli/
  • SQuAD(The Stanford Question Answering Dataset)
    • 위키피디아
    • (답을 포함한 문단, 질문문장, 레이블)로 구성되며 질문문장에 대한 답을 레이블링(문단 내 답의 위치)
    • 정확도(accuracy)
    • https://rajpurkar.github.io/SQuAD-explorer/
  • QNLI(Question-answering Natural Language Inference)
    • SQuAD를 조금 수정
    • (답을 포함한 문단, 질문문장, 레이블)로 구성되며, 문단에 질문문장에 대한 답이 있는지 없는지 레이블링(있다, 없다)
    • 정확도(accuracy)
    • https://rajpurkar.github.io/SQuAD-explorer/
  • RTE(Recognizing Textual Entailment)
  • WNLI(Winograd Natural Language Inference)