SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP

SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안

  • Jaemin Kim (Dept. of Artificial Intelligence, Hanyang University) ;
  • Yohan Na (Dept. of Computer Science, Hanyang University) ;
  • Kangmin Kim (Dept. of Artificial Intelligence, Hanyang University) ;
  • Sang Rak Lee (Dept. of Computer Science, Hanyang University) ;
  • Dong-Kyu Chae (Dept. of Computer Science, Hanyang University)
  • 김재민 (한양대학교 인공지능학과) ;
  • 나요한 (한양대학교 컴퓨터.소프트웨어학과) ;
  • 김강민 (한양대학교 인공지능학과) ;
  • 이상락 (한양대학교 컴퓨터.소프트웨어학과) ;
  • 채동규 (한양대학교 컴퓨터.소프트웨어학과)
  • Published : 2022.10.18

Abstract

최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

Keywords

Acknowledgement

이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 (1) 정보통신기획평가원의 지원(No.2020-0-01373, 인공지능대학원지원(한양대학교))과 (2) 한국연구재단의 지원을 받아 수행된 연구임 (No.2021R1A2C1094863)