EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision

EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축

  • Lee, Young-Jun (Korea Advanced Institute of Science and Technology, School of Computing) ;
  • Choi, Ho-Jin (Korea Advanced Institute of Science and Technology, School of Computing)
  • 이영준 (한국과학기술원 전산학부) ;
  • 최호진 (한국과학기술원 전산학부)
  • Published : 2019.10.10

Abstract

최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

Keywords

Acknowledgement

본 연구는 한국전력공사의 2018년 착수 에너지 거점대학 클러스터 사업에 의해 지원되었음 (과제번호:R18XA05)