Korean Coreference Resolution at the Morpheme Level

형태소 수준의 한국어 상호참조해결

  • Kyeongbin Jo (Department of Big Data Medical Convergence, Kangwon National University ) ;
  • Yohan Choi (Department of Big Data Medical Convergence, Kangwon National University ) ;
  • Changki Lee (Department of Big Data Medical Convergence, Kangwon National University ) ;
  • Jihee Ryu (Electronics and Telecommunications Research Institute) ;
  • Joonho Lim (Electronics and Telecommunications Research Institute)
  • 조경빈 (강원대학교 빅데이터메디컬융합학과) ;
  • 최요한 (강원대학교 빅데이터메디컬융합학과) ;
  • 이창기 (강원대학교 빅데이터메디컬융합학과) ;
  • 류지희 (한국전자통신연구원) ;
  • 임준호 (한국전자통신연구원)
  • Published : 2022.10.18

Abstract

상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 End-to-End 모델이 주로 연구가 되었다. 그러나 End-to-End 방식으로 모델을 수행하기 위해서는 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 많은 메모리가 필요하고 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어 단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하며, 한국어 상호참조해결의 특징을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현에 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 69.55%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 0.54% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

Keywords

Acknowledgement

이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.2013-2-00131, 휴먼 지식증강 서비스를 위한 지능 진화형 Wise QA 플랫폼 기술 개발).