Domain adaptation of Korean coreference resolution using continual learning

Yohan Choi;Kyengbin Jo;Changki Lee;Jihee Ryu;Joonho Lim;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2022.10a
/
Pages.320-323
/
2022
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Domain adaptation of Korean coreference resolution using continual learning

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응

Yohan Choi (Department of Big Data Medical Convergence, Kangwon National University) ;
Kyengbin Jo (Department of Big Data Medical Convergence, Kangwon National University) ;
Changki Lee (Department of Big Data Medical Convergence, Kangwon National University) ;
Jihee Ryu (Electronics and Telecommunications Research Institute) ;
Joonho Lim (Electronics and Telecommunications Research Institute)

최요한 (강원대학교 빅데이터메디컬융합학과) ;
조경빈 (강원대학교 빅데이터메디컬융합학과) ;
이창기 (강원대학교 빅데이터메디컬융합학과) ;
류지희 (한국전자통신연구원) ;
임준호 (한국전자통신연구원)

Published : 2022.10.18

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

Keywords

상호참조해결;

Acknowledgement

이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.2013-2-00131, 휴먼 지식증강 서비스를 위한 지능 진화형 Wise QA 플랫폼 기술 개발).