MLM 기반 언어 간 전이학습을 이용한 개체명 인식 방법론 분석

An Analysis of Named Entity Recognition System using MLM-based Language Transfer Learning

  • 손준영 (고려대학교 컴퓨터학과) ;
  • 김경민 (고려대학교 컴퓨터학과) ;
  • 김진성 (고려대학교 컴퓨터학과) ;
  • 허윤아 (고려대학교 컴퓨터학과) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Junyoung Son (Department of Computer Science and Engineering, Korea University) ;
  • Gyeongmin Kim (Department of Computer Science and Engineering, Korea University) ;
  • Jinsung Kim (Department of Computer Science and Engineering, Korea University) ;
  • Yuna Hur (Department of Computer Science and Engineering, Korea University) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • 발행 : 2022.10.18

초록

최근 다양한 언어모델의 구축 및 발전으로 개체명 인식 시스템의 성능은 최고 수준에 도달했다. 하지만 이와 관련된 대부분의 연구는 데이터가 충분한 언어에 대해서만 다루기 때문에, 양질의 지도학습 데이터의 존재를 가정한다. 대부분의 언어에서는 개체 유형에 대한 언어의 잠재적 특성을 충분히 학습할 수 있는 지도학습 데이터가 부족하기 때문에, 종종 자원 부족의 어려움에 직면한다. 본 논문에서는 Masked language modeling 기반 언어 간 전이학습을 이용한 개체명 인식 방법론에 대한 분석을 수행한다. 이를 위해 전이를 수행하는 소스 언어는 고자원 언어로 가정하며, 전이를 받는 타겟 언어는 저자원 언어로 가정한다. 본 논문에서는 언어모델의 토큰 사전에 언어 독립적인 가상의 자질인 개체 유형에 대한 프롬프트 토큰을 추가하고 이를 소스 언어로 학습한 뒤, 타겟 언어로 전이하는 상황에서 제안하는 방법론에 대한 평가를 수행한다. 실험 결과, 제안하는 방법론은 일반적인 미세조정 방법론보다 높은 성능을 보였으며, 한국어에서 가장 큰 영향을 받은 타겟 언어는 네덜란드어, 한국어로 전이할 때 가장 큰 영향을 준 소스 언어는 중국어인 결과를 보였다.

키워드

과제정보

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원(No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발)과 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음 (IITP-2022-2018-0-01405)