Named Entity Recognition based on ELECTRA with Dictionary Features and Dynamic Masking

사전 기반 자질과 동적 마스킹을 이용한 ELECTRA 기반 개체명 인식

  • Published : 2021.10.14

Abstract

개체명 인식이란, 문장에서 인명, 지명, 기관명, 날짜, 시간 등의 고유한 의미의 단어를 찾아서 미리 정의된 레이블로 부착하는 것이다. 일부 단어는 문맥에 따라서 인명 혹은 기관 등 다양한 개체명을 가질 수 있다. 이로 인해, 개체명에 대한 중의성을 가지고 있는 단어는 개체명 인식 성능에 영향을 준다. 본 논문에서는 개체명에 대한 중의성을 최소화하기 위해 사전을 구축하여 ELECTRA 기반 모델에 적용하는 학습 방법을 제안한다. 또한, 개체명 인식 데이터의 일반화를 개선시키기 위해 동적 마스킹을 이용한 데이터 증강 기법을 적용하여 실험하였다. 실험 결과, 사전 기반 모델에서 92.81 %로 성능을 보였고 데이터 증강 기법을 적용한 모델은 93.17 %로 높은 성능을 보였다. 사전 기반 모델에서 추가적으로 데이터 증강 기법을 적용한 모델은 92.97 %의 성능을 보였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No. 1711125985, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발)과 2021년도 정부(산업통상자원부)의 재원으로 한국이스라엘산업연구개발재단의 지원을 받아 수행된 연구임 (금융 지식 그래프를 위한 다국어 자연어처리 기술 개발, 과제번호: 2018-35-169)