An Analysis of Named Entity Recognition System using MLM-based Language Transfer Learning

Junyoung Son;Gyeongmin Kim;Jinsung Kim;Yuna Hur;Heuiseok Lim;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
/
Pages.284-288
/
2022
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

MLM 기반 언어 간 전이학습을 이용한 개체명 인식 방법론 분석

An Analysis of Named Entity Recognition System using MLM-based Language Transfer Learning

손준영 (고려대학교 컴퓨터학과) ;
김경민 (고려대학교 컴퓨터학과) ;
김진성 (고려대학교 컴퓨터학과) ;
허윤아 (고려대학교 컴퓨터학과) ;
임희석 (고려대학교 컴퓨터학과)

Junyoung Son (Department of Computer Science and Engineering, Korea University) ;
Gyeongmin Kim (Department of Computer Science and Engineering, Korea University) ;
Jinsung Kim (Department of Computer Science and Engineering, Korea University) ;
Yuna Hur (Department of Computer Science and Engineering, Korea University) ;
Heuiseok Lim (Department of Computer Science and Engineering, Korea University)

발행 : 2022.10.18

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

최근 다양한 언어모델의 구축 및 발전으로 개체명 인식 시스템의 성능은 최고 수준에 도달했다. 하지만 이와 관련된 대부분의 연구는 데이터가 충분한 언어에 대해서만 다루기 때문에, 양질의 지도학습 데이터의 존재를 가정한다. 대부분의 언어에서는 개체 유형에 대한 언어의 잠재적 특성을 충분히 학습할 수 있는 지도학습 데이터가 부족하기 때문에, 종종 자원 부족의 어려움에 직면한다. 본 논문에서는 Masked language modeling 기반 언어 간 전이학습을 이용한 개체명 인식 방법론에 대한 분석을 수행한다. 이를 위해 전이를 수행하는 소스 언어는 고자원 언어로 가정하며, 전이를 받는 타겟 언어는 저자원 언어로 가정한다. 본 논문에서는 언어모델의 토큰 사전에 언어 독립적인 가상의 자질인 개체 유형에 대한 프롬프트 토큰을 추가하고 이를 소스 언어로 학습한 뒤, 타겟 언어로 전이하는 상황에서 제안하는 방법론에 대한 평가를 수행한다. 실험 결과, 제안하는 방법론은 일반적인 미세조정 방법론보다 높은 성능을 보였으며, 한국어에서 가장 큰 영향을 받은 타겟 언어는 네덜란드어, 한국어로 전이할 때 가장 큰 영향을 준 소스 언어는 중국어인 결과를 보였다.

키워드

Masked language modeling;

과제정보

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원(No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발)과 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음 (IITP-2022-2018-0-01405)

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

MLM 기반 언어 간 전이학습을 이용한 개체명 인식 방법론 분석

An Analysis of Named Entity Recognition System using MLM-based Language Transfer Learning

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)