Improving Quality of Training Corpus for Named Entity Recognition Using Heuristic Rules

휴리스틱을 이용한 개체명 인식 학습 말뭉치 품질 향상

  • Lee, Seong-Hee (Department of Computer and Communications Engineering College of Information Technology, Kangwon National University) ;
  • Song, Yeong-Kil (Department of Computer and Communications Engineering College of Information Technology, Kangwon National University) ;
  • Kim, Hark-Soo (Department of Computer and Communications Engineering College of Information Technology, Kangwon National University)
  • 이성희 (강원대학교 IT대학 컴퓨터정보통신공학전공) ;
  • 송영길 (강원대학교 IT대학 컴퓨터정보통신공학전공) ;
  • 김학수 (강원대학교 IT대학 컴퓨터정보통신공학전공)
  • Published : 2015.10.17

Abstract

개체명 인식은 문서에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 지도 학습 기법을 이용한 개체명 인식을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 말뭉치 구축은 인력과 시간이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하고 초기 학습 말뭉치의 노이즈를 제거하여 말뭉치의 품질을 향상시키는 방법을 제안한다. 제안 방법은 반자동 개체명 사전 구축 방법으로 구축한 개체명 사전과 원거리 감독법을 사용하여 초기 개체명 범주 부착 말뭉치를 구축한다. 그리고 휴리스틱을 이용하여 초기 말뭉치의 노이즈를 제거하여 학습 말뭉치의 품질을 향상시키고 개체명 인식의 성능을 향상시킨다. 실험 결과 휴리스틱 적용을 통해 개체명 인식의 F1-점수를 67.36%에서 73.17%로 향상시켰다.

Keywords