Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2015.10a
- /
- Pages.202-205
- /
- 2015
- /
- 2005-3053(pISSN)
Improving Quality of Training Corpus for Named Entity Recognition Using Heuristic Rules
휴리스틱을 이용한 개체명 인식 학습 말뭉치 품질 향상
- Lee, Seong-Hee (Department of Computer and Communications Engineering College of Information Technology, Kangwon National University) ;
- Song, Yeong-Kil (Department of Computer and Communications Engineering College of Information Technology, Kangwon National University) ;
- Kim, Hark-Soo (Department of Computer and Communications Engineering College of Information Technology, Kangwon National University)
- Published : 2015.10.17
Abstract
개체명 인식은 문서에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 지도 학습 기법을 이용한 개체명 인식을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 말뭉치 구축은 인력과 시간이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하고 초기 학습 말뭉치의 노이즈를 제거하여 말뭉치의 품질을 향상시키는 방법을 제안한다. 제안 방법은 반자동 개체명 사전 구축 방법으로 구축한 개체명 사전과 원거리 감독법을 사용하여 초기 개체명 범주 부착 말뭉치를 구축한다. 그리고 휴리스틱을 이용하여 초기 말뭉치의 노이즈를 제거하여 학습 말뭉치의 품질을 향상시키고 개체명 인식의 성능을 향상시킨다. 실험 결과 휴리스틱 적용을 통해 개체명 인식의 F1-점수를 67.36%에서 73.17%로 향상시켰다.