Named Entity Recognition using CNN for Korean syllabic character.

음절 기반의 CNN를 이용한 개체명 인식

  • Published : 2017.10.13

Abstract

개체명 인식(Named Entity Recognition, 이하 NER)은 인명(PS), 기관명(OG), 장소(LC), 날짜(DT), 시간(TI) 등에 해당하는 개체명에 일정한 태깅 값을 주어 그 정보를 가시화하는 작업이다. 한국어 개체명 인식은 아직 그 자질이 충분히 밝혀져 있지 않아 자연어 처리 분야의 발전을 더디게 하는 한 요소로 작용하고 있다. 한국어가 음절 기반으로 단어를 형성하고 비교적 어순이 자유롭다는 특성이 있기에, 이런 특징을 잘 포착할 수 있는 "음절 기반의 Convolutional Neural Network(CNN)"의 아키텍쳐를 제안하여 66.80%의 성능을 보였다. 이 방법을 사용하면 형태소 분석등 개체명 이전 단계에서 발생하는 오류에 의해 개체명 인식(NER)의 성능이 떨어지는 문제를 해결할 수 있고, 조사나 어미 등을 제거하기 위한 후처리를 생략할 수 있다.

Keywords