초록
웹 3.0 시대의 도래와 IoT(Internet of Things) 기술을 발달에 따라 생산된 정보의 양 역시 기하급수적으로 늘고 있다. 본 논문에서는 이 중에서 사용자의 관심도가 높은 개체명(NE: Named Entity) 사전을 반자동으로 구축하는 도구를 개발하였다. 제안된 방법은 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성하고 사용자로부터 최소한의 보정 작업을 수행하여 이를 재학습한다, 특히 공개지식자원인 위키피디아 내의 다양한 메타데이터의 특성을 활용하여 능동 학습에 필요한 학습 예제 작성을 위한 수작업을 최소화하고자 한다. 도구 활용 효과를 분석한 결과, 능동 학습을 통해 자동 인식 결과의 오류의 약 68.6%가 보정됨을 보였다.
Along with advent of Web 3.0 era and advanced technologies of IoT(Internet of Things), massive amounts of information are generated. Reflecting this trend, this paper developed a semi-automatic construction tool for named entity dictionary based on active learning. Our proposed method chose error candidates to verify among the preliminary results using initial trained model and re-trained the model for correctly labeled data by user. We adopt active learning approach for minimizing human effort utilized metadata features of Wikipedia. Based on experimental results using our tool, we show that 68.6% errors were automatically corrected.