능동 학습 기법을 활용한 개체명 사전 반자동 구축 도구 개발

Development of Semi-automatic Construction Tool for Named Entity Dictionary based on Active Learning

  • 윤보현 (목원대학교 컴퓨터교육과) ;
  • 오효정 (전북대학교 대학원 기록관리학과, 문화융복합 아카이빙 연구소)
  • 투고 : 2015.10.12
  • 심사 : 2015.11.23
  • 발행 : 2015.11.30

초록

웹 3.0 시대의 도래와 IoT(Internet of Things) 기술을 발달에 따라 생산된 정보의 양 역시 기하급수적으로 늘고 있다. 본 논문에서는 이 중에서 사용자의 관심도가 높은 개체명(NE: Named Entity) 사전을 반자동으로 구축하는 도구를 개발하였다. 제안된 방법은 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성하고 사용자로부터 최소한의 보정 작업을 수행하여 이를 재학습한다, 특히 공개지식자원인 위키피디아 내의 다양한 메타데이터의 특성을 활용하여 능동 학습에 필요한 학습 예제 작성을 위한 수작업을 최소화하고자 한다. 도구 활용 효과를 분석한 결과, 능동 학습을 통해 자동 인식 결과의 오류의 약 68.6%가 보정됨을 보였다.

Along with advent of Web 3.0 era and advanced technologies of IoT(Internet of Things), massive amounts of information are generated. Reflecting this trend, this paper developed a semi-automatic construction tool for named entity dictionary based on active learning. Our proposed method chose error candidates to verify among the preliminary results using initial trained model and re-trained the model for correctly labeled data by user. We adopt active learning approach for minimizing human effort utilized metadata features of Wikipedia. Based on experimental results using our tool, we show that 68.6% errors were automatically corrected.

키워드

참고문헌

  1. Goldman Sachs (2014), The Internet of Things: Making sense of the next mega-trend, IoT Primer, http://www.goldmansachs.com/our-thinking/outlook/internet-of-things/iot-report.pdf
  2. 정유선 (역) (2008), Web 3.0. (Team Weboook)서울: 라이온북스
  3. Wikipedia, history, https://en.wikipedia.org/wiki/Wikipedia:About
  4. Settles, B. (2009). Active learning literature survey: Computer sciences technical report 1648, University of Wisconsin-Madison,
  5. Lewis, D. & Gale, W. (1994). A sequential Algorithm for Training Text Classifiers. The Proceedings of ACM-SIGIR Conference, 3-12.
  6. Olsson, Fredrik (2009). A literature survey of active machine learning in the context of natural language processing, SICS Technical Report T2009:06
  7. Vlachos, Andreas (2006). Active annotation. The Proceedings of the Workshop on Adaptive Text Extraction and Mining (ATEM 2006), 64-71.
  8. 우호영, 박정희 (2013). 계층적 군집화를 이용한 능동적 학습. 정보처리학회논문지/소프트웨어 및 데이터 공학, 2(10), 705-712
  9. Toral A. & Munoz, R. (2006). A proposal to automatically buid and maintain gazetters for named entity recognition by using Wikipedia", The Proceedings of EACL, 56-61
  10. 송영길, 정석원, 김학수 (2015). 위키피디아를 이용한 정보검색 기반 개체명 사전 구축 방법. 2015년 한국컴퓨터종합학술대회 논문집, 648-659
  11. 김태현, 이창수, 황재원, 고영중 (2015). 위키 피디아를 이용한 개체명 부착 코퍼스 자동구축 및 중의성 해소, 2015년 한국컴퓨터종합 학술대회 논문집, 745-747
  12. 류법모, 김현진, 김현기, 박상규 (2012). 심층 언어분석 기반 소셜미디어 이슈 탐지 분석 기술, 정보과학회지, 30(6), 57-68
  13. Lee, C., Hwang, Y. & Jang, M. (2007). Fine-Grained Named Entity Recognition and Relation Extraction for Question Answering, The Proceedings of the ACM-SIGIR conference, 799-800
  14. 유철중, 김용, 윤보현 (2015). 언어자원 자동 구축을 위한 위키피디아 콘텐츠 활용 방안 연구, 디지털융복합연구, 13(5), 187-194 https://doi.org/10.14400/JDC.2015.13.5.187