Automatic Construction of Class Hierarchies and Named Entity Dictionaries using Korean Wikipedia

한국어 위키피디아를 이용한 분류체계 생성과 개체명 사전 자동 구축

  • Received : 2009.12.15
  • Accepted : 2010.02.02
  • Published : 2010.04.15

Abstract

Wikipedia as an open encyclopedia contains immense human knowledge written by thousands of volunteer editors and its reliability is also high. In this paper, we propose to automatically construct a Korean named entity dictionary using the several features of the Wikipedia. Firstly, we generate class hierarchies using the class information from each article of Wikipedia. Secondly, the titles of each article are mapped to our class hierarchies, and then we calculate the entropy value of the root node in each class hierarchy. Finally, we construct named entity dictionary with high performance by removing the class hierarchies which have a higher entropy value than threshold. Our experiment results achieved overall F1-measure of 81.12% (precision : 83.94%, recall : 78.48%).

위키피디아는 개방형 백과사전으로서 수많은 편집자들에 의해 작성되기 때문에 빠른 시간에 방대한 양의 정보가 축적되고 있으며, 축적되는 정보의 신뢰성 또한 매우 높다. 본 논문에서는 이러한 장점을 가진 위키피디아의 여러 가지 세부정보를 이용하여 한국어 개체명 사전을 자동으로 구축하는 방법을 제안한다. 먼저 위키피디아의 각 엔트리(entry)의 분류정보를 사용하여 분류체계(class hierarchy)를 생성한다. 생성된 분류체계에 위키피디아 엔트리를 자동으로 매핑(mapping)시킨 다음, 분류체계에서 최상위 계층의 불확실성(entropy)을 계산한다. 마지막으로, 임계값 이상의 불확실성을 가지는 분류체계를 제거함으로써 정확률이 높은 개체명 사전을 구축한다. 본 논문에서 제안하는 방법으로 실험을 한 결과 최고 81.12%(83.94%:정확률,78.48%:재현율)의 F1-measure의 성능을 보였다.

Keywords

References

  1. K. Lee, J. Lee, M. Chol, G. Kim, "Study on Named Entity Recognition in Korean Text," Proc. of the Annual Conference on Human Cognitive Language Technology, vol.21, no.1(C), pp.292-299, 2000. (in Korean)
  2. E. Riloff And R. Jones, "Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping," Proc. of the Sixteenth National Conference on Artificial Intelligence, pp.474-479, 1999.
  3. E. Agichtein And L. Gravano, "Snowball: extracting relations from large plain-text collections," Comm. ACM, pp.85-94, 2000.
  4. M. Thelen And E. Riloff, "A Bootstrapping Method for Learning Semantic Lexicons using Extraction Pattern Contexts," Proc. of the Conference on EMNLP, pp.214-221, 2002.
  5. W. Dakka And S. Cucerzan, "Augmenting Wikipedia with Named Entity Tags," Proc. of the IJCNLP, pp.545-552, 2008.
  6. S. Ye , T. Seng, J. Iu, "Summarizing Definition from Wikipedia," Proc. of the ACL-IJCNLP, pp.199-207, 2009.
  7. A. Richman And P. Schone, "Mining Wiki Resources for Multilingual Named Entity Recognition," Proc. of the ACL, pp.1-9, 2008.
  8. A. L. Berger, S. A. Della Pietra, S. A. Della Pietra, "A Maximum Entropy Approach to Natural Language Processing," Proc. of the Computational Linguistics, pp.39-71, 1996.