Automatic Training Corpus Generation Method of Named Entity Recognition Using Knowledge-Bases

개체명 인식 코퍼스 생성을 위한 지식베이스 활용 기법

  • Park, Youngmin (Computer Science and Engineering Sogang University) ;
  • Kim, Yejin (Computer Science and Engineering Sogang University) ;
  • Kang, Sangwoo (Computer Science and Engineering Sogang University) ;
  • Seo, Jungyun (Computer Science and Engineering Sogang University)
  • Received : 2016.03.16
  • Accepted : 2016.03.17
  • Published : 2016.03.31

Abstract

Named entity recognition is to classify elements in text into predefined categories and used for various departments which receives natural language inputs. In this paper, we propose a method which can generate named entity training corpus automatically using knowledge bases. We apply two different methods to generate corpus depending on the knowledge bases. One of the methods attaches named entity labels to text data using Wikipedia. The other method crawls data from web and labels named entities to web text data using Freebase. We conduct two experiments to evaluate corpus quality and our proposed method for generating Named entity recognition corpus automatically. We extract sentences randomly from two corpus which called Wikipedia corpus and Web corpus then label them to validate both automatic labeled corpus. We also show the performance of named entity recognizer trained by corpus generated in our proposed method. The result shows that our proposed method adapts well with new corpus which reflects diverse sentence structures and the newest entities.

개체명 인식은 미리 정의된 개체 범주로 텍스트의 요소를 분류하는 과정을 의미하며 최근 주목 받고 있는 음성 비서 서비스 등 다양한 응용 분야에 널리 활용되고 있다. 본 논문에서는 지식베이스를 사용하여 개체명 인식 코퍼스를 자동으로 생성하는 방법을 제안한다. 지식베이스의 종류에 따라 두 가지 방법을 적용하며 그 중 첫 번째 방법은 위키피디아를 기반으로 위키피디아 본문의 문장에 개체명 표지를 부착하여 학습 코퍼스를 생성하는 방법이다. 두 번째 방법은 인터넷으로부터 다양한 형태의 문장을 수집하고 다양한 개체들 간의 관계를 데이터베이스에 보유 중인 프리베이스를 이용하여 개체명 표지를 부착하는 방법으로 학습 코퍼스를 생성한다. 자동 생성된 학습 코퍼스의 질과 본 논문에서 제안하는 학습 코퍼스 자동 생성 기법을 평가하기 위해 두 가지로 실험했다. 첫 번째, 다른 형태의 지식베이스인 위키피디아와 프리베이스(Freebase)를 기반으로 생성된 학습 코퍼스의 표지 부착 성능을 수동으로 측정하여 코퍼스의 질을 평가하였다. 두 번째, 각 코퍼스로 학습된 개체명 인식 모델의 성능을 통해 제안하는 학습 코퍼스 자동 생성 기법의 실용성을 평가하였다. 실험을 통해 본 방법이 타당함을 증명하였으며 특히 실제 응용에서 많이 사용되는 웹 데이터 환경에서 의미 있는 성능 향상을 보여주었다.

Keywords

References

  1. 심광섭 (2011). CRF를 이용한 한국어 자동 띄어쓰기. 인지과학, 22(2), 217-233.
  2. Asahara, M., & Matsumoto, Y. (2003). Japanese named entity extraction with redundant morphological analysis. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 8-15.
  3. Bikel, D. M., Miller, S., Schwartz, R., & Weischedel, R. (1997). Nymble: a high-performance learning name-finder. Proceedings of the fifth conference on Applied natural language processing, 194-201.
  4. Blum, A. (2015). Semi-supervised Learning. Springer, 1-7.
  5. Borthwick, A., Sterling, J., Agichtein, E., & Grishman, R. (1998). NYU: Description of the MENE named entity system as used in MUC-7. Proceedings of the 7th Seventh Message Understanding Conference.
  6. Evan J. (2009). Generating a plain text corpus from Wikipedia(Wikipedia2text), http://blog.afterthedeadline.com/2009/12/04/generating-a-plain-text-corpus-from-wikipedia/
  7. Garrido, G., Penas, A., Cabaleiro, B., & Rodrigo, A. (2012). Temporally anchored relation extraction. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 107-116.
  8. Godbole, V., Liu, W., & Togneri, R. (2015). An Investigation of Neural Embeddings for Coreference Resolution. Computational Linguistics and Intelligent Text Processing, 241- 251.
  9. McCallum, A., & Li, W. (2003). Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. Proceedings of the seventh conference on Natural language learning at HLT-NAACL, 188-191.
  10. Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009). Distant supervision for relation extraction without labeled data. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 1003-1011.
  11. Peng, F., Feng, F., & McCallum, A. (2004). Chinese segmentation and new word detection using conditional random fields. Proceedings of the 20th international conference on Computational Linguistics, Article No.562.
  12. Sekine, S. (1998). NYU: Description of the Japanese NE system used for MET-2. Proceedings of the 7th Message Understanding Conference.
  13. Surdeanu, M., McClosky, D., Tibshirani, J., Bauer, J., Chang, A. X., Spitkovsky, V. I., & Manning, C. D. (2010). A simple distant supervision approach for the TAC-KBP slot filling task. Proceedings of Text Analysis Conference Workshop.
  14. Surdeanu, M., Tibshirani, J., Nallapati, R., & Manning, C. D. (2012). Multi-instance multi-label learning for relation extraction. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 455-465.