DOI QR코드

DOI QR Code

Named Entity Recognition for Patent Documents Based on Conditional Random Fields

조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식

  • 이태석 (한국과학기술정보연구원 정보서비스실) ;
  • 신수미 (한국과학기술정보연구원 정보서비스실) ;
  • 강승식 (국민대학교 컴퓨터공학부)
  • Received : 2016.01.11
  • Accepted : 2016.04.18
  • Published : 2016.09.30

Abstract

Named entity recognition is required to improve the retrieval accuracy of patent documents or similar patents in the claims and patent descriptions. In this paper, we proposed an automatic named entity recognition for patents by using a conditional random field that is one of the best methods in machine learning research. Named entity recognition system has been constructed from the training set of tagged corpus with 660,000 words and 70,000 words are used as a test set for evaluation. The experiment shows that the accuracy is 93.6% and the Kappa coefficient is 0.67 between manual tagging and automatic tagging system. This figure is better than the Kappa coefficient 0.6 for manually tagged results and it shows that automatic named entity tagging system can be used as a practical tagging for patent documents in replacement of a manual tagging.

특허 정보검색에서는 검색 정확도를 높이거나 유사 특허들을 검색하기 위한 목적으로 청구항 등 특허 기술 문서의 내용을 대표하는 개체명 인식이 필요하다. 본 연구에서는 특허 개체명을 자동으로 인식하기 위하여 기계 학습 기법에서 태깅 문제 해결에 매우 우수한 성능을 보이는 조건부 랜덤 필드 기법을 이용하는 특허 개체명 인식 방법을 제안하였다. 개체명 태깅이 되어 있는 특허 문서 말뭉치에서 66만 어절을 학습용 데이터로 사용하여 특허 개체명 시스템을 구축하고, 7만 어절을 평가용 데이터로 사용하여 성능 평가를 하였다. 실험 결과에 의하면 개체명 인식 정확도는 93.6%이고, 개체명 인식 성능을 수작업 태깅 결과와 비교하여 일치도를 평가했을 때 카파 계수는 0.67로 나타났다. 이 카파 계수값은 두 사람의 수작업 태깅 결과에 대한 카파 계수 0.6 보다 높은 것으로 특허 개체명 인식 시스템이 수작업 태깅을 대신하여 실용적으로 활용될 수 있음을 확인하였다.

Keywords

References

  1. D. Nadeau and S. Sekine, "A Survey of Named Entity Recognition and Classification," Lingvisticae Investigationes, Vol.30, No.1, pp.3-26, 2007. https://doi.org/10.1075/li.30.1.03nad
  2. S. Cucerzan and D. Yarowsky, "Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence," Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora, pp.90-99, 1999.
  3. Y. Wang, "Annotating and Recognising Named Entities in Clinical Notes," Proceedings of the ACL-IJCNLP 2009 Student Research Workshop, pp.18-26, 2009.
  4. H. Gurulingappa, B. Muller, R. Klinger, H. Mevissen, M. Hofmann-Apitius, J. Fluck, and C. Friedrich, "Patent Retrieval in Chemistry based on Semantically Tagged Named Entities," Proceedings of the Eighteenth Text RETrieval Conference (TREC 2009), pp.1-9, 2009.
  5. D. Eisinger, G. Tsatsaronis, M. Bundschus, U. Wieneke, and M. Schroeder, "Automated Patent Categorization and Guided Patent Search using IPC as Inspired by MeSH and PubMed," Journal of Biomed Semantics, Vol.4, Suppl. 1, 2013.
  6. J. Lafferty, A. McCallum, and F. Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," Proceedings of the 18th International Conference on Machine Learning, pp.282-289, 2001.
  7. C. Sutton and A. McCallum, "An Introduction to Conditional Random Fields," Machine Learning, Vol.4, No.4, pp.267-373, 2011.
  8. H. Wallach, "Conditional Random Fields: An Introduction," CIS Technical Report MS-CIS-04-21, University of Pennsylvania, pp.1-9, 2004.