DOI QR코드

DOI QR Code

A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia

위키피디아 기반 개체명 사전 반자동 구축 방법

  • 송영길 (강원대학교 컴퓨터정보통신공학전공) ;
  • 정석원 (강원대학교 컴퓨터정보통신공학전공) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학전공)
  • Received : 2015.07.23
  • Accepted : 2015.09.16
  • Published : 2015.11.15

Abstract

A named entity(NE) dictionary is an important resource for the performance of NE recognition. However, it is not easy to construct a NE dictionary manually since human annotation is time consuming and labor-intensive. To save construction time and reduce human labor, we propose a semi-automatic system for the construction of a NE dictionary. The proposed system constructs a pseudo-document with Wiki-categories per NE class by using an active learning technique. Then, it calculates similarities between Wiki entries and pseudo-documents using the BM25 model, a well-known information retrieval model. Finally, it classifies each Wiki entry into NE classes based on similarities. In experiments with three different types of NE class sets, the proposed system showed high performance(macro-average F1-score of 0.9028 and micro-average F1-score 0.9554).

개체명은 다양한 자연어처리 연구 및 서비스에 중요한 정보로 이용된다. 개체명 인식의 성능을 향상시키기 위한 여러 연구에서 개체명 사전을 이용한 자질이 개체명 인식 성능에 큰 영향을 준다는 것을 보이고 있다. 그러나 개체명 사전을 구축하는 것은 매우 시간 소모적이고, 인력 소모적인 작업이다. 이를 완화하기 위해서 본 논문에서는 개체명 사전을 반자동으로 구축하는 방법을 제안한다. 제안 시스템은 능동학습을 이용하여 위키피디아 분류정보로 구성된 가상 문서를 개체명 범주 당 하나씩 생성한다. 그리고 잘 알려진 정보검색 모델인 BM25를 이용하여 위키피디아 엔트리와 가상문서 사이의 유사도를 계산한다. 마지막으로 유사도를 바탕으로 각 위키피디아 엔트리를 개체명 범주로 분류한다. 서로 다른 3종류의 개체명 범주 집합에서 실험한 결과, 제안 시스템은 매크로 평균 F1-점수 0.9028, 마이크로 평균 F1-점수 0.9554이라는 높은 성능을 보였다.

Keywords

Acknowledgement

Grant : 링크드데이터 기반 대화형 질의응답 검색 프레임워크개발

Supported by : 한국연구재단

References

  1. D. Nadeau, S. Sekine, "A Survey of Named Entity Recognition and Classification," Linguisticae Investigationes, Vol. 30, No. 1, pp. 3-26, 2007. https://doi.org/10.1075/li.30.1.03nad
  2. (1996, Apr. 25). MUC-6 [Online]. Available: http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html (downloaded 2015, Jul. 22)
  3. (2002, Aug. 03). BBN [Online]. Available: https://catalog.ldc.upenn.edu/docs/LDC2005T33/BBN-Types-Subtypes.html (downloaded 2015, Jul. 22)
  4. M. Tkachenko, A. Ulanov, A. Simanovsky, "Fine grained classification of named entities in wikipedia," Technical report, HP Laboratories, 2010.
  5. E. Agichtein, L. Gravano, "Snowball : Extracting Relations from Large Plain-Text Collections," Proc. of the 5th ACM Conference on Digital Libraries, pp. 85-94, 2000.
  6. M. Thelen, E. Riloff, "A Bootstrapping Method for Learning Semantic Lexicons using Extraction Pattern Contexts," Proc. of the Conference on Empirical Methods in NLP, pp. 217-221, 2002.
  7. K. Shinzato, S. Sekine, N. Yoshinaga, K. Torisawa, "Constructing Dictionaries for Named Entity Recognition on Specific Domains from the Web," Proc. of the 5th International Semantic Web Conference - Workshop on Web Content Mining with Human Language Technologies, 2006.
  8. S. Bae, Y. Ko, "Automatic Construction of Class Hierarchies and Named Entity Dictionaries using Korean Wikipedia," Journal of KIISE (B), Vol. 16, No. 4, pp. 492-496, 2010. (in Korean)
  9. DBpedia Ontology [Online]. Available: http://wiki.dbpedia.org/services-resources/ontology (downloaded 2015, Jul. 22)
  10. B. Settles, "Active learning literature survey," Computer Sciences Technical Report 1648, University of Wisconsin-Madison, 2009.
  11. Y. H. Lee, S. B. Lee, "A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method," Journal of the Korea Academia-Industrial cooperation Society, Vol. 11, No. 12, pp. 5089-5096, 2010. https://doi.org/10.5762/KAIS.2010.11.12.5089
  12. (2015, Jun. 13) Okapi BM25 [Online]. Available: https://en.wikipedia.org/wiki/Okapi_BM25 (downloaded 2015, Jul. 22)
  13. Ontology Classes [Online]. Available: http://mappings.dbpedia.org/server/ontology/classes/ (downloaded 2015, Aug, 31)