DOI QR코드

DOI QR Code

위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법

A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia

  • 이호경 (와이즈넛 성장기술본부 AI팀) ;
  • 안재현 (동아대학교 컴퓨터공학과) ;
  • 윤정민 (동아대학교 컴퓨터공학과) ;
  • 배경만 (한국전자정보통신연구소 언어지능연구그룹) ;
  • 고영중 (동아대학교 컴퓨터공학과)
  • 투고 : 2017.02.10
  • 심사 : 2017.06.08
  • 발행 : 2017.08.15

초록

개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.

Entity Linking find the meaning of an entity mention, which indicate the entity using different expressions, in a user's query by linking the entity mention and the entity in the knowledge base. This task has four challenges, including the difficult knowledge base construction problem, multiple presentation of the entity mention, ambiguity of entity linking, and NIL entity recognition. In this paper, we first construct the entity name dictionary based on Wikipedia to build a knowledge base and solve the multiple presentation problem. We then propose various methods for NIL entity recognition and solve the ambiguity of entity linking by training the support vector machine based on several features, including the similarity of the context, semantic relevance, clue word score, named entity type similarity of the mansion, entity name matching score, and object popularity score. We sequentially use the proposed two methods based on the constructed knowledge base, to obtain the good performance in the entity linking. In the result of the experiment, our system achieved 83.66% and 90.81% F1 score, which is the performance of the NIL entity recognition to solve the ambiguity of the entity linking.

키워드

과제정보

연구 과제번호 : (엑소브레인-1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발

연구 과제 주관 기관 : 정보통신기술진흥센터

참고문헌

  1. A. Lally, J. M. Prager, M. C. McCord, B. K. Boguraev, S. Patwardhan, J. Fan, P. Fodor, and J. Chu-Carroll, "Question analysis: How Watson reads a clue," IBM J. Res. & Dev, Vol. 56, No. 3/4, pp. 2:1-2:14, 2012.
  2. S. Cucerzan, "Large-scale named entity disambiguation based on Wikipedia data," Proc. EMNLPCoNLL, pp. 708-716, 2007.
  3. Kulkarni, Sayali, et al., "Collective annotation of Wikipedia entities in web text," Proc. the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, 2009.
  4. S. Guo, M.-W. Chang, and E. Kiciman, "To link or not to link? A study on end-to-end tweet entity linking," Proc. HLT-NAACL, pp. 1020-1030, 2013.
  5. W. Zhang, Y. C. Sim, J. Su, and C. L. Tan, "NUSI2R: Learning a combined system for entity linking," Proc. TAC Workshop, 2010.
  6. In-su Kang, "An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia," Proc. Journal of Korean Institute of Intelligent Systems, Vol. 25, No. 2, pp. 111-118, 2015. https://doi.org/10.5391/JKIIS.2015.25.2.111
  7. W. Zhang, J. Su, B. Chen, W. Wang, Z. Toh, Y. Sim, Y. Cao, C. Y.Lin, and C. L. Tan, "I2R-NUS-MSRA at TAC 2011: Entity linking," Proc. TAC Workshop, 2011.
  8. X. Han, L. Sun, and J. Zhao, "Collective entity linking in web text: A graph-based method," Proc. the 34th international ACM SIGIR conference on Research and development in Information Retrieval, pp. 765-774, 2011.
  9. Soyoon Jeong, Youngmin Park, Sangwoo Kang, Jungyun Seo, "Entity Linking For Tweets Using User Model and Real-time News Stream," Proc. Korean Journal of Cognitive Science, Vol. 26, No. 4, pp. 435-442, 2015. https://doi.org/10.19066/cogsci.2015.26.4.003
  10. Maria Pershina, Yifan He, Ralph Grishman, "Personalized Page Rank for Named Entity Disambiguation," Proc. HLT-NAACL, pp. 238-243, 2015.
  11. Maria Pershina, Yifan He, Ralph Grishman, "Entity Linking with a Paraphrase Flavor," Proc. Language Resources and Evaluation Conference, 2016.