DOI QR코드

DOI QR Code

링크확률과 개체명 인식을 이용한 영-한 교차언어 링크 탐색

English-Korean Cross-lingual Link Discovery Using Link Probability and Named Entity Recognition

  • 강신재 (대구대학교 정보통신대학 컴퓨터.IT공학부)
  • Kang, Shin-Jae (School of Computer and Information Technology, Daegu University)
  • 투고 : 2013.03.20
  • 심사 : 2013.05.04
  • 발행 : 2013.06.25

초록

본 논문에서는 방대한 웹 자원의 연결성을 더욱 증가시키기 위해 영어 위키피디아 문서로부터 한국어 위키피디아 문서로의 교차언어 링크를 자동으로 탐색하는 방법을 제안한다. 어구의 링크확률을 대략 추정하여 사용하던 기존의 방법에 비해, 본 연구에서는 위키피디아 문서 집합으로부터 추출한 제목 목록과 링크 확률과 같은 다양한 정보들과 개체명 인식 결과를 함께 사용하여 링크가 걸릴 앵커 후보를 선택한다. 앵커 후보를 한국어 대역어로 번역한 후, 대역어에 가장 적합한 한국어 웹문서를 찾아 교차언어 링크로 설정하게 된다. 실험한 결과 MAP 수치로 0.375를 얻었다.

This paper proposes an automatic method for discovering cross-lingual links from English Wikipedia documents to Korean ones in order to increase connectivity among vast web resources. Compared to the existing methods roughly estimating link probability of phrases, candidate anchors are selected from English documents by using various information such as title lists and linking probability extracted from Wikipedia dumps and the results of named-entity recognition, and the anchors are translated into Korean words, and then the most suitable Korean documents with the words are selected as cross-lingual links. The experimental results showed 0.375 of MAP.

키워드

참고문헌

  1. CrossLingual Link Discovery Task, http://ntcir.nii.ac.jp/CrossLink/
  2. CrossLink,Evaluation, http://crosslink.googlecode.com/files/CrosslinkEvaluation-Training-20110715.zip
  3. R. Mihalcea, and A. Csomai, "Wikify! Linking Documents to Encyclopedic Knowledge", In Proceedings of the CIKM'07, pp.233-242, November, 2007.
  4. L. X. Tang, D. Cavanagh, A. Trotman, S. Geva, Y. Xu, and L. Sitbon, "Automated Cross-lingual Link Discovery in Wikipedia", In Proceedings of the 9th NTCIR Workshop Meeting, pp.512-519, December 2011.
  5. J. Kim and I. Gurevych, "UKP at CrossLink: Anchor Text Translation for Cross-lingual Link Discovery", In Proceedings of the 9th NTCIR Workshop Meeting, pp.487-494, December 2011.
  6. I. S. Kang, and R. Marigomen, "English-to-Korean Cross-linking of Wikipedia Articles at KSLP", In Proceedings of the 9th NTCIR Workshop Meeting, pp.481-483, December 2011.
  7. E. Adar, M. Skinner, and D. S. Weld, "Information Arbitrage Across Multi-lingual Wikipedia", In Proceedings of the 2nd ACM International Conference on Web Search and Data Mining, pp.94-103, February 2009.
  8. NTCIR-9 Home, http://research.nii.ac.jp/ntcir/ntcir-9/
  9. Natural Language Toolkit, http://nltk.org/
  10. S. Bird, E. Klein, and E. Loper, Natural Language Processing with Python, O'reilly, pp.281-284, 2009.

피인용 문헌

  1. Conflict Resolution of Patterns for Generating Linked Data From Tables vol.24, pp.3, 2014, https://doi.org/10.5391/JKIIS.2014.24.3.285