그래프 구조를 이용한 카테고리 구조로부터 상하위 관계 추출

Graph-based ISA/instanceOf Relation Extraction from Category Structure

  • 투고 : 2009.11.24
  • 심사 : 2010.04.19
  • 발행 : 2010.06.15

초록

상하위 관계 자동 추출은 분류체계를 자동 구축하는 데 있어서 핵심적인 내용이며, 이렇게 자동으로 구축된 분류 체계는 정보 추출과 같은 여러 가지 분야에 있어서 중요하게 사용된다. 본 논문에서는 카테고리 구조로부터 상하위 관계를 추출하는 방식에 대하여 제안한다. 본 논문에서는 판별하고자 하는 카테고리 구조뿐만이 아닌, 그와 관련된 다른 카테고리 구조까지 고려하여 카테고리 이름에 나타난 토큰들간의 수식 그래프를 구축한 후, 그래프 분석 알고리즘을 통하여 각 카테고리 구조가 상하위 관계일 가능성에 대한 점수를 매긴다. 실험 결과, 본 알고리즘은 기존의 연구로 상하위 관계임을 판별할 수 없었던 일부 카테고리 구조에 대하여 성공적으로 상하위 관계인지를 판별하였다.

In this paper, we propose a method to extract isa/instanceOf relation from category structure. Existing researches use lexical patterns to get isa/instanceOf relation from the category structure, e.g. head word matching, to determine whether the given category link is isa/instanceOf relation or not. In this paper, we propose a new approach which analyzes other category links related to the given category link to determine whether the given category link is isa/instanceOf relation or not. The experimental result shows that our algorithm can cover many cases which the existing algorithms were not able to deal with.

키워드

참고문헌

  1. A. Hotho, S. Staab, G. Stumme, "Ontologies improve text document clustering," Porceedings of the IEEE International Conference on Data Mining, pp.541-544, 2003.
  2. S. Chakrabarti, B. Dom, R. Agrawal, P. Raghavan, "Using taxonomy, discriminants, and signatures for navigating in text databases," Proceedings of the international conference on very large data bases, 1997.
  3. M. Sanderson, B. Croft, "Deriving concept hierarchies from text," Proceedings of the International Conference on New Methods in Language Processing, 1994.
  4. P. Cimiano, A. Hotho, S. Staab, "Learning Concept Hierarchies from Text Corpora using Formal Concept Analysis," Journal of Artificial Intelligence Research, vol.24, pp.305-339, 2005.
  5. P. Cimiano, A. Pivk, L. Schmidt-Thieme, S. Staab, "Learning Taxonomic Relations from Heterogeneous Sources of Evidence," Ontology Learning from Text: Methods, Evaluation and Applications, pp.59-73, 2005.
  6. J. X. Huang, J. A. Shin, K. S. Choi, "Enriching Core Ontology with Domain Thesaurus through Concept and Relation Classification," OntoLex07. 2007.
  7. S. P. Ponzetto, M. Strube, "Deriving a Large Scale Taxonomy from Wikipedia," Proceedings of the national conference on artificial intelligence, 2007.
  8. V. Nastase, M. Strube, "Decoding Wikipedia category names for knowledge acquisition," Proceedings of the 23rd Conference on the Advancement of Artificial Intelligence, pp.1219-1224. 2008.
  9. Wikipedia, http://www.wikipedia.org/
  10. DBpedia, http://dbpedia.org/About
  11. M. Collins, "Head-driven statistical models for natural language parsing," Ph.D. thesis, University of Pennsylvania, Philadelphia, 1999.
  12. J. M. Kleinberg, "Authoritative sources in a hyperlinked environment," Journal of the ACM, vol.46, no.5, pp.604-632, 1999. https://doi.org/10.1145/324133.324140
  13. R. Mihalcea, P. Tarau, "A Language Independent Algorithm for Single and Multiple Document Summarization," Proceedings of IJCNLP 2005, 2005.
  14. R. Mizoguchi, "Part 3: Advanced cource of ontological engineering," New Generation Computing, vol.22, no.2, pp.193-220, 2004. https://doi.org/10.1007/BF03040960