Semantic Document-Retrieval Based on Markov Logic

마코프 논리 기반의 시맨틱 문서 검색

  • 황규백 (숭실대학교 컴퓨터학부) ;
  • 봉성용 (숭실대학교 컴퓨터학과) ;
  • 구현서 (서울시립대학교 기계정보공학과) ;
  • 백은옥 (서울시립대학교 기계정보공학과)
  • Received : 2009.12.23
  • Accepted : 2010.03.11
  • Published : 2010.06.15

Abstract

A simple approach to semantic document-retrieval is to measure document similarity based on the bag-of-words representation, e.g., cosine similarity between two document vectors. However, such a syntactic method hardly considers the semantic similarity between documents, often producing semantically-unsound search results. We circumvent such a problem by combining supervised machine learning techniques with ontology information based on Markov logic. Specifically, Markov logic networks are learned from similarity-tagged documents with an ontology representing the diverse relationship among words. The learned Markov logic networks, the ontology, and the training documents are applied to the semantic document-retrieval task by inferring similarities between a query document and the training documents. Through experimental evaluation on real world question-answering data, the proposed method has been shown to outperform the simple cosine similarity-based approach in terms of retrieval accuracy.

본 논문은 질의 문서와 의미가 유사한 문서를 검색하는 문제를 다룬다. 이 문제에 대한 기본적인 접근법은 각 문서를 bag-of-words 형태로 표현한 후, 코사인 유사도 등의 거리 기준에 기반하여 유사 문서를 판별하는 것이다. 그러나, 이처럼 문서에 출현하는 단어에만 의존하는 검색 방법은 의미적 유사성을 제대로 반영하기 어렵다는 단점을 가진다. 본 논문에서는 이러한 문제를 극복하기 위해 데이터 기반의 감독 학습(supervised learning) 기법과 관련 온톨로지 정보를 마코프 논리(Markov logic)에 기반하여 결합한다. 구체적으로, 단어들 사이에 존재하는 관계를 표현한 온톨로지와 유사도가 태깅된 문서 데이터에서 마코프 논리 망(Markov logic network)을 학습하며, 학습된 마코프 논리 망과 문서 데이터 및 새로 주어진 질의 문서에 대한 추론을 통해 질의 문서와 의미적으로 유사한 문서를 검색하는 기법을 제안한다. 제안하는 접근법은 서울시의 민원서비스 홈페이지에서 수집된 실제 민원 데이터에 적용되었으며, 적용 결과, 단순한 문서 간 거리에 기반한 유사 문서 검색 기법에 비해 월등히 높은 정확도를 보였다.

Keywords

References

  1. Atlam, E., Fuketa, M., Morita, K., and Aoe, J., Documents similarity measurement using field association terms, Information Processing and Management, vol.39, no.6, pp.809-824, 2003. https://doi.org/10.1016/S0306-4573(03)00019-0
  2. Saracoglu, R., Tuetuencue, K., and Allahverdi, N., A fuzzy clustering approach for finding similar documents using a novel similarity measure, Expert Systems with Applications, vol.33, no.3, pp. 600-605, 2007. https://doi.org/10.1016/j.eswa.2006.06.002
  3. Takaki, T., Fujii, A., and Ishikawa, T., Associative document retrieval by query subtopic analysis and its application to invalidity patent search, Proceedings of the 13th ACM International Conference on Information and Knowledge Management, pp.399-405, 2004.
  4. Wan, X., Yang, J., and Xiao, J., Towards a unified approach to document similarity search using manifold-ranking of blocks, Information Processing and Management, vol.44, no.3, pp.1032-1048, 2008. https://doi.org/10.1016/j.ipm.2007.07.012
  5. Domingos, P. and Lowd, D., Markov Logic: An Interface Layer for Artificial Intelligence, Morgan & Claypool, 2009.
  6. Baeza-Yates, R. and Ribeiro-Neto, B., Modern Information Retrieval, ACM Press and Addison Wesley, 1999.
  7. Domingos, P. and Pazzani, M., On the optimality of the simple Bayesian classifier under zero-one loss, Machine Learning, vol.29, pp.103-130, 1997. https://doi.org/10.1023/A:1007413511361