An Equation Retrieval System Based on Weighted Sum of Heterogenous Indexing Terms

이질적 색인어의 가중치 합에 기반한 수식 검색 시스템

  • 신준수 (강원대학교 컴퓨터정보통신공학과) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학과)
  • Received : 2010.04.23
  • Accepted : 2010.08.18
  • Published : 2010.10.15

Abstract

To effectively retrieve mathematical documents including various equations, mathaware search engines are needed. In this paper, we propose a equation retrieval system which helps users effectively search structurally similar equations. The proposed system disassembles MathML equations into three types of heterogeneous indexing terms; operators, variables, and partial structures of equations. Then, it independently indexes the disassembled terms. When a user inputs a MathML equation, the proposed system searches and ranks equations using weighted sums of three language models for the heterogeneous indexing terms. In the experiments with 244,744 MathML equations, three proposed system showed reliable performances (a P@1 of 53% in the closed test and a P@1 of 63% in the open test).

다양한 수식을 포함하는 수학 문서들을 효과적으로 검색하기 위해서는 수식 인지 검색 엔진이 필요하다. 본 논문에서는 구조적으로 유사한 수식들을 효과적으로 찾아주는 수식 검색 시스템을 제안한다. 제안 시스템은 MathML 수식들을 연산자, 변수, 그리고 수식 구조와 같은 3가지 형태의 이질적 색인어로 분리하고 독립적으로 색인한다. 사용자가 MathML 수식을 입력하면 제안 시스템은 이질적인 색인어들을 위한 3가지 언어모델들의 가중치 합을 이용하여 수식들을 검색하고 순위화한다. 244,824개의 MathML 수식을 대상으로 한 실험에서 제안 시스템은 비공개 테스트에서 53%의 1순위 정확률, 공개 테스트에서 63%의 1순위 정확률을 보였다.

Keywords

References

  1. Mathematical Markup Language, http://www.w3.org/math
  2. M. Adeel, H. S. Cheung and S. H. Khiyal, "MATH GO! Prototype of a Content Based Mathematical Formula Search Engine," Journal of Theoretical and Applied Information Technology, vol.4, no.10, pp.1002-1012, 2008.
  3. J. Misutka, L. Galambos, "Extending Full Text Search Engine for Mathematical Content," Proceedings of Towards Digital Mathematics Library, pp.55-67, 2008.
  4. A. S. Youssef, "Relevance Ranking and Hit Description in Math Search," Mathematics in Computer Science, vol.2, no.2, pp.333-353, 2008. https://doi.org/10.1007/s11786-008-0057-3
  5. J. M. Ponte, W. B. Croft, "A Language Modeling Approach to Information Retrieval," Proceedings of ACM SIGIR, pp.275-281, 1998.
  6. http://arxmliv.kwarc.info/files/math-ph/papers/
  7. D. Hiemstra, "Using Language Models for Information Retrieval," Ph.D. Thesis, Centre for Telematics and Information Technology, University of Twente, ISBN 90-75296-05-3, 2001.
  8. J. S. Shin, S. H. Lee, H. S. Kim, "Mathematical Equation Retrieval Based on Properties of Mathematical Symbols," Proceedings of the 36th KIISE Fall Conference, vol.36, no.2(C), pp.188-193, 2009. (in Korean)
  9. M. E. Altamimi, A S. Youssef, "A More Canonical Form of Content MathML to Facilitate Math Search," Proceedings of the 2007 Extreme Markup Languages Conference, 2007.