Abstract
To effectively retrieve mathematical documents including various equations, mathaware search engines are needed. In this paper, we propose a equation retrieval system which helps users effectively search structurally similar equations. The proposed system disassembles MathML equations into three types of heterogeneous indexing terms; operators, variables, and partial structures of equations. Then, it independently indexes the disassembled terms. When a user inputs a MathML equation, the proposed system searches and ranks equations using weighted sums of three language models for the heterogeneous indexing terms. In the experiments with 244,744 MathML equations, three proposed system showed reliable performances (a P@1 of 53% in the closed test and a P@1 of 63% in the open test).
다양한 수식을 포함하는 수학 문서들을 효과적으로 검색하기 위해서는 수식 인지 검색 엔진이 필요하다. 본 논문에서는 구조적으로 유사한 수식들을 효과적으로 찾아주는 수식 검색 시스템을 제안한다. 제안 시스템은 MathML 수식들을 연산자, 변수, 그리고 수식 구조와 같은 3가지 형태의 이질적 색인어로 분리하고 독립적으로 색인한다. 사용자가 MathML 수식을 입력하면 제안 시스템은 이질적인 색인어들을 위한 3가지 언어모델들의 가중치 합을 이용하여 수식들을 검색하고 순위화한다. 244,824개의 MathML 수식을 대상으로 한 실험에서 제안 시스템은 비공개 테스트에서 53%의 1순위 정확률, 공개 테스트에서 63%의 1순위 정확률을 보였다.