문장-질의 유사성을 이용한 웹 정보 검색의 성능 향상

Performance Improvement of Web Information Retrieval Using Sentence-Query Similarity

  • 박의규 (연세대학교 전산학과) ;
  • 나동열 (연세대학교 전산학과) ;
  • 장명길 (한국전자통신연구원 지식마이닝연구팀)
  • 발행 : 2005.05.01

초록

인터넷의 발전으로 웹 상에 수많은 문서 및 정보가 존재하는 상황에서 사용자가 원하는 정보를 담은 웹 문서를 검색하여 주는 웹 정보 검색 기술은 매우 중요하게 되었다. 본 논문에서는 웹 정보 검색 시스템의 성능 향상에 효과적인 몇 가지 주요한 기술을 제안하였다. 기존 시스템들은 주로 문서와 질의의 유사도를 계산하여 이를 주요 정보로 이용하였다. 그러나 본 논문에서는 여기에서 한 걸음 더 나아가 문서 안의 각 문장들이 질의와 얼마나 유사한가를 계산하여 이를 이용하는 기법을 제안하였다. 이러한 문장-질의 유사도를 성숙된 자연어 처리 기술 없이 근사적으로 계산하는 방법을 소개하였다. 그리고 이계산 작업은 문서 수의 증가에 선형적인 계산량의 증가를 가져 옴을 보임으로써 실용적인 대용량 시스템에서도 사용할 수 있음을 보였다. 그 다음으로 제안된 주요한 기술은 출력 문서의 순위화에 계층적인 개념을 도입하는 것이다. 이 기법을 사용함으로써 상당한 성능 향상을 이룰 수 있음을 보였다. 그 외에도 웹 문서의 특징인 하이퍼 링크 정보와 타이틀 정보를 이용하여 어느 정도의 성능 개선을 가져올 수 있음을 보였다. 이러한 기술들의 타당성을 입증하기 위해 대용량 웹 정보검색 시스템을 개발하고 실험하였다.

Prosperity of Internet led to the web containing huge number of documents. Thus increasing importance is given to the web information retrieval technology that can provide users with documents that contain the right information they want. This paper proposes several techniques that are effective for the improvement of web information retrieval. Similarity between a document and the query is a major source of information exploited by conventional systems. However, we suggest a technique to make use of similarity between a sentence and the query. We introduce a technique to compute the approximate score of the sentence-query similarity even without a mature technology of natural language processing. It was shown that the amount of computation for this task is linear to the number of documents in the total collection, which implies that practical systems can make use of this technique. The next important technique proposed in this paper is to use stratification of documents in re-ranking the documents to output. It was shown that it can lead to significant improvement in performance. We furthermore showed that using hyper links, anchor texts, and titles can result in enhancement of performance. To justify the proposed techniques we developed a large scale web information retrieval system and used it for experiments.

키워드

참고문헌

  1. D. Harman, 'The TREC Conferences,' In Readings in Information Retrieval, pp. 247-256, Morgan Kaufman, 1997
  2. E. Voorhees and D. Harman, 'Overview of TREC 2001,' Proc. of the Tenth Text Retrieval Conference TREC 2001, May, 2002
  3. Sumio Fujita, 'More reflections on 'aboutness' TREC-2001 evaluation experiments at Justsystem,' Proc. of the Tenth Text Retrieval Conference TREC 2001, May, 2002
  4. N. Craswell and D. Hawking, 'Overview of the TREC-2002 Web Track,' Proc. of the Eleventh Text Retrieval Conference TREC-2002, NIST, May, 2003
  5. National Institute of Informatics, 'NTCIR Workshop 3 Meeting OVERVIEW,' Working Notes of the Third NTCIR Workshop Meeting, October 8-10, 2002
  6. P. Bailey, N. Craswell and D. Hawking, 'Engineering a multi-purpose test collection for Web retrieval experiments,' Technical report, CSIRO, 2001
  7. E. Voorhees, 'Variations in relevance judgements and the measurement of retrieval effectiveness,' Information Processing and Management, 36, pp. 697-716, 2000 https://doi.org/10.1016/S0306-4573(00)00010-8
  8. G. Salton, Automatic Text Processing, Addison-wesley, 1989
  9. G. Salton, A. Wong, and C. S. Tang, 'A Vector Space Model for Automatic Indexing,' Communications of the ACM, 18:11, pp. 614-620, Nov, 1975 https://doi.org/10.1145/361219.361220
  10. J. Perez-Carballo and T. Strzalkowski, 'Natural language information retrieval: progress report,' Information Processing and Management, Vol. 36, pp.155-178, 2000 https://doi.org/10.1016/S0306-4573(99)00049-7
  11. J. Kleinberg, 'Authoritative sources in a hyerlinked environment,' Technical Report RJ 10076, IBM, 1997
  12. D. Hawking, 'Overview of the TREC-9 Web Track,' Proc. of the Ninth Text Retrieval Conference TREC 2000, NIST, May, 2001
  13. J-M Lim, H-J Oh, S-H Maeng and M-H Lee, 'Improving efficiency with document category information in Link-based retrieval,' In Proc. of the Information Retrieval on Asian Languages Conference, 1999