마크업 패턴을 이용한 웹 검색

Web Information Retrieval Exploiting Markup Pattern

  • 발행 : 2007.11.15

초록

HTML은 웹 페이지의 시각적 표현을 목적으로 하고 있기 때문에, HTML로 작성된 웹 문서에 대한 색인과 질의는 쉬운 문제가 아니다. 그러나 웹 페이지를 표현하는 태그들이 가진 내재적 의미들은 검색 엔진의 성능을 향상시킬 수 있는 가능성을 가지고 있다. 본 논문은 이러한 HTML 태그의 내재적 의미를 이용하기 위해 마크업 패턴을 정의하고, 이를 웰 검색에 응용함으로서 검색 성능을 향상하고자 한다. 마크업 패턴은 웹 레이지 작성자의 표현 의도를 담고 있으며, 명시적으로 하나 이상의 HTML 태그의 연속으로 표현된다. 웹 페이지에서 마크업 패턴을 찾아내고, 이를 웹 검색에 응용하기 위해 본 논문에서는 웹 문서를 재색인하는 방법을 제안한다. 제안하는 방법을 적용한 웹 검색의 성능 향상을 증명하기 위해, BBC와 CNN 웹 사이트의 문서들을 대상으로 실험을 진행하였다. 대상 문서들은 제안한 방법을 통해 가중치를 갖게 되며, 특정 질의에 대한 정확도를 기존 검색 엔진과 비교하여, 본 논문에서 제안하는 마크업 패턴을 이용한 웹 검색의 성능 향상을 증명할 것이다.

Over the years, great attention has been paid to the question of exploiting inherent semantic of HTML in the area of web document retrieval. Although HTML is mainly presentation oriented, HTML tags implicitly contain useful semantics that can be catch meaning of text. Focusing on this idea. in this paper we define 'markup pattern' and try to improve performance of web document retrieval using markup patterns. Markup pattern is a mirror of intends of web document publisher and an internal semantic of text on web document. To discover the markup pattern and exploit it, we suggest a new scheme for extracting concepts and weighting documents. For evaluation task, we select two domains-BBC and CNN web sites, and use their search engines to gather domain documents. We re-weight and re-score documents using proposed scheme, and show the performance improvement in the two domains.

키워드

참고문헌

  1. Hodgson, J. 2001. Do HTML Tags Semantic Content? IEEE Internet Computing, 5(1):20-25
  2. Sanderson, M. and Croft, W. B. 1999. Deriving Concept Hierarchies from text. In Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 206-213, Berkeley, CA
  3. Lawrie, D. J. and Croft, W. B. 2003. Generating Hierarchical Summaries for Web Searches. In Proceedings of the 26th Annual International ACM SIGIR conference on Research and Development in Information Retrieval, pages 457-458, Toronto, Canada
  4. Reiner, K. and Jason, Z. 2004. Mining Anchor Text for Query Refinement. In Proceedings of WWW2004, New York, USA
  5. Silverstein, C., Marais, H., Henzinger, M., Morics, M. 1999. Analysis of a very large web search engine query log. SIGIR Forum, 33(1):6-12
  6. Udo, K. 2005. Intelligent Document Retrieval Exploiting Markup Structure. : Springer, Berlin Heidelberg New York
  7. Ruth, Y. Z., Laks, V. S. L., Ruben, H. Z. 2004. Extracting Relational Data from HTML Repositories. ACM SIGKDD Explorations Newsletter, 6(2): 5-12 https://doi.org/10.1145/1046456.1046458
  8. Kleinberg, J. M. 1998. Authoritative Sources in Hyperlinked Environment. In Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, pages 668-677, ACM
  9. Brin, S. and Page, L. 1998. The anatomy of a largescale hypertextual web search engine. In Proceedings of the seventh international conference on World Wide Web 7 (WWW7), Brisbane, Australia