C-rank: A Contribution-Based Approach for Web Page Ranking

C-rank: 웹 페이지 랭킹을 위한 기여도 기반 접근법

  • Published : 2010.01.15

Abstract

In the past decade, various search engines have been developed to retrieve web pages that web surfers want to find from world wide web. In search engines, one of the most important functions is to evaluate and rank web pages for a given web surfer query. The prior algorithms using hyperlink information like PageRank incur the problem of 'topic drift'. To solve the problem, relevance propagation models have been proposed. However, these models suffer from serious performance degradation, and thus cannot be employed in real search engines. In this paper, we propose a new ranking algorithm that alleviates the topic drift problem and also provides efficient performance. Through a variety of experiments, we verify the superiority of the proposed algorithm over prior ones.

수많은 웹 문서로부터 웹 서퍼가 원하는 정보를 찾기 위해 다양한 검색 엔진들이 개발되어왔다. 검색 엔진에서 가장 중요한 기능 중 하나는 사용자 질의에 대해서 웹 문서를 평가하고 랭킹을 부여하는 것이다. PageRank등의 기존 하이퍼링크 정보를 이용한 웹 랭킹 알고리즘은 토픽 드리프트 현상을 발생시킨다. 이러한 문제를 해결하기 위하여 연관성 파급 모델이 제안되었지만, 기존의 연관성 파급 모델을 기반으로 하는 랭킹 알고리즘은 성능상의 이유로 실제 웹 검색 엔진에서 사용하기 어렵다. 본 논문에서는 이러한 토픽 드리프트 현상을 완화하면서 좋은 성능을 제공하는 새로운 랭킹 알고리즘을 제안한다. 다양한 실험을 통하여 기존 알고리즘들과 비교한 제안하는 알고리즘의 우수성을 검증한다.

Keywords

References

  1. R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval, Addision-Wesley, 1999.
  2. S. E. Robertson, "Overview of the Okapi projects," Journal of Documentation, vol.53, no.1, pp.3-7, 1997. https://doi.org/10.1108/EUM0000000007186
  3. P. Lawrence et al., The PageRank Citation Ranking: Bringing Order to the Web, Technical Report, Stanford University, 1998.
  4. J. M. Kleinberg, "Authoritative Sources in a Hyperlinked Environment," Journal of the ACM, vol.46, no.5, pp.604-632, 1999. https://doi.org/10.1145/324133.324140
  5. M. Richardson and P. Domingos, "The Intelligent Surfer: Probabilistic Combination of Link and Content Information In PageRank," In Advances in Neural Information Processing Systems 14, pp.1141-1448, 2002.
  6. T. Qin et al., "A Study of Relevance Propagation of Web Search," In Proc. ACM Int'l. Conf. on Information Retrieval, pp.408-415, 2005.
  7. A. Shakery and C. Zhai, "A Probabilistic Relevance Propagation Model for Hypertext Retrieval," In Proc. ACM Int'l. Conf. on Information and Knowledge Management, pp.550-558, 2006.
  8. Dong-Jin Kim, C-rank: A Contribution-Based Web Page Ranking Algorithm, NHN Internal Technical Report, TR-NHN-2007-158, 2007. (In Korean)
  9. Lucene, http://lucene.apache.org.
  10. TREC Web Track, http://es.cmis.csiro.au/TRECWeb.
  11. S. Chakrabarti, Mining The Web, Morgan Kaufmann, 2002.