The Effective Blog Search Algorithm based on the Structural Features in the Blogspace

블로그의 구조적 특성을 고려한 효율적인 블로그 검색 알고리즘

  • 김정훈 (성균관대학교 컴퓨터공학과) ;
  • 윤태복 (성균관대학교 컴퓨터공학과) ;
  • 이지형 (성균관대학교 정보통신공학부)
  • Published : 2009.07.15

Abstract

Today, most web pages are being created in the blogspace or evolving into the blogspace. A blog entry (blog page) includes non-traditional features of Web pages, such as trackback links, bloggers' authority, tags, and comments. Thus, the traditional rank algorithms are not proper to evaluate blog entries because those algorithms do not consider the blog specific features. In this paper, a new algorithm called "Blog-Rank" is proposed. This algorithm ranks blog entries by calculating bloggers' reputation scores, trackback scores, and comment scores based on the features of the blog entries. This algorithm is also applied to searching for information related to the users' queries in the blogspace. The experiment shows that it finds the much more relevant information than the traditional ranking algorithms.

오늘날, 대부분의 웹 페이지는 블로그영역에서 생성되고 기존의 웹 페이지 또한 블로그영역으로 전환되어가고 있다. 블로그 페이지는 트랙백연결, 블로거, 태그, 댓글과 같은 기폰 웹 페이지에는 존재 하지 않는 특징이 있다. 따라서 이러한 차이를 반영하지 않는 전통적인 웹 페이지 랭킹 알고리즘을 블로그 페이지에 단순히 적용하는 것은 효율적인 검색을 위해 적절하지 않다. 본 논문에서는 이러한 문제를 해결하기 위해 블로그 검색을 위한 "블로그-랭크" 알고리즘을 제안한다. 제안하는 알고리즘은 블로그의 구조적특징들을 활용하여 트랙백 연결성, 블로거의 명성, 사용자 반응성을 평가하고 이를 기반으로 블로그 페이지를 랭크 한다. 우리는 알고리즘의 검색효율성을 증명하기 위해 제안한 알고리즘을 적용한 블로그 검색 시스템을 구현하고 기존의 블로그 검색시스템과 검색효율성을 비교하였으며, 그 결과 블로그 랭크 알고리즘을 적용한 검색시스템이 기존의 검색시스템보다 더욱 뛰어난 검색효율성을 보임을 확인하였다.

Keywords

References

  1. S. Brin and L. Page, 'The Anatomy of a Largescale Hypertextual Web Search Engine,' In Proceedings of 7th International World Wide Web Conference, Computer Networks and ISDN Systems, vol.30, no.1-7, pp.107-117, Apr., 1998 https://doi.org/10.1016/S0169-7552(98)00110-X
  2. J. M. Kleinberg, 'Authoritative sources in hyperlinked environment,' Journal of the ACM, vol.46, no.5. pp.604-632, Sep., 1999 https://doi.org/10.1145/324133.324140
  3. C. Marlow, 'Audience, structure and authority in the weblog community,' In International Communication Association Conference, NewOrleans, LA, 2004
  4. A. Java, P. Kolari, T. Finin, and T. Oates, 'Modeling the Spread of Influence on the Blogosphere,' Technical report, University of Maryland, Baltimore County, May., 2006
  5. http://www.tistory.com/
  6. E. Adar., L. Zhang., L. Adamic., and R. Lukose., 'Implicit Structure and the Dynamics of Blogspace,' Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics, 2004
  7. K. Fujimura., T. Inoue., and M. Sugisaki., (2005). 'TheEigenRumor Algorithm for Ranking Weblogs,' 2nd Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics, 2005
  8. G. Mishne, 'Multiple Ranking Strategies for Opinion Retrieval in Blogs,' In Proceedings of TREC 2006, 2006
  9. G. Mishne, 'Using Blog Properties to Improve Retrieval,' In Proceedings of the ICWSM, 2007
  10. K. Liu, G. Qiu, J. Bu, and C. Chen, 'Ranking Using Multi-features in Blog Search,' In Advances in Multimedia Information Processing–PCM 2007, Lecture Notes in Computer Science, vol.4810/2007, pp.714-723, 2007 https://doi.org/10.1007/978-3-540-77255-2_87
  11. A. Java, P. Kolari, T. Finin, A. Joshi, and J. Martineau, 'The BlogVox Opinion Retrieval System,' In Proceedings of TREC 2006, 2006
  12. P. Kolari, A. Java, T. Finin, J. Mayfield, A. Joshi, and J. Martineau, 'Blog Track Open Task: Spam Blog Classification,' Technical report, September 2006. TREC 2006 Blog Track
  13. http://www.egloos.com/
  14. http://www.blogkorea.net/
  15. K. Jarvelin and J. Kekalainen, 'IR evaluation methods for retrieving highly relevant documents,' In Proceedings of the ACM Conference on Research and Development on Information Retrieval (SIGIR), pp.41-48, 2000