Analysis of Posting Preferences and Prediction of Update Probability on Blogs

블로그에서 포스팅 성향 분석과 갱신 가능성 예측

  • Received : 2010.08.18
  • Accepted : 2010.09.10
  • Published : 2010.10.15

Abstract

In this paper, we introduce a novel method to predict next update of blogs. The number of RSS feeds registered on meta-blogs is on the order of several million. Checking for updates is very time consuming and imposes a heavy burden on network resources. Since blog search engine has limited resources, there is a fix number of blogs that it can visit on a day. Nevertheless we need to maximize chances of getting new data, and the proposed method which predicts update probability on blogs could bring better chances for it. Also this work is important to avoid distributed denial-of-service attack for the owners of blogs. Furthermore, for the internet as whole this work is important, too, because our approach could minimize traffic. In this study, we assumed that there is a specific pattern to when a blogger is actively posting, in terms of days of the week and, more specifically, hours of the day. We analyzed 15,119 blogs to determine a blogger's posting preference. This paper proposes a method to predict the update probability based on a blogger's posting history and preferred days of the week. We applied proposed method to 12,115 blogs to check the precision of our predictions. The evaluation shows that the model has a precision of 0.5 for over 93.06% of the blogs examined.

메타 블로그에 등록된 RSS(Really Simple Syndication)의 수는 수십만 개 또는 수백만 개에 이른다. 따라서 이들에 대한 갱신 확인을 수행하는 것은 상당히 긴 시간과 네트워크 자원을 필요로 한다. 메타 블로그나 블로그 검색엔진은 제한된 자원을 가지고 있기 때문에 하루에 방문할 수 있는 블로그의 수가 제한적이다. 하지만 블로그 검색엔진의 성능향상을 위해 새로운 데이터를 최대한 수집하는 것이 필요하기 때문에, 우리는 이 논문에서 수집 효율을 높이기 위한 새로운 방법을 제안한다. 제안하는 방법은 블로그의 포스팅 성향을 분석하여 그것을 토대로 향후 갱신 가능성에 대해 예측하고 갱신 가능성이 높은 시점에만 갱신 확인을 수행한다. 이 연구는 블로그의 입장에서는 분산 서비스 거부 공격(DDoS Attack: Distributed Denial-of-Service Attack)만큼이나 빈번한 갱신확인을 줄이는데 도움이 되고, 인터넷 전체로 보아서는 트래픽을 감소시키는데 기여할 수 있다. 본 논문에서는 블로거들의 포스팅이 이루어지는 요일과 시간에 특정한 패턴이 존재할 것이라는 가정을 하고, 15119개의 실제 블로그에 작성된 포스트에 대해 요일과 시간의 선호도를 분석하였다. 그리고 과거의 포스팅 이력과 요일에 대한 선호도를 바탕으로 갱신 가능성을 예측하기 위한 방법을 제안하고, 12115개의 실제 블로그에 적용하여 그 정확도를 확인하였다. 성능평가를 통해 약 93.06%의 블로그에서 0.5 이상의 정확도를 가짐을 확인하였다.

Keywords

References

  1. T. O'reilly, "What is Web 2.0: Design Patterns and Business Models for the Next Generation of Software," Communications & Strategies, no.65, pp.17-37, 1st Quarter, 2007.
  2. Technorati, "State of the Blogosphere," http://www.technorati.com/blogging/state-of-the-blogosphere/, 2008.
  3. http://en.wikipedia.org/wiki/RSS, 2008.
  4. Berkman Center, "RSS 2.0 at Harvard Law," http://cyber.law.harvard.edu/rss/index.html, 2008.
  5. M. Olson and U. Oqbuji, "The Python Web services developer: RSS for Python," http://www.ibm.com/developerworks/webservices/library/ws-pyth11.html, November 2002.
  6. X. Li, J. Yan, Z. Deng, L. Ji, W. Fan, B. Zhang, and Z. Chen, "A novel clustering-based RSS aggregator," In Proc. of 16th Int'l Conf. on WWW, pp.1309-1310, 2007.
  7. K. C. Sia, J. Cho, and H. K. Cho, "Efficient Monitoring Algorithm for Fast News Alerts," Knowledge and Data Engineering, IEEE Transactions on vol.19, Issue 7, pp.950-961, July 2007. https://doi.org/10.1109/TKDE.2007.1041
  8. B. Lee, J. W. Im, B. Hwang, D. Zhang, "Design of An RSS Crawler with Adaptive Revisit Manager," In Proc. of the 20th Int'l Conf. on Software Engineering and Knowledge Engineering, pp.219-222, July 2008.
  9. H. Liu, V. Ramasubramanian, and E. G. Sirer, "Client behavior and feed characteristics of rss, a publish-subscribe system for web micronews," In Proc. of the ACM Internet Measurement Conference, 2005.
  10. Chad Dickerson, "RSS Growing Pains," http://www.inforworld.com/d/developer-world/rss-growing-pains.647, 2004.
  11. Paul Festa, "Microsoft flip-flop may signal blog clog," http://news.cnet.com/Microsoft-flip-flop-maysignal-blog-clog/2100-1032_3-5368454.html, 2004.
  12. K. Balog, G. Mishne, and M. d. Rijke, "Why Are They Excited? Identifying and Explaining Spikes in Blog Mood Levels," In Proc. of the 11th Meeting of the European Chapter of the Association for Computational Linguistics (EACL 2006), April, 2006.
  13. G. Mishne and M. d. Rijke, "Capturing Global Mood Levels using Blog Posts," In Proc. of the AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006), pp.145-152, March 2006.
  14. http://www.thecounter.com, 2008.