Abstract
In this paper, we introduce a novel method to predict next update of blogs. The number of RSS feeds registered on meta-blogs is on the order of several million. Checking for updates is very time consuming and imposes a heavy burden on network resources. Since blog search engine has limited resources, there is a fix number of blogs that it can visit on a day. Nevertheless we need to maximize chances of getting new data, and the proposed method which predicts update probability on blogs could bring better chances for it. Also this work is important to avoid distributed denial-of-service attack for the owners of blogs. Furthermore, for the internet as whole this work is important, too, because our approach could minimize traffic. In this study, we assumed that there is a specific pattern to when a blogger is actively posting, in terms of days of the week and, more specifically, hours of the day. We analyzed 15,119 blogs to determine a blogger's posting preference. This paper proposes a method to predict the update probability based on a blogger's posting history and preferred days of the week. We applied proposed method to 12,115 blogs to check the precision of our predictions. The evaluation shows that the model has a precision of 0.5 for over 93.06% of the blogs examined.
메타 블로그에 등록된 RSS(Really Simple Syndication)의 수는 수십만 개 또는 수백만 개에 이른다. 따라서 이들에 대한 갱신 확인을 수행하는 것은 상당히 긴 시간과 네트워크 자원을 필요로 한다. 메타 블로그나 블로그 검색엔진은 제한된 자원을 가지고 있기 때문에 하루에 방문할 수 있는 블로그의 수가 제한적이다. 하지만 블로그 검색엔진의 성능향상을 위해 새로운 데이터를 최대한 수집하는 것이 필요하기 때문에, 우리는 이 논문에서 수집 효율을 높이기 위한 새로운 방법을 제안한다. 제안하는 방법은 블로그의 포스팅 성향을 분석하여 그것을 토대로 향후 갱신 가능성에 대해 예측하고 갱신 가능성이 높은 시점에만 갱신 확인을 수행한다. 이 연구는 블로그의 입장에서는 분산 서비스 거부 공격(DDoS Attack: Distributed Denial-of-Service Attack)만큼이나 빈번한 갱신확인을 줄이는데 도움이 되고, 인터넷 전체로 보아서는 트래픽을 감소시키는데 기여할 수 있다. 본 논문에서는 블로거들의 포스팅이 이루어지는 요일과 시간에 특정한 패턴이 존재할 것이라는 가정을 하고, 15119개의 실제 블로그에 작성된 포스트에 대해 요일과 시간의 선호도를 분석하였다. 그리고 과거의 포스팅 이력과 요일에 대한 선호도를 바탕으로 갱신 가능성을 예측하기 위한 방법을 제안하고, 12115개의 실제 블로그에 적용하여 그 정확도를 확인하였다. 성능평가를 통해 약 93.06%의 블로그에서 0.5 이상의 정확도를 가짐을 확인하였다.