An Empirical Study on Changes of Web Pages

웹 문서 변화에 관한 실험적 연구

  • 김성진 (서울대학교 제어계측신기술연구소) ;
  • 이상호 (숭실대학교 컴퓨터학부)
  • Published : 2005.04.01

Abstract

As web pages are created, destroyed, and updated frequently, web databases should be updated to keep up-to-date web pages. In order to keep web databases fresh effectively, we need to understand the change of real web pages. Previous researches on the change of the web pages have directed their efforts on the contents modification of web pages only, and have not taken into account the factors of creation and destruction of web pages In their research. This paper investigates the web page changes, which include contents modification, page creation, and page destruction. We introduce three metrics, namely DR (Download Rate), MR (Modification Rate), and CAV (Coefficient of Age Variation) to represent the change of the web pages. We have monitored three million web pages collected from the famous and random sites every other day for one hundred days. With the Download Rate and the Modification Rate, we learned that the download success and the modification depends on the past change of them, and proposes two estimation formulae that predict the download success and modification. With the Coefficient of Age Variation, we show how web pages do not change periodically.

웹 문서들은 빈번하게 생성, 소멸, 변경을 반복하고 있으며, 웹 데이타베이스는 최신의 웹 상태를 반영하여야 한다. 웹 데이타베이스의 효과적인 갱신 전략 수립을 위하여 실제 웹의 변화 성향을 파악하는 일은 매우 중요하다. 웰의 변화를 관찰한 연구들이 다양하게 발표되고 있으나 기존의 연구들은 웹 문서의 내용 변경에 주된 초점이 맞추어 있고 웹 문서의 생성과 소멸에 대한 결과가 부족하였다. 본 논문에서는 쇌 문서의 변화를 표현할 수 있는 척도로서 URL의 '다운로드 성공률', '변경률', '나이 변이 계수'를 소개하고, 한국의 유명 사이트 집합과 임의(random) 사이트 집합에서 발견된 300만 개의 URL들이 2 일 주기로 100일 동안 관찰한다. 본 논문에서는 '다운로드 성공률'과 '변경률'의 분포를 통해 웰 문서의 다운로드 성공과 변경이 과거 기록과 밀접한 연관이 있음을 발견하였으며, 과거 기록을 이용하여 향후 웹 문서의 다운로드 성공과 변경을 예측할 수 있는 모델을 제안한다. 또한, '나이 변이 계수'를 통해 웹 문서들이 얼마나 비주기적으로 변경되는가를 보고한다.

Keywords

References

  1. C. Wills and M. Mikhailov, 'Towards a Better Understanding of Web Resources and Server Responses for Improved Caching,' Proc. 8th WWW Conf., 1999
  2. J. Cho and H. Garcia-Molina, 'The Evolution of the Web and Implications for an Incremental Crawler,' Proc. 26th VLDB Conf., pp.200-209, 2000
  3. J. Cho and H. Garcia-Molina, 'Synchronizing a Database to Improve Freshness,' Proc. 26th SIGMOD Conf., pp.117-128, 2000 https://doi.org/10.1145/342009.335391
  4. B. Brewington and G. Cybenko, 'How Dynamic is the Web?,' Proc. 9th WWW Conf., pp.257-276, 2000 https://doi.org/10.1016/S1389-1286(00)00045-1
  5. J. Edwards, K. McCurley, and J. Tomlin, 'Adaptive Model from Optimizing Performance of an Incremental Web Crawler,' Proc. 10th WWW Conf., pp.106-113, 2001
  6. F. Douglis, A. Feldmann, and B. Krishnamurthy, 'Rate of Change and Other Metrics: a Live Study of the World Wide Web,' Proc. 1st USENIX Symposium on Internetworking Technologies and System, pp.147-158,1997
  7. S. Lawrence and C.L. Giles, 'Accessibility of Information on the Web,' Nature, 400(6740), pp.107-109, 1999 https://doi.org/10.1038/21987
  8. D. Fetterly, M. Manasse, M. Najork, and J.L. Wiener, 'A large-scale study of the evolution of web pages,' In proceedings of the 12th World Wide Web conference, 2003, pages 669-678
  9. A. Ntoulas, J. Cho, C. Olston 'What's New on the Web? The Evolution of the Web from a Search Engine Perspective,' Proc. 13th WWW Conf., to appear, 2004 https://doi.org/10.1145/988672.988674
  10. S.J. Kim and S.H. Lee, 'Implementation of a Web Robot and Statistics on the Korean Web,' Proc. 2nd Human.Society@Internet Conf., pp.341-350, 2003 https://doi.org/10.1007/3-540-45036-X_35