An Effective Metric for Measuring the Degree of Web Page Changes

효과적인 웹 문서 변경도 측정 방법

  • 권신영 (숭실대학교 대학원 컴퓨터학과) ;
  • 김성진 (서울대학교 컴퓨터학과) ;
  • 이상호 (숭실대학교 컴퓨터학부)
  • Published : 2007.10.15

Abstract

A variety of similarity metrics have been used to measure the degree of web page changes. In this paper, we first define criteria for web page changes to evaluate the effectiveness of the similarity metrics in terms of six important types of web page changes. Second, we propose a new similarity metric appropriate for measuring the degree of web page changes. Using real web pages and synthesized pages, we analyze the five existing metrics (i.e., the byte-wise comparison, the TF IDF cosine distance, the word distance, the edit distance, and the shingling) and ours under the proposed criteria. The analysis result shows that our metric represents the changes more effectively than other metrics. We expect that our study can help users select an appropriate metric for particular web applications.

다양한 유사도 측정 방법들이 웹 문서의 변경도 측정에 사용되어 왔다. 본 논문은 여섯 가지 웹 문서 변경 종류에 근거하여 변경도 측정 방법의 효과성 평가 척도를 정의하고, 새로운 유사도 측정 방법을 제안한다. 실제 웹 문서들과 인위적 문서들을 사용하여, 기존의 다섯 가지 측정 방법들(바이트 비교, TF IDF 코사인 거리, 단어 거리, 편집 거리, 슁글링)과 제안된 측정 방법을 비교 평가한다. 실험 결과 분석을 통해 제안된 측정 방법이 웹 문서의 변경 측정에 효과적임을 보인다. 본 연구는 웹 문서의 변화 정보를 필요로 하는 웹 응용 분야에서 웹 문서 변경도 측정 방법의 적합한 선택을 위한 지침이 될 수 있다.

Keywords

References

  1. Google Search Engine, http://www.google.com
  2. Yahoo Search Engine, http://www.yahoo.com
  3. J. Cho and H. Garcia-Molina, 'Synchronizing a Database to Improve Freshness,' the 26th ACM SIGMOD International Conference on Management of Data, pp. 117-128, 2000
  4. D. Fetterly, M. Manasse, M. Najork, and J. L. Wiener, 'A Large-Scale Study of the Evolution of Web Pages,' Software: Practice & Experience, Vol. 34, No. 2, pp. 213-237, 2004 https://doi.org/10.1002/spe.577
  5. A. Ntoulas, J. Cho, and C. Olston, 'What's New on the Web? The Evolution of the Web from a Search Engine Perspective,' In Proceedings of the 13th International World Wide Web Conference, pp. 1-12, 2004
  6. B. E. Brewington and G. Cybenko, 'How Dynamic is the Web?' In Proceedings of the 9th International World Wide Web Conference, pp. 257-276, 2000 https://doi.org/10.1016/S1389-1286(00)00045-1
  7. S. J. Kim and S. H. Lee, 'An Empirical Study on the Change of Web Pages,' In Proceedings of the 7th Asia-Pacific Web Conference, pp. 632-642, 2005
  8. L. Lim, M. Wang, S. Padmanabhan, J. S. Vitter, and R. Agarwal, 'Characterizing Web Document Change,' In Proceedings of the 2nd International Conference on Advances in Web-Age Information Management, pp. 133-144, 2001
  9. G. Salton and M. J. McGill, 'Introduction to Modern Information Retrieval,' McGraw-Hill, 1983
  10. T. H. Cormen, C. E. Leiserson, and R. L. Rivest, 'Introduction to Algorithm,' the Massachusetts Institute of Technology, 2001