Effects and Evaluations of URL Normalization

URL정규화의 적용 효과 및 평가

  • 정효숙 (숭실대학교 컴퓨터학과) ;
  • 김성진 (서울대학교 전기컴퓨터공학부) ;
  • 이상호 (숭실대학교 컴퓨터학부)
  • Published : 2006.10.15

Abstract

A web page can be represented by syntactically different URLs. URL normalization is a process of transforming URL strings into canonical form. Through this process, duplicate URL representations for a web page can be reduced significantly. A number of normalization methods have been heuristically developed and used, and there has been no study on analyzing the normalization methods systematically. In this paper, we give a way to evaluate normalization methods in terms of efficiency and effectiveness of web applications, and give users guidelines for selecting appropriate methods. To this end, we examine all the effects that can take place when a normalization method is adopted to web applications, and describe seven metrics for evaluating normalization methods. Lastly, the evaluation results on 12 normalization methods with the 25 million actual URLs are reported.

하나의 웹 문서는 문법적으로 서로 다른 두개 이상의 URL들로 표현 가능하다. URL 정규화는 URL을 정형화된 형태로 변환하는 과정이다. 정규화 과정을 통하여, 동일 웹 문서를 나타내는 URL들은 문법적으로 동일 URL들로 변환된다. 현재까지 정규화 방법의 개발 및 적용은 개발자의 경험적 지식에 기반을 두고 있으며, 체계적인 분석에 대한 연구가 부재하다. 본 논문에서는 웹 어플리케이션의 효율성과 효과성 측면에서 정규화 방법들을 평가하여 적절한 정규화 방법의 선택에 대한 지침 제공을 목적으로 한다. 또한, 웹 어플리케이션에서 정규화 적용으로 발생하는 효과를 분석하고, URL 정규화 평가를 위한 7가지 척도를 기술한다. 끝으로, 실제 웹 문서에서 추출된 약 2천 5백만개의 URL들을 대상으로 12개의 정규화 방법 이 평가된다.

Keywords

References

  1. Burner, M., 'Crawling Towards Eternity: Building an Archive of the World Wide Web,' Web Techniques Magazine, Vol.2, No.5, pp. 37-40, 1997
  2. Kim, S.J. and Lee, S.H., 'Implementation of a Web Robot and Statistics on the Korean Web,' Springer-Verlag Lecture Notes in Computer Science, Vol.2713, pp. 341-350, 2003
  3. Heydon, A. and Najork, M., 'Mercator: A Scalable, Extensible Web Crawler,' International Journal of WWW.Vol.2.No.4. pp. 219-229, 1999 https://doi.org/10.1023/A:1019213109274
  4. Shkapenyuk, V. and Suel, T., 'Design and Implementation of a High-performance Distributed Web Crawler,' In Proceedings of 18th Data Engineering Conference, pp. 357-368, 2002
  5. Berners-Lee, T., Fielding, R., and Masinter, L., 'Uniform Resource Identifiers (URI): Generic Syntax,' http://gbiv.com/protocols/urilrfc/rfc2396. html, 2005
  6. Lee, S.H., Kim, S.J., and Hong, S.H., 'On URL Normalization,' Springer-Verlag Lecture Notes in Computer Science, Vol.3481, Part II, pp. 1076-1085, 2005 https://doi.org/10.1007/11424826_115
  7. Netcraft., 'Web Server Survey,' http://news.netcraft.com/archives/web_server _survey.html, 2004