• 제목/요약/키워드: URL normalization

검색결과 4건 처리시간 0.016초

URL 정규화 향상을 위한 URL 서명 (URL Signatures for Improving URL Normalization)

  • 순레이키;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권2호
    • /
    • pp.139-149
    • /
    • 2009
  • URL은 표준 URL 정규화에서 정의한 단계에 의하여 구문적으로 정규화된다. 본 논문에서는 웹 페이지의 메타데이타를 이용하여 표준 URL 정규화를 보완하는 기법을 제안한다. 메타데이타는 HTML 분석 도중 추출될 수 있는 웹 페이지 본문과 페이지 크기이다. 첫 번째 실험에서는 웹 페이지 본문이 동등한 URL 식별에 효과적이라는 것을 보인다. 두 번째 실험에서는 웹 페이지 본문을 Message-Digest 5 알고리즘으로 해싱하여 URL 서명을 만들며, 동일한 서명을 가지는 URL은 동일하게 취급한다. 두 번째 실험 결과에서, 우리가 제시한 URL 서명이 표준 URL 정규화와 비교하여 32.94%의 중복 URL을 더 감소시킬 수 있음을 알 수 있었다.

웹 어플리케이션을 위한 URL 정규화 (URL Normalization for Web Applications)

  • 홍석후;김성진;이상호
    • 한국정보과학회논문지:정보통신
    • /
    • 제32권6호
    • /
    • pp.716-722
    • /
    • 2005
  • 웹에서는 문법적으로 서로 다른 문자열의 URL들이 동일 자원을 나타낼 수 있다. URL 정규화는 동일 자원을 나타내는 서로 다른 URL들을 통일된 형태로 변환하는 과정이다. 현재 URL 정규화에 대한 표준화가 진행 중에 있다. 표준 URL 정규화는 "잘못된 긍정"을 허용하지 않으며 "잘못된 부정"을 최소화하는 것을 목적으로 한다. 본 논문에서는 표준 URL 정규화에서 고려되지 않은 네 가지 정규화 요소를 고려한다. 본 논문은 "잘못된 긍정"을 부분적으로 허용하여 표준 URL 정규화에서 빈번히 발생하는 "잘못된 부정"을 제거하는 것을 목적으로 한다. 또한, 제안된 정규화 고려 요소의 효과를 평가하기 위하여 두 개의 척도가 정의되었다. 마지막으로, 본 논문은 실제 웹 문서 중에 발견된 약 1억 7천만 개의 URL에 대하여 실험을 수행하고 결과를 기술한다.

URL정규화의 적용 효과 및 평가 (Effects and Evaluations of URL Normalization)

  • 정효숙;김성진;이상호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.486-494
    • /
    • 2006
  • 하나의 웹 문서는 문법적으로 서로 다른 두개 이상의 URL들로 표현 가능하다. URL 정규화는 URL을 정형화된 형태로 변환하는 과정이다. 정규화 과정을 통하여, 동일 웹 문서를 나타내는 URL들은 문법적으로 동일 URL들로 변환된다. 현재까지 정규화 방법의 개발 및 적용은 개발자의 경험적 지식에 기반을 두고 있으며, 체계적인 분석에 대한 연구가 부재하다. 본 논문에서는 웹 어플리케이션의 효율성과 효과성 측면에서 정규화 방법들을 평가하여 적절한 정규화 방법의 선택에 대한 지침 제공을 목적으로 한다. 또한, 웹 어플리케이션에서 정규화 적용으로 발생하는 효과를 분석하고, URL 정규화 평가를 위한 7가지 척도를 기술한다. 끝으로, 실제 웹 문서에서 추출된 약 2천 5백만개의 URL들을 대상으로 12개의 정규화 방법 이 평가된다.

사이트 기반의 URL 정규화 평가 (Evaluating Site-based URL Normalization)

  • 정효숙;김성진;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.28-30
    • /
    • 2005
  • URL 정규화는 다양하게 표현된 동일 URL들을 하나의 통일된(cannonical) 형태의 URL로 변환하는 과정이다. 동일문서에 대한 중복된 URL 표현은 URL 정규화를 통하여 제거된다. 표준 정규화는 잘못된 긍정(동일하지 않는 URL들을 동일 문자열로 변환)이 없도록 개발되었다. 그러나 표준 정규화는 많은 잘못된 부정이 발생하게 되므로, 잘못된 긍정을 일부 허용하면서 잘못된 부정을 현격히 줄일 수 있는 확장 정규화가 제기되고 연구되어 왔다. 본 논문에서는 동일 사이트 내의 URL들에 대한 확장 정규화의 적용 결과가 유사한 정도를 보임으로써, 한 사이트 내의 URL에 대한 임의의 확장 정규화 결과 정보가 동일 사이트 내의 다른 URL들의 정규화에 효과적으로 사용될 수 있음을 보인다. 이를 위하여, 한 사이트의 확장 정규화 결과 동일성 척도와 사이트 기반의 확장 정규화 평가 척도를 제안한다. 20,000만개의 실제 국내 웹 사이트에서 추출된 25만개의 URL에 대해 6가지 확장 정규화가 평가된다.

  • PDF