• Title/Summary/Keyword: 웹 문서 변경

Search Result 78, Processing Time 0.021 seconds

Estimation of Web Page Change Behavior (웹 문서 변경 예측)

  • Kim, Sung-Jin
    • Journal of Internet Computing and Services
    • /
    • v.8 no.4
    • /
    • pp.149-158
    • /
    • 2007
  • This paper presents the estimation methods computing the probabilities of how many times web pages are downloaded and modified, respectively, in the future crawls. The methods can make web database administrators avoid unnecessarily requesting undownloadable and unmodified web pages in a page group. We postulated that the change behavior of web pages is strongly related to the past change behavior. We gather the change histories of approximately three million web pages at two-day intervals for 100 days, and estimated the future change behavior of those pages. Our estimation, which was evaluated by actual change behavior of the pages, worked well.

  • PDF

An Effective Metric for Measuring the Degree of Web Page Changes (효과적인 웹 문서 변경도 측정 방법)

  • Kwon, Shin-Young;Kim, Sung-Jin;Lee, Sang-Ho
    • Journal of KIISE:Databases
    • /
    • v.34 no.5
    • /
    • pp.437-447
    • /
    • 2007
  • A variety of similarity metrics have been used to measure the degree of web page changes. In this paper, we first define criteria for web page changes to evaluate the effectiveness of the similarity metrics in terms of six important types of web page changes. Second, we propose a new similarity metric appropriate for measuring the degree of web page changes. Using real web pages and synthesized pages, we analyze the five existing metrics (i.e., the byte-wise comparison, the TF IDF cosine distance, the word distance, the edit distance, and the shingling) and ours under the proposed criteria. The analysis result shows that our metric represents the changes more effectively than other metrics. We expect that our study can help users select an appropriate metric for particular web applications.

An Empirical Study on Changes of Web Pages (웹 문서 변화에 관한 실험적 연구)

  • Kim Sung Jin;Lee Sang Ho
    • Journal of KIISE:Databases
    • /
    • v.32 no.2
    • /
    • pp.151-160
    • /
    • 2005
  • As web pages are created, destroyed, and updated frequently, web databases should be updated to keep up-to-date web pages. In order to keep web databases fresh effectively, we need to understand the change of real web pages. Previous researches on the change of the web pages have directed their efforts on the contents modification of web pages only, and have not taken into account the factors of creation and destruction of web pages In their research. This paper investigates the web page changes, which include contents modification, page creation, and page destruction. We introduce three metrics, namely DR (Download Rate), MR (Modification Rate), and CAV (Coefficient of Age Variation) to represent the change of the web pages. We have monitored three million web pages collected from the famous and random sites every other day for one hundred days. With the Download Rate and the Modification Rate, we learned that the download success and the modification depends on the past change of them, and proposes two estimation formulae that predict the download success and modification. With the Coefficient of Age Variation, we show how web pages do not change periodically.

Effectiveness Evaluation of the Metrics Measuring the Change Degree of Web Pages (웹 문서 변경 측정 방법의 효과성 평가)

  • Kwon, Shin-Young;Lee, Sang-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.31-33
    • /
    • 2005
  • 웹의 진화론 연구하기 위해 다수의 문서 비교 방법들이 웹 문서 변경 측정 도구로서 사용되어 왔다. 웹의 진화 연구는 웹 데이터 베이스의 효율적 관리를 위해 필수적이기 때문이다. 그러나 같은 웹 문서의 변경에 대하여 어떠한 방법으로 측정하였는지에 따라 상이한 결과를 보일 수 있음에도 불구하고, 각 측정 방법의 비교 평가는 연구되지 않았다. 본 논문에서는 웹 문서 변경 측정 방법의 효과성 평가 척도를 제안한다. 그리고 수집된 실제 웹 문서를 통해 기존에 사용되어온 다섯 가지 측정 방법들의 결과 차이를 보인다. 아울러 정의한 평가 척도에 따라 각 측정 방법을 비교 평가한다.

  • PDF

Design of A Page Modification Detector for Meta-search Engines (메타 검색엔진을 위한 페이지 변경 탐지기 설계)

  • 박상위;오정석;이상호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.205-207
    • /
    • 2001
  • 웹 상의 HTML 문서들은 수시로 변경되고 있으며, 정보를 검색하는 웹사이트 또한 예외는 아니다. 다수의 웹 검색엔진들의 결과를 통합하는 메타 검색엔진은 각 검색엔진의 정보 변경에 민감해야 된다. 본 논문은, 수시로 변경되는 검색엔진들의 HTML 문서 정보를 메타 검색 엔진에 반영하기 위해, 자동적으로 검색엔진들의 질의 형태 변경과 검색 엔진의 검색 결과 HTML 문서의 구조 변경 탐지는 질의 결과가 반복되는 HTML 태그(tags) 문서 구조를 패턴(pattern)으로 이용한다. 패턴 발견 알고리즘은 문자열에서 규칙적으로 발생하는 패턴을 찾아내는 Jaak Vilo 알고리즘을 기반으로 HTML 문서를 처리할 수 있도록 확장하였다. 발견된 HTML 문서 패턴과 기존의 검색 엔진 HTML 페이지의 구조적 패턴 정보를 비교하여 문서 구조 변경을 탐지한다.

  • PDF

Performance Analysis of Incremental Refresh of Materialized Views over XML Documents (XML 문서 실체 뷰의 점진적 갱신의 성능 분석)

  • Lim, Jae-Guk;Moon, Chan-Ho;Kang, Hyun-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.19-22
    • /
    • 2001
  • 웹 문서 표준어인 XML의 등장으로 앞으로 웹 상에 수많은 XML 문서가 존재할 것이며, 이들에 대한 효율적인 검색 기법이 요구된다. 그 중 하나로 웹 상에 산재된 XML 문서들을 여과 및 통합할 수 있는 뷰의 기능이 필요하다. 뷰의 구현 기법으로는 전통적인 질의 변경 기법과 실체 뷰 기법 등이 있다. 본 논문에서는 XML 문서를 대상으로 하는 실체 뷰에 관한 것으로, XML 문서가 변경되었을 경우에 XML 실체 뷰에 대해 점진적 갱신을 지원하는 XML 실체 뷰 관리 프레임워크(framework)에서, 실체 뷰를 통한 뷰 제공의 성능을 질의 변경 기법의 성능과 비교하여 분석한 후 실체 뷰 기법이 질의 변경 기법 보다 효율적일 수 있는 조건을 구한다.

  • PDF

Implementation of Pen-based Editing System using Rule-based Text Selection Technique (규칙기반 텍스트 영역 선택 기법을 이용한 펜기반 교정 시스템의 구현)

  • 정한상;김재경;손원성;임순범;최윤철
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.203-206
    • /
    • 2002
  • 최근 웹을 기반으로 한 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인 상의 전자 문서 환경에 맞게 변화하고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 일반 문서와 달리 웹 문서의 구조정보를 고려한 편집이 지원되어야 하며 또한 교정 부호와 텍스트 간의 정확한 영역 인식이 이루어져야 한다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정 부호와 편집 텍스트 영역간의 모호성을 최소화 하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

Web Log Mining for Adaptive Web Sites (적응형 웹 사이트를 위한 웹 로그 마이닝)

  • Ko, Kyong-Ja;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.325-328
    • /
    • 2001
  • 본 논문에서는 웹 사이트에 접근하는 이용자의 패턴을 분석하여 정보 제공이 보다 용이한 구조로 자동 개선시켜 나가는 적응형 웹 사이트의 구현 방안을 제시한다. 특히, 본 연구에서는 기존 웹 사이트의 구조를 가능한 파괴하지 않는 범위 내에서 웹 사이트론 변경하고자 이용자의 접근 패턴상 연관성은 높으나 접근 경로가 긴 문서들을 추출하여 색인 페이지를 추가 생성한다. 이를 위하여, 먼저 대용량의 웹 서버 로그 데이터를 대상으로 하이퍼 링크 구조에 따라 필터링된 최후 전진 문서만을 가지고 데이터 시퀀스를 구성한다. 이러한 데이터 시퀀스에 새로운 순차 접근 패턴 탐색 알고리즘인 TPA를 적용함으로써 웹 문서간 충분한 지지도를 갖는 연관성 있는 문서들의 시퀀스를 구한다. 이와같은 빈발 시퀀스들에 대한 색인 페이지를 추가로 생성시켜주는 서비스를 통하여 이용자들의 효과적인 정보 접근을 지원할 수 있는 웹 사이트로의 변경이 가능하다.

  • PDF

Implementation of a Web Robot and Statistics on the Korean Web (웹 로봇 구현 및 한국 웹 통계보고)

  • Kim, Sung-Jin;Lee, Sang-Ho
    • The KIPS Transactions:PartC
    • /
    • v.10C no.4
    • /
    • pp.509-518
    • /
    • 2003
  • A web robot is a program that downloads and stores web pages. Implementation issues for developing web robots have been studied widely and various web statistics are reported in the literature. First, this paper describes the overall architecture of our robot and implementation decisions on several important issues. Second, we show empirical statistics on approximately 74 million Korean web pages. Third, we monitored 1,424 Korean web sites to observe the changes of web pages. We identify what factors of web pages could affect the changes. The factors may be used for the selection of web pages to be updated incrementally.

Models of XML Update Processing for Refreshing XML Cache Incrementally (XML캐쉬의 점진적 갱신을 위한 XML변경 처리 모델)

  • 한승철;황대현;강현철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.64-66
    • /
    • 2004
  • XML이 웹 상에서 데이터 교환의 표준으로 부각된 이래 XML데이터의 효율적 관리 기법에 관한 연구가 활발히 수행되고 있다. XML 질의의 표준화 작업도 활발히 이루어져 현재 XQuery가 유력한 표준으로 부각되었다. 그러나 XQuery 등이 완전한 XML 질의어가 되기 위해서는 변경 연산을 제공해야 하는데 XML변경어의 표준화 작업이나 XML 변경 처리 기법에 대한 연구는 아직 미미한 실정이다. 본 논문에서는 e-Commerce 등 XML 데이터베이스 기반 웹 응용의 효율적 지원을 위한 XML 캐쉬를 점진적으로 갱신하는 과정에서 발생하는 XML 변경 연산 처리의 세 가지 기본 모델. TD (텍스트/DOM 기반). PD(PDOM 기반), 그리고 IT (인덱스된 텍스트 기반)를 제안한다. 캐쉬된 XML 문서를 어떤 포맷으로 저장하는가는 이후 XML 변경 연산의 처리 및 요청된 XML문서 반환의 효율성에 영향을 미친다. 이들 모델들은 캐쉬된 XML 문서의 저장 포맷에 따라 구분한 것이다. 이들 모델 각각에 대하여 캐쉬된 XML문서의 갱신 및 반환 기능을 제공하는 XML캐쉬 관리 시스템을 구현하여 이들 기능의 성능 및 공간 부담을 평가한 결과를 기술한다.

  • PDF