• 제목/요약/키워드: X-treeDiff+

검색결과 8건 처리시간 0.024초

X-tree Diff: 트리 기반 데이터를 위한 효율적인 변화 탐지 알고리즘 (X-tree Diff: An Efficient Change Detection Algorithm for Tree-structured Data)

  • 이석균;김동아
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.683-694
    • /
    • 2003
  • 인터넷 사용이 급속도로 증가함에 따라 XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지가 중요한 연구 분야로 등장하고 있다. 본 논문에서는 효율적인 변화 탐지를 위한 데이터 구조로 X-tree와 이에 기초한 휴리스틱 변화 탐지 알고리즘 X-tree Diff 를 제안한다. X-tree Diff 는 X-tree 의 변화 내용에 대한 최소 비용 편집 스크립트를 찾는 알고리즘과는 달리 휴리스틱 트리 대응 알고리즘을 통해 병화 내용을 확인하는 알고리즘으로, X-tree 에 속한 모든 노드에 대해 각각의 노드를 루트로 하는 서브트리의 구조와 서브트리속에 속한 노드들의 데이터들을 128비트 해시값으로 표현한 값인 트리 MD를 각 노드에 저장하고, 이를 변화 탐지 과정에서 활용하여 신-구 버전의 X-tree들에 속한 서브트리들의 비교을 효율적으로 처리한다. X-tree Diff 는 4단계로 구성되며 1)신-구버넌의 X-tree노드들에 대해, 우선 1:1 대응이 가능한 모든 동등한 서브트리 쌍을 찾고, 2) 이들 서브트리 쌍의 루트로부터 신-구 버전의 X-tree의 루트까지의 경로 상에 존재하는 노드들에 대한 대응관계를 결정한다. 3) 그 후 신-구 버전의 X-tree의 루트들로부터 깊이 우선 탐색으로 노드를 방문하며 대응이 결정되지 않은 노드들에 대한 대응여부를 결정해 나간다. 4) 마지막까지 대응여부가 결정되지 않은 도드들은 삭제나 삽입된 것으로 간주한다. X-tree Diff XML 문서들에 대한 버저닝(Versioning) 을 목적으로 설계된 BUILD Diff 알고리즘과 달리 XML/HTML 에 공통적으로 사용할 수 있을 뿐 아니라, 알고리즘이 명확하고 간결하여 다양한 형태의 확장이 가능하다. 알고리즘의 성능도 개선되어 신-구 X-tree의 노드의 수를 n이라 할 때, O(n)의 시간 복잡도를 갖는다. 제안된 알고리즘은 현재 보안 관련 상용 시스템인 WIDS(Web-Document Instrusion Detection System) 에서 사용되고 있으며, 본 논문에서는 WIDS를 이용하여 20여개 신문-방송 사이트에서 변화가 탐지된 11,000 개 페이지에 대한 성능평가를 보이고 있다.

X-treeDiff+ 기반의 한글 문서에 대한 변화 탐지 (Change Detection of Hangul Documents Based on X-treeDiff+)

  • 이석균
    • 한국산업정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.29-37
    • /
    • 2010
  • XML 문서에 대한 변화탐지는 중요한 연구 분야이다. 그러나 한글 문서 파일 형식으로 XML이 지원되고 있음에도 한글 문서의 특성을 반영한 변화 탐지 연구는 아직 미비하다. 한글 문서는 일반적인 XML 문서와는 달리 서식 정보의 비중이 매우 커서 X-treeDiff+와 같은 일반적인 XML 문서의 변화탐지 알고리즘을 그대로 적용하기에는 적합하지 않다. 본 논문에서는 한글 문서에 대한 변화탐지를 위해 새로운 내용 기반의 대응 알고리즘을 제안하고 이를 X -treeDiff+에 구현하였다. 실험을 통해 제안된 알고리즘은 대부분의 편집과정의 문서에 대해 우수한 성능을 보이고 있음을 제시했다.

대응효율성을 통한 변화 탐지 알고리즘의 성능 개선 (Improving Performance of Change Detection Algorithms through the Efficiency of Matching)

  • 이석균;김동아
    • 정보처리학회논문지D
    • /
    • 제14D권2호
    • /
    • pp.145-156
    • /
    • 2007
  • 최근 웹 문서의 변조의 탐지, 버전 관리 등을 위한 XML/HTML 문서들에 대한 효과적인 실시간 변화탐지 알고리즘의 필요성이 증대하고 있다. 특히 대용량의 XML/HTML 문서들에 대한 실시간 변화탐지 응용들은 최소비용의 편집스크립트를 계산하는 알고리즘 보다는 실시간 처리가 가능한 빠른 휴리스틱 알고리즘들을 필요로 한다. 기존의 휴리스틱 알고리즘들은 실행속도는 빠르나 생성되는 편집스크립트의 질이 만족스럽지 못하다. 본 논문에서는 기존의 알고리즘 XyDiff와 X-tree Diff를 소개하고 이들 알고리즘들의 문제점들을 분석하고 문제점들을 개선한 알고리즘 X-tree Diff+를 제안한다. X-tree Diff+는 실행시간 측면에서 기존 알고리즘들과 유사하나 대응효율성에 기반한 대응과정의 개선을 통해 두 문서 간의 노트들의 대응률을 향상시킨 알고리즘이다.

XML 문서에 대한 편집스크립트 생성 알고리즘 (An Algorithm Generating Edit Scripts for XML Documents)

  • 이석균
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.80-89
    • /
    • 2011
  • 최근 XML문서의 변화탐지가 중요한 연구 분야로 등장하고 있지만 변화탐지의 결과, 즉 편집스크립트에 대한 연구는 아직 초보적인 수준이다. 본 연구에서는 XML 문서의 변화탐지 알고리즘인 X-treeDiff+의 편집스크립트 생성알고리즘인 X-treeESgen을 제시한다. 이는 실행시간 O(n)의 성능을 가지면서 기존의 다른 알고리즘과 달리 삽입, 삭제, 갱신의 기본연산 이외에 이동 및 복사 연산을 지원한다. 또한 편집스크립트 생성과정이 변화탐지의 대용과정과 독립적으로 설계되어 있어 다양한 튜닝이 가능한 특정이 있다.

X-treeDiff+ 기반의 프로그램 복제 탐지 (Program Plagiarism Detection based on X-treeDiff+)

  • 이석균
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.44-53
    • /
    • 2010
  • 컴퓨터 프로그래밍 교육에서 프로그램 복제는 프로그래밍 학습 효율을 저해하는 심각한 요인이다. 본 논문에서는 학생들이 프로그래밍 과제의 무분별한 복제를 방지하기 위해 유사 또는 동일 프로그램을 탐지하는 기법을 제안한다. 지문법이나 스트링 매칭을 기반으로 하는 기존의 탐지 기법과는 달리, 우선 C 프로그램을 파싱하여 문법요소를 엘리먼트로 하는 XML 문서로 변화시킨 후 XML 문서의 변화탐지 알고리즘인 X-treeDiff+를 실행시켜 그 차이를 분석하는 방법을 취한다. 이때 대응의 정도를 나타내는 유사도와 두 문서의 차이로 제시되는 일련의 편집연산인 편집스크립트를 프로그램 복제의 관점에서 분석하여 복제 여부에 대한 판단을 하게 된다. 편집스크립트의 분석은 두 프로그램 간의 변환 과정을 유추할 수 있게 하여 기존 방법들과는 달리 사용자는 과제의 성격이나 복제의 정도를 고려한 정성적인 판단이 가능하다는 장점이 있다.

X-treeDiff를 이용한 XML 문서의 버전 관리 시스템 프로트타입 개발 (A Prototype Implementation of XML Document Version Management System Using X-treeDiff)

  • 김성준;김동아;이석균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (하)
    • /
    • pp.1343-1346
    • /
    • 2003
  • 현재 많은 정보시스템들이 웹을 기반으로 다양한 전자 문서들을 제공하고 있다. 이러한 환경 하에서 지속적인 갱신이 이루어지는 문서들을 관리하는 응용분야에서는 이들 문서들에 대한 효율적 관리 기법이 요구되고 있다. 본 논문에서는 최근 제안된 X-treeDiff를 통해 계산된 편집 스크지트를 기반으로 한 XML 문서들에 대한 버전 관리 시스템을 제안하고 이에 대한 프로토타입의 구현을 보인다. 제안된 버전 관리 시스템은 CVS와 같은 대부분의 텍스트 기반 시스템과는 달리 트리 데이터 구조의 문서를 위한 시스템으로 XML과 같은 트리구조 문서 관리에 효과적이다.

  • PDF

트리구조의 문서에 대한 편집스크립트 조정 (Adjusting Edit Scripts on Tree-structured Documents)

  • 이석균;엄현민
    • 한국산업정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.1-14
    • /
    • 2019
  • 웹, XML, 오피스 어플리케이션에 사용되는 대부분의 문서들은 트리 구조로 구성되어 있으며 특히 다중 사용자 환경에서의 트리 구조의 문서의 차이 발견, 합병, 버전 제어 등의 연구가 활발하다. 그러나 이들의 기초가 되는 편집스크립트에 대한 연구는 초보적인 상태에 있다. 본 논문에서는 편집연산들의 실행 시 트리구조의 문서의 변화를 이해하기 위한 문서 모델을 제시하고 편집연산들의 실행 효과의 분석을 통해 트리 구조 문서에 대한 인접한 편집연산들의 순서 교환 방법을 제안한다. 트리 구조 문서에 대한 변화탐지의 결과로 생성되는 편집스크립트들은 대부분 기본연산들(갱신, 삽입, 삭제)만으로 구성된다. 그러나 이동, 복사연산을 포함하는 경우, 이들의 복합연산의 특성으로 인해 주로 2단계 패스의 실행을 전제로 하는 편집스크립트를 생성한다. 본 논문에서는 제안한 편집 연산들의 순서 교환 방법을 통해 2단계 패스의 실행을 전제로 하는 X-treeESgen의 편집스크립트를 단일 패스로 변환하는 알고리즘을 제시한다.

삽입/삭제 편집연산 기반의 XML 문서 병합 (Merging XML Documents Based on Insertion/Deletion Edit Operations)

  • 이석균
    • 정보처리학회논문지D
    • /
    • 제16D권4호
    • /
    • pp.497-506
    • /
    • 2009
  • 오피스 및 과학 분야의 문서 작업 등에서 XML의 사용이 보편화되고 협업이 요구됨에 따라 효과적인 XML 문서 병합 방법이 필요하다. 이에 대한 해결 방안으로 본 논문에서는 동일 원본 문서에 대한 다수 사용자의 편집 작업들의 병합을 위한 이론적 틀을 제시한다. 문서들의 병합시 문서 자체를 병합하는 기존의 방법들과는 달리, 사용자의 편집 작업을 원본 문서에 적용되는 일련의 편집 연산들, 즉 편집 스크립트로 표현하고 다수 사용자의 편집 스크립트들을 병합하고 원본 문서에 적용하여 문서의 병합 효과를 이루고자 한다. 이를 위해 삽입과 삭제연산으로 구성된 편집스크립트를 전제로 정적 편집 스크립트, 편집 스크립트의 간섭 및 충돌 등의 개념들을 정의하고 편집 스크립트들의 충돌 조건과 병합시 편집 스크립트 조정기법을 제안한다. 이 방법은 분산 환경에서 네트워크 부하를 줄이며 각 편집 작업의 의미가 보존되어 버전관리에 효과적이다.