• Title/Summary/Keyword: 서브트리

Search Result 94, Processing Time 0.038 seconds

Detecting Changes in Structured Documents using Message Digest (메시지 다이제스트를 이용한 구조화된 문서의 변화 탐지)

  • 김동아;이석균
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.151-153
    • /
    • 2002
  • XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지는 NP-hard의 문제로 이에 대한 효율적인 구현은 매우 중요하다. 본 논문에서는 효율적인 변화 탐지를 위해 트리 구조의 데이터를 X-tree로 표현하고 이에 기초한 휴리스틱 알고리즘을 제안한다. X-tree에서는 모든 서브트리의 루트 노드에 서브트리의 구조와 소속 노드들의 데이터들을 128비트의 해시값으로 표현하여 저장함으로 신ㆍ구 버전의 X-tree들에 속한 서브트리들의 비교가 매우 효율적이다. 제시한 변화 탐지 알고리즘에서는 구 버전의 X-tree의 모든 서브트리들에 대해 신 버전의 X-tree에서 동등한 서브트리들을 찾고, 이들에 기초하여 이동 연산이 발생한 서브트리들과 갱신 연산이 발생한 서브트리들을 순차적으로 찾는다. 이때 이동 연산과 갱신 연산으로 대응되는 서브트리는 동등 서브트리로부터 루트 노드로 대응 관계를 확장하는 가운데 발견된다. 이후 깊이 우선으로 검색하면서 나머지 노드들을 대응시킨다. X-tree의 구조적 특징에 기인하여 노드들 간의 비교를 통해 대응 여부를 검사하는 대부분의 기존 연구와는 달리 서브트리의 비교를 통해 대부분의 대응 관계를 결정하므로 효율적인 변화 탐지가 가능하다. 본 알고리즘은 최악의 경우에서도 N을 신ㆍ구 버전 문서의 전체 노드 수라 할 때 O(N)의 시간 복잡도를 갖는다.

  • PDF

Korean Dependency Parsing as Machine Reading Comprehension (기계독해 기반 한국어 의존 파싱)

  • Min, Jinwoo;Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Young-Kil;Kim, Kangil
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.270-273
    • /
    • 2021
  • 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔고 그 중 그래프 기반 의존 파싱 방법은 문장 내의 모든 단어에 대해 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻고 트리를 생성하는 방법이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 서브트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 서브 트리의 정보를 이용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(서브트리-서브트리)로의 서브트리 정보를 이용할 수 있도록 하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 소폭의 성능향상을 얻었다.

  • PDF

Subtree Mining to extract Association rules from Tree Data (트리 데이터에서 연관규칙 추출을 위한 서브트리 마이닝)

  • Kang, Woo-Jun;Shin, Jun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.317-320
    • /
    • 2006
  • XML 트리 데이터들로부터 빈번 서브 트리들을 추출하는 기존 방법들은 복잡하고 다수의 입력데이터 스캐닝을 필요로 할 뿐만 아니라 빈번 서브 트리를 구하기 위해 에지 하나하나의 조인 작업을 필요로 하였다. 이는 결과적으로 많은 수행 시간을 요한다. 본 논문에서는 트리데이터를 레벨 별로 나누고 이를 마치 채로 거르듯이 필터링하여 특정 수치 이상의 출현 횟수를 가지는 노드들만을 남겨 빠르게 빈번한 서브 트리를 찾고, 이를 이용하여 XML 연관규칙들을 생성하는 방법을 제시한다. 제시된 방법을 위해서 PairSet 이라는 새로운 자료구조를 도입하였으며, 이를 이용하는 크로스필터링 알고리즘을 개발하여 제시하였다.

  • PDF

A Study on the Optimized Algorithm for Incremental Attribute Propagation of Attribute Grammar (속성 문법의 점진적 속성 전파를 위한 최적화 알고리즘에 관한 연구)

  • 장재춘;안희학
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.46-48
    • /
    • 2001
  • 속성에 할당된 새로운 조건을 통해 평가를 수행할 때 이미 산출된 부분을 재사용하기 위해서는 새로운 평가방법이 필요하다. 이 논문에서는 평가된 속성 값의 전파를 고려한 최적화 알고리즘을 제안하는 기존 속성 트리의 서브 트리와 새로운 속성 트리의 서브 트리를 비교하여 전파되는 속성 값과 노드가 일치할 경우 기존 속성 트리의 서브 트리를 새로운 속성 트리에서 사용이 가능한 최적화된 알고리즘을 제안하고 평가하였다.

A Divide_and _Conquer Algorithm for Drawing General Trees Aesthetically (일반 트리를 미적으로 도시하기 위한 분할-정복 알고리즘)

  • Lee, Yu-Jin;Jeong, Gyun-Rak
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.26 no.1
    • /
    • pp.117-124
    • /
    • 1999
  • 트리는 계층적인 구조를 표현하는 데 편리한 자료 구조로서 그 응용 분야가 정렬, 탐색, 컴파일러, 계층적 데이터베이스 모델, 조직 차트 등 매우 광범위하다. 트리를 시각적으로 도시하는 것은 단순히 노드를 나열하는 것보다 구조적 관계를 표현하는데 효과적이다. 트리를 크기가 제한된 하면세 도시할 경우에는 시각적 측면을 고려하여 가능한 한 최소의 면적에 도시하는 것이 필요하다. Tilford가 제안한 트리 도시 알고리즘은 왼쪽 알고리즘은 왼쪽부터 최소 간격을 유지하면서 노드의 위치를 결정하는 알고리즘의 특성 때문에 두 개의 높이가 큰 서브 트리가 양쪽으로 있을 때, 두 서브 트리 사이의 작은 서브트리들이 오른쪽에 공간이 있음에도 불구하고 왼쪽으로 치우치게 위치되는 단점을 가지고 있다. 본 논문에서는 노드들의 균형을 고려하여 배치하는 분할-정복 알고리즘을 개발하였고 알고리즘의 정확성을 증명하였다.

Frequently Occurred Information Extraction from a Collection of Labeled Trees (라벨 트리 데이터의 빈번하게 발생하는 정보 추출)

  • Paik, Ju-Ryon;Nam, Jung-Hyun;Ahn, Sung-Joon;Kim, Ung-Mo
    • Journal of Internet Computing and Services
    • /
    • v.10 no.5
    • /
    • pp.65-78
    • /
    • 2009
  • The most commonly adopted approach to find valuable information from tree data is to extract frequently occurring subtree patterns from them. Because mining frequent tree patterns has a wide range of applications such as xml mining, web usage mining, bioinformatics, and network multicast routing, many algorithms have been recently proposed to find the patterns. However, existing tree mining algorithms suffer from several serious pitfalls in finding frequent tree patterns from massive tree datasets. Some of the major problems are due to (1) modeling data as hierarchical tree structure, (2) the computationally high cost of the candidate maintenance, (3) the repetitious input dataset scans, and (4) the high memory dependency. These problems stem from that most of these algorithms are based on the well-known apriori algorithm and have used anti-monotone property for candidate generation and frequency counting in their algorithms. To solve the problems, we base a pattern-growth approach rather than the apriori approach, and choose to extract maximal frequent subtree patterns instead of frequent subtree patterns. The proposed method not only gets rid of the process for infrequent subtrees pruning, but also totally eliminates the problem of generating candidate subtrees. Hence, it significantly improves the whole mining process.

  • PDF

Evaluation of Unified Index for Moving Object Databases (이동체 데이터베이스를 위한 통합 색인의 성능 평가)

  • Jung, Ji-Won;Ahn, Kyung-Hwan;Hong, Bong-Hee
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2004.12a
    • /
    • pp.98-104
    • /
    • 2004
  • 이동체 데이터베이스에서 이동체의 과거 궤적을 저장하기 위해 메인 메모리 기반 색인을 이용하면 시간이 지남에 따라 데이터의 방대함으로 인해 주어진 메모리 용량이 부족하게 될 수 도 있다. 이를 해결하기 위해서는 메인 메모리에 상주하는 색인의 일부를 계속해서 디스크로 이주하는 정책이 필요하다. 이런 이주 정책을 지원하는 메인 메모리 이동체 색인이 통합 색인이다. 기존 통합 색인의 색인 이주 정책인 이동 서브트리 정책은 시간 축으로 가장 오래된 엔트리를 seed 노드로 선정하여 이동 서브트리를 구성한다. 이때 항상 시간적으로 가장 오래된 노드만을 디스크로 옮김으로써 과거에 대한 질의 시 비효율적이라는 문제점을 가진다. 본 논문에서는 이주를 위한 서브트리 구성에 필요한 seed 노드를 선택하기 위해, 질의 및 삽입 시에 참조되는 단말 노드들을 유지하는 LRU 버퍼를 이용한 색인 이주 정책을 제시한다. 이를 바탕으로 메인 메모리 기반 색인의 장점과 메모리 용량 부족의 문제를 해결한 통합색인을 구현하고, 다양한 성능 평가를 통하여 제시된 이주 정책이 기존의 이주 정책에 비해 삽입 성능뿐만 아니라 영역 질의에서도 우수함을 보인다.

  • PDF

A Design for Efficient Similar Subsequence Search with a Priority Queue and Suffix Tree in Image Sequence Databases (이미지 시퀀스 데이터베이스에서 우선순위 큐와 접미어 트리를 이용한 효율적인 유사 서브시퀀스 검색의 설계)

  • 김인범
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.4
    • /
    • pp.613-624
    • /
    • 2003
  • This paper proposes a design for efficient and accurate retrieval of similar image subsequences using the multi-dimensional time warping distance as similarity evaluation tool in image sequence database after building of two indexing structures implemented with priority queue and suffix tree respectively. Receiving query image sequence, at first step, the proposed method searches the candidate set of similar image subsequences in priory queue index structure. If it can not get satisfied results, it retrieves another candidate set in suffix tree index structure at second step. The using of the low-bound distance function can remove the dissimilar subsequence without false dismissals during similarity evaluating process between query image sequence and stored sequences in two index structures.

  • PDF

Window-Join: An Optimal Way to Process Duality-Based Subsequence Matchi (윈도우-초인: 이원성 기반 서브시퀸스 매칭을 위한 최적의 방법)

  • 김상욱;박대현;이헌길;김만순;박정일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.184-186
    • /
    • 2001
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀸스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 본 논문에서는 먼저, 기존의 이원성 기반 서브시퀸스 매칭 기법에서 발생하는 성능상의 문제점들을 지적하고, 이들을 해결할 수 있는 방법을 제시한다. 제안된 기법은 서브시퀸스 매칭 시 요구되는 인덱스 검색을 윈도우-조인이라는 일종의 공간 조인 문제로 새롭게 해석하는 것에서 출발한다. 제안된 기법에서는 효과적인 윈도우-조인의 처리를 위하여 질의 윈도우 점들을 위한 R*-트리를 주기억장치 내에 on-the-fly로 구성하는 방법을 사용한다. 또한, 데이터 윈도우 점들을 위한 디스크 상의 R*-트리와 질 윈도우 점들을 위한 주기억장치 상의 R*-트리를 효과적으로 조인할 수 있는 새로운 알고리즘을 제안한다. 제안된 기법은 R*-트리 페이지들을 착오 채택 없이 단 한번만 디스크로부터 액세스 측면에서 이원성 기반 서브시퀸스 매칭을 위한 최적의 기법이다.

  • PDF

Q+R tree based broker network for efficient mobility aware pub-sub system (효과적인 모빌리티 인지 퍼브-서브 시스템을 위한 Q+R 트리 기반의 브로커 네트워크)

  • Lee, Myung-Guk;Kim, Kyungbaek
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.233-236
    • /
    • 2012
  • 모빌리티 인지 퍼브-서브 시스템은 사용자의 관심 위치 정보가 지속적으로 변하는 위치 기반 퍼브-서브 시스템으로써, 스마트 모바일 기기의 대중화와 함께 그 활용도가 부각되고 있다. 이 논문에서는 기존의 위치기반 퍼브-서브 시스템에서 깊이 고려하지 않았던, 관심 위치 정보의 빈번한 변화를 효과적으로 처리하기 위한 브로커 네트워크를 제안한다. 사용자의 행동패턴이나 지리적 특성을 고려해 퍼브-서브 시스템에서 제공하고자 하는 공간 데이터 영역을 Slow Moving Region과 Normal Moving Region의 두가지 타입으로 구분하고, 각 영역에 대한 사용자의 요청을 효과적으로 지원하기 위해 Q+R트리를 사용하여 브로커를 관리한다. 시뮬레이션을 사용한 실험 결과를 통해 제안하는 Q+R트리 기반의 브로커 네트워크가 불필요한 브로커의 로드와 네트워크 트래픽을 감소시킴으로써 보다 효과적으로 지속적인 사용자의 관심 위치 정보 변화를 지원할 수 있음을 확인하였다.