• 제목/요약/키워드: 서브트리

검색결과 94건 처리시간 0.038초

메시지 다이제스트를 이용한 구조화된 문서의 변화 탐지 (Detecting Changes in Structured Documents using Message Digest)

  • 김동아;이석균
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.151-153
    • /
    • 2002
  • XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지는 NP-hard의 문제로 이에 대한 효율적인 구현은 매우 중요하다. 본 논문에서는 효율적인 변화 탐지를 위해 트리 구조의 데이터를 X-tree로 표현하고 이에 기초한 휴리스틱 알고리즘을 제안한다. X-tree에서는 모든 서브트리의 루트 노드에 서브트리의 구조와 소속 노드들의 데이터들을 128비트의 해시값으로 표현하여 저장함으로 신ㆍ구 버전의 X-tree들에 속한 서브트리들의 비교가 매우 효율적이다. 제시한 변화 탐지 알고리즘에서는 구 버전의 X-tree의 모든 서브트리들에 대해 신 버전의 X-tree에서 동등한 서브트리들을 찾고, 이들에 기초하여 이동 연산이 발생한 서브트리들과 갱신 연산이 발생한 서브트리들을 순차적으로 찾는다. 이때 이동 연산과 갱신 연산으로 대응되는 서브트리는 동등 서브트리로부터 루트 노드로 대응 관계를 확장하는 가운데 발견된다. 이후 깊이 우선으로 검색하면서 나머지 노드들을 대응시킨다. X-tree의 구조적 특징에 기인하여 노드들 간의 비교를 통해 대응 여부를 검사하는 대부분의 기존 연구와는 달리 서브트리의 비교를 통해 대부분의 대응 관계를 결정하므로 효율적인 변화 탐지가 가능하다. 본 알고리즘은 최악의 경우에서도 N을 신ㆍ구 버전 문서의 전체 노드 수라 할 때 O(N)의 시간 복잡도를 갖는다.

  • PDF

기계독해 기반 한국어 의존 파싱 (Korean Dependency Parsing as Machine Reading Comprehension)

  • 민진우;나승훈;신종훈;김영길;김강일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.270-273
    • /
    • 2021
  • 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔고 그 중 그래프 기반 의존 파싱 방법은 문장 내의 모든 단어에 대해 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻고 트리를 생성하는 방법이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 서브트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 서브 트리의 정보를 이용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(서브트리-서브트리)로의 서브트리 정보를 이용할 수 있도록 하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 소폭의 성능향상을 얻었다.

  • PDF

트리 데이터에서 연관규칙 추출을 위한 서브트리 마이닝 (Subtree Mining to extract Association rules from Tree Data)

  • 강우준;신준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.317-320
    • /
    • 2006
  • XML 트리 데이터들로부터 빈번 서브 트리들을 추출하는 기존 방법들은 복잡하고 다수의 입력데이터 스캐닝을 필요로 할 뿐만 아니라 빈번 서브 트리를 구하기 위해 에지 하나하나의 조인 작업을 필요로 하였다. 이는 결과적으로 많은 수행 시간을 요한다. 본 논문에서는 트리데이터를 레벨 별로 나누고 이를 마치 채로 거르듯이 필터링하여 특정 수치 이상의 출현 횟수를 가지는 노드들만을 남겨 빠르게 빈번한 서브 트리를 찾고, 이를 이용하여 XML 연관규칙들을 생성하는 방법을 제시한다. 제시된 방법을 위해서 PairSet 이라는 새로운 자료구조를 도입하였으며, 이를 이용하는 크로스필터링 알고리즘을 개발하여 제시하였다.

  • PDF

속성 문법의 점진적 속성 전파를 위한 최적화 알고리즘에 관한 연구 (A Study on the Optimized Algorithm for Incremental Attribute Propagation of Attribute Grammar)

  • 장재춘;안희학
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.46-48
    • /
    • 2001
  • 속성에 할당된 새로운 조건을 통해 평가를 수행할 때 이미 산출된 부분을 재사용하기 위해서는 새로운 평가방법이 필요하다. 이 논문에서는 평가된 속성 값의 전파를 고려한 최적화 알고리즘을 제안하는 기존 속성 트리의 서브 트리와 새로운 속성 트리의 서브 트리를 비교하여 전파되는 속성 값과 노드가 일치할 경우 기존 속성 트리의 서브 트리를 새로운 속성 트리에서 사용이 가능한 최적화된 알고리즘을 제안하고 평가하였다.

일반 트리를 미적으로 도시하기 위한 분할-정복 알고리즘 (A Divide_and _Conquer Algorithm for Drawing General Trees Aesthetically)

  • 이유진;정균락
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권1호
    • /
    • pp.117-124
    • /
    • 1999
  • 트리는 계층적인 구조를 표현하는 데 편리한 자료 구조로서 그 응용 분야가 정렬, 탐색, 컴파일러, 계층적 데이터베이스 모델, 조직 차트 등 매우 광범위하다. 트리를 시각적으로 도시하는 것은 단순히 노드를 나열하는 것보다 구조적 관계를 표현하는데 효과적이다. 트리를 크기가 제한된 하면세 도시할 경우에는 시각적 측면을 고려하여 가능한 한 최소의 면적에 도시하는 것이 필요하다. Tilford가 제안한 트리 도시 알고리즘은 왼쪽 알고리즘은 왼쪽부터 최소 간격을 유지하면서 노드의 위치를 결정하는 알고리즘의 특성 때문에 두 개의 높이가 큰 서브 트리가 양쪽으로 있을 때, 두 서브 트리 사이의 작은 서브트리들이 오른쪽에 공간이 있음에도 불구하고 왼쪽으로 치우치게 위치되는 단점을 가지고 있다. 본 논문에서는 노드들의 균형을 고려하여 배치하는 분할-정복 알고리즘을 개발하였고 알고리즘의 정확성을 증명하였다.

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF

이동체 데이터베이스를 위한 통합 색인의 성능 평가 (Evaluation of Unified Index for Moving Object Databases)

  • 정지원;안경환;홍봉희
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2004년도 국내 LBS 기술개발 및 표준화 동향세미나
    • /
    • pp.98-104
    • /
    • 2004
  • 이동체 데이터베이스에서 이동체의 과거 궤적을 저장하기 위해 메인 메모리 기반 색인을 이용하면 시간이 지남에 따라 데이터의 방대함으로 인해 주어진 메모리 용량이 부족하게 될 수 도 있다. 이를 해결하기 위해서는 메인 메모리에 상주하는 색인의 일부를 계속해서 디스크로 이주하는 정책이 필요하다. 이런 이주 정책을 지원하는 메인 메모리 이동체 색인이 통합 색인이다. 기존 통합 색인의 색인 이주 정책인 이동 서브트리 정책은 시간 축으로 가장 오래된 엔트리를 seed 노드로 선정하여 이동 서브트리를 구성한다. 이때 항상 시간적으로 가장 오래된 노드만을 디스크로 옮김으로써 과거에 대한 질의 시 비효율적이라는 문제점을 가진다. 본 논문에서는 이주를 위한 서브트리 구성에 필요한 seed 노드를 선택하기 위해, 질의 및 삽입 시에 참조되는 단말 노드들을 유지하는 LRU 버퍼를 이용한 색인 이주 정책을 제시한다. 이를 바탕으로 메인 메모리 기반 색인의 장점과 메모리 용량 부족의 문제를 해결한 통합색인을 구현하고, 다양한 성능 평가를 통하여 제시된 이주 정책이 기존의 이주 정책에 비해 삽입 성능뿐만 아니라 영역 질의에서도 우수함을 보인다.

  • PDF

이미지 시퀀스 데이터베이스에서 우선순위 큐와 접미어 트리를 이용한 효율적인 유사 서브시퀀스 검색의 설계 (A Design for Efficient Similar Subsequence Search with a Priority Queue and Suffix Tree in Image Sequence Databases)

  • 김인범
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권4호
    • /
    • pp.613-624
    • /
    • 2003
  • 본 논문은 우선순위 큐와 접미어 트리로 색인 구조를 생성한 후. 이미지 시퀀스 데이터베이스에서 다차원 타임 워핑 거리 함수를 이용하여 유사한 이미지 서브시퀀스를 신속하고 정확하게 검색할 수 있는 방법을 제안한다. 본 논문에서 제안된 방법은 사전에 정의된 중요도에 따라 선별된 이미지 시퀀스로 구성된 우선순위 큐 색인의 이미지 서브시퀀스에 대한 유사성 거리 계산을 첫 단계로 시행하여 유사한 서브시퀀스집합을 얻고 만족할 결과를 얻지 못했을 경우에는 두 번째 단계로 나머지 유사 서브시퀀스에 대해 디스크 기반의 접미어 트리를 색인 구조체로 하여 유사한 서브시퀀스를 검색하는 것이다. 하한 거리 함수를 활용하여 질의 이미지 시퀀스와 유사한 이미지 서브시퀀스를 검색하는 과정에서 생성 가능한 오류를 방지 하면서 동시에 비 유사 이미지 서브시퀀스를 제거하도록 한다.

  • PDF

윈도우-초인: 이원성 기반 서브시퀸스 매칭을 위한 최적의 방법 (Window-Join: An Optimal Way to Process Duality-Based Subsequence Matchi)

  • 김상욱;박대현;이헌길;김만순;박정일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.184-186
    • /
    • 2001
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀸스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 본 논문에서는 먼저, 기존의 이원성 기반 서브시퀸스 매칭 기법에서 발생하는 성능상의 문제점들을 지적하고, 이들을 해결할 수 있는 방법을 제시한다. 제안된 기법은 서브시퀸스 매칭 시 요구되는 인덱스 검색을 윈도우-조인이라는 일종의 공간 조인 문제로 새롭게 해석하는 것에서 출발한다. 제안된 기법에서는 효과적인 윈도우-조인의 처리를 위하여 질의 윈도우 점들을 위한 R*-트리를 주기억장치 내에 on-the-fly로 구성하는 방법을 사용한다. 또한, 데이터 윈도우 점들을 위한 디스크 상의 R*-트리와 질 윈도우 점들을 위한 주기억장치 상의 R*-트리를 효과적으로 조인할 수 있는 새로운 알고리즘을 제안한다. 제안된 기법은 R*-트리 페이지들을 착오 채택 없이 단 한번만 디스크로부터 액세스 측면에서 이원성 기반 서브시퀸스 매칭을 위한 최적의 기법이다.

  • PDF

효과적인 모빌리티 인지 퍼브-서브 시스템을 위한 Q+R 트리 기반의 브로커 네트워크 (Q+R tree based broker network for efficient mobility aware pub-sub system)

  • 이명국;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.233-236
    • /
    • 2012
  • 모빌리티 인지 퍼브-서브 시스템은 사용자의 관심 위치 정보가 지속적으로 변하는 위치 기반 퍼브-서브 시스템으로써, 스마트 모바일 기기의 대중화와 함께 그 활용도가 부각되고 있다. 이 논문에서는 기존의 위치기반 퍼브-서브 시스템에서 깊이 고려하지 않았던, 관심 위치 정보의 빈번한 변화를 효과적으로 처리하기 위한 브로커 네트워크를 제안한다. 사용자의 행동패턴이나 지리적 특성을 고려해 퍼브-서브 시스템에서 제공하고자 하는 공간 데이터 영역을 Slow Moving Region과 Normal Moving Region의 두가지 타입으로 구분하고, 각 영역에 대한 사용자의 요청을 효과적으로 지원하기 위해 Q+R트리를 사용하여 브로커를 관리한다. 시뮬레이션을 사용한 실험 결과를 통해 제안하는 Q+R트리 기반의 브로커 네트워크가 불필요한 브로커의 로드와 네트워크 트래픽을 감소시킴으로써 보다 효과적으로 지속적인 사용자의 관심 위치 정보 변화를 지원할 수 있음을 확인하였다.