• 제목/요약/키워드: 압축된 써픽스 배열

검색결과 6건 처리시간 0.022초

압축된 써픽스 배열을 직접 구축하는 선형시간 알고리즘 (Direct Construction Algorithms for Compressed Suffix Arrays in Linear Time)

  • 성종희;전정은;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.809-811
    • /
    • 2003
  • 써픽스 배열은 써픽스 트리와 더불어 바이오인포매틱스(bioinformatics) 등에 널리 사용되는 전체 텍스트(full-text)의 인덱스 자료구조이다. 여러 응용분야에서 처리해야하는 데이터양의 기하급수적인 증가에 따라, 써픽스 배열을 압축하여 저장해야 하는 필요성이 커지고 있다. Grossi와 Vitter는 주어진 스트링의 써픽스 배열이 있을 경우, 작은 저장 공간을 사용하는 압축된 써픽스 배열(compressed suffix arrays)을 정의하였다. 본 논문에서는 주어진 스트링에서 써픽스 배열을 구축할 필요 없이, 직접적으로 압축된 써픽스 배열을 구축하는 선형시간 알고리즘을 제시한다.

  • PDF

Succinct 표현의 효율적인 구현을 통한 압축된 써픽스 배열 생성 (Constructing the Compressed Suffix Array via Efficient Implementation of Succinct Representation)

  • 박치성;조준하;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.955-957
    • /
    • 2005
  • 대용량의 텍스트에 대해 빠른 패턴 검색의 필요성이 증가함에 따라 써픽스 트리, 써픽스 배열 등의 인덱스 자료구조에 대해 다양한 연구들이 진행되었다. 또한 써픽스 배열을 대용량의 인덱스 자료구조로 사용하기 위해 저장 공간을 O(n log n) 비트 이하로 줄이는 문제에 대한 연구들도 많이 수행되었다. 이들 중 Grossi & Vitter 는 써픽스 배열을 압축하여, 기존의 써픽스 배열보다 작은 저장 공간을 사용할 수 있는 알고리즘을 제안하였다. Grossi & Vitter 알고리즘은 압축된 써픽스 배열에서 실제 써픽스 배열의 정보를 찾기 위하여, succinct 표현에서 기본적으로 사용되는 rank와 select 함수를 필요로 한다. 본 논문은 다양한 rank와 select 알고리즘을 각각 사용하는 압축된 써픽스 배열들의 성능 비교를 통해, succinct 표현의 효율적인 구현이 압축된 써픽스 배열의 성능에 미치는 영향을 실험적으로 보인다.

  • PDF

압축된 써픽스 배열 구축 알고리즘의 성능 분석 (Performance Analysis of Construction Algorithms for Compressed Suffix Arrays)

  • 박치성;조준하;심정섭;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.409-411
    • /
    • 2006
  • 써픽스 배열은 사전적 순서로 정렬된 써픽스들의 인덱스를 저장한 인덱스 자료구조로서, 긴 텍스트에서 반복되는 패턴 검색 시 효율적으로 사용 될 수 있다. 하지만 O($n\;log{\Sigma}$) 비트의 텍스트보다 큰 O(n log n) 비트 공간을 차지하기 때문에 대용량의 텍스트에 대해서는 큰 공간을 필요로 하는 문제점이 있다. 이를 해결하기 위해 압축된 써픽스 배열이 제안되었지만, 구축 시 이미 만들어진 써픽스 배열을 이용하기 때문에 실제 사용 공간을 줄이지는 못했다. 최근 써픽스 배열 없이 텍스트에서 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘이 개발되었다. 본 논문에서는 이 두 가지 알고리즘을 구현한 후, 구축 시간과 사용 공간 등의 실험을 통해 기존의 써픽스 배열들과의 성능을 비교하고 분석한다.

  • PDF

압축된 써픽스 배열 구축의 실제적인 성능 비교 (Comparisons of Practical Performance for Constructing Compressed Suffix Arrays)

  • 박치성;김민환;이석환;권기룡;김동규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권5_6호
    • /
    • pp.169-175
    • /
    • 2007
  • 써픽스 배열은 기본적인 전체 텍스트 인덱스 자료구조로서, 반복되는 패턴 질의 수행 시 효율적으로 사용될 수 있다. 유용한 전체 텍스트 인덱스 자료구조들이 많이 제안되어왔음에도 불구하고, O(nlogn)-비트 공간을 필요로 하는 공통적인 문제점으로 인하여 보다 효율적으로 공간을 사용할 수 있는 방법에 대한 필요성이 요구되었다. 하지만 기 개발된 압축된 써픽스 배열이나 FM-인덱스와 같은 것들 또한 이미 존재하는 써픽스 배열에서부터 구축되어야 하기 때문에 실제적인 사용 공간을 줄일 수는 없었다. 최근, 써픽스 배열을 구축할 필요 없이 텍스트로부터 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘들이 제안되었다. 본 논문에서는 실험을 통해 자료구조 구축 시간과 구축 시 필요로 하는 최대 사용 공간, 구축이 끝난 후 최종 자료구조의 크기 등을 측정함으로써 이 두 가지 압축된 써픽스 배열 구축 알고리즘과 기존의 써픽스 배열들과의 실제적인 성능을 비교한다.

2차원 배열의 Succinct 표현을 위한 Rank 및 Select 함수 (Rank and Select Functions for Succinct Representation of Two-Dimensional Arrays)

  • 박치성;김민환;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.511-515
    • /
    • 2006
  • 집합이나 배열의 원소, 트리의 노드, 그래프의 정점과 간선 등과 같은 이산 객체는 일반적으로 주기억장치의 논리적 주소 값과 같은 정수로 표현되어 왔다. Succinct 표현은 이와 같은 n개의 이산 객체를 O(n) 비트에 표현하는 방법이다. 대부분의 succinct 표현은 rank와 select라는 함수를 기본적으로 사용하며, 다양한 연구들에 의해 현재 rank와 select 함수는 o(n)?? 비트만을 사용하여 ??O(1) 시간에 수행될 뿐만 아니라, 실제로도 실용적으로 구현되었다. 본 논문에서는 $n{\times}n$ 배열, 즉 2차원 비트 스트링에 대한 Rank 및 Select 함수를 새롭게 정의한다. 또한, $O(n^2log\;n)$ 비트를 사용하여 O(1) 시간에 Rank 질의를 수행하고 O(log n) 시간에 Select 질의를 수행하는 방법과, 보다 적은 $O(n^2)$ 비트를 사용하면서 O(log n) 시간에 Rank 질의를 수행하고 $O(log^2\;n)$ 시간에 Select 질의를 수행하는 방법을 제안한다. 본 논문에서 정의하는 2차원 배열 상의 Rank와 Select 함수는 이미 개발된 2차원 상의 써픽스 트리 등을 기반으로 향후 개발될 2차원 상의 압축된 인덱스 자료구조나 이미지 프로세싱 등에 유용하게 사용된다.

  • PDF