• Title/Summary/Keyword: 접미사 정렬

Search Result 7, Processing Time 0.019 seconds

Efficient Storing of Suffix Arrays using Block-Sorting Compression (블록정렬압축을 이용한 접미사배열의 효율적인 저장)

  • Lee, Geon-Ho;Park, Geun-Su
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.28 no.7
    • /
    • pp.350-355
    • /
    • 2001
  • 블록정렬압축은 빠른 속도로 동작하면서 높은 압축률을 나타내는 압축 방법이다. 또한 블록정렬방식으로 압축된 텍스트는 원래 텍스트를 복원하는 과정에서 접미사배열을 0(n) 시간만에 구할 수 있다. 그러나 접미사배열을 이용하여 효율적인 검색을 수행하려면 lcp(longest common prefix)정보가 추가적으로 필요하다. 본 논문에서는 텍스트와 접미사배열이 주어졌을 때 lcp정보를 0(n) 시간만에 구할 수 있는 알고리즘을 제시한다.

  • PDF

Efficient storing of suffix arrays using block-sorting compression (블록정렬압축을 이용한 접미사배열의 효율적인 저장)

  • 이건호;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.554-556
    • /
    • 2000
  • 블록정렬압축은 빠른 속도로 동작하면서 높은 압축률을 나타내는 압축 방법이다. 또한 블록정렬방식으로 압축된 텍스트는 원래 텍스트를 복원하는 과정에서 접미사배열을 O(n) 시간만에 구할 수 있다. 그러나 접미사배열을 이용하여 효율적인 검색을 수행하려면 lcp(longest common prefix)정보가 추가적으로 필요하다. 본 논문에서는 텍스트와 접미사배열이 주어졌을 때 lcp정보를 O(n)시간만에 구할 수 있는 알고리즘을 제시한다.

  • PDF

Improvement of Practical Suffix Sorting Algorithm (실용적인 접미사 정렬 알고리즘의 개선)

  • Jeong, Tae-Young;Lee, Tae-Hyung;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.36 no.2
    • /
    • pp.68-72
    • /
    • 2009
  • The suffix array is a data structure storing all suffixes of a string in lexicographical order. It is widely used in string problems instead of the suffix tree, which uses a large amount of memory space. Many researches have shown that not only the suffix array can be built in O(n), but also it can be constructed with a small time and space usage for real-world inputs. In this paper, we analyze a practical suffix sorting algorithm due to Maniscalco and Puglisi [1], and we propose an efficient algorithm which improves Maniscalco-Puglisi's running time.

Sorting $\kappa^-mer$ Table in DNA Fragment Assembly (DNA Fragment Assembly에서$\kappa^-$글자 테이블의 정렬)

  • 홍순철;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.733-735
    • /
    • 2002
  • DNA fragment assembly 프로그램인 Phrap에서는 exact match를 찾기 위해 정렬된 k-글자 테이블 자료구조를 사용한다. 이것은 접미사 배열의 간단한 형태로서, DNA fragment assembly와 같은 응용에서는 접미사 배열보다 더 유용한 자료구조이다. 본 논문에서는 k-글자 테이블을 정렬하는 Manber-Myers, Quicksort, Radix sort 알고리즘을 살펴보고, 실험을 통해 그 중에서 가장 뛰어난 성능을 가지는 것이 Quicksort 알고리즘임을 보였다 또한 k-글자 테이블의 정렬 문제에 있어서는, 캐쉬-메모리 아키텍쳐에 최적화되어 계산복잡도 속에 숨어있는 상수를 최소화하는 것이 중요한 문제임을 밝힌다.

  • PDF

Comparison of Linear Time Suffix Array Construction Algorithms (선형 시간 접미사 배열 생성 알고리즘들의 비교)

  • 이성림;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.496-498
    • /
    • 2003
  • 접미사 배열은 긴 문자열에 대해 효율적인 문자열 검색을 가능하게 하는 자료구조이다. 접미사 배열은 문자열의 접미사들의 사전식 정렬순서를 배열로 저장한다. 비슷한 효과를 가진 접미사 트리에 비해서 접미사 배열은 저장 공간을 적게 차지하기 때문에 생명정보과학의 염기 서열 등 큰 크기의 문자열의 처리에 더욱 유리하다. 본 논문에서는 2003년에 발표된 Ko-Aluru, K$\square$rkk$\square$inen-Sanders 및 기존의 Manber-Myers 등 세 개의 접미사 배열 생성 알고리즘들의 염기 서열 입력 자료에 대한 실행 시간 및 기억 장치 사용량을 실험을 통해 비교한다. 특히 Ko-Aluru와 K$\square$rkk$\square$inen-Sanders 알고리즘은 실행 시간 및 저장 공간의 이론적인 복잡도가 O(n)으로 동일하기 때문에 실험을 통해서 계산 복잡도에 숨어있는 상수를 비교한다. 실험 결과 K$\square$rkk$\square$inen-Sanders 알고리즘이 가장 효율적임을 보인다.

  • PDF

Prediction of transcription factor binding sites by local alignment of common sequences (공통서열의 부분 정렬을 통한 전사인자 결합부위의 예측)

  • Yoon Joo Young;Park Kunsoo;Lim Myung Eun;Chung Myung Geun;Park Soo-Jun;Park Sun Hee;Sim Jeong Seop
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.967-969
    • /
    • 2005
  • 유전자의 발현은 전사인자와 전사인자 결합부위의 결함에 의해 조절된다. 따라서 이러한 결합부위를 예측하는 것은 유전학 분야에서 중요한 이슈이다. 본 논문에서는 접미사 배열을 이용하여 전사인자가 결합할 것으로 예상되는 DNA 서열들의 공통서열을 추출하고, 이를 다시 입력 서열과 부분 정렬을 수행함으로써 전사인자가 결합하는 부위를 예측하는 알고리즘을 제시한다. 그리고 알려진 전사인자 결합부위를 가진 데이터로 실험한 결과를 통해 제시된 추출 방법의 성능에 대하여 논의한다.

  • PDF

Korean Unknown-noun Recognition using Strings Following Nouns in Words (명사후문자열을 이용한 미등록어 인식)

  • Park, Ki-Tak;Seo, Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.4
    • /
    • pp.576-584
    • /
    • 2017
  • Unknown nouns which are not in a dictionary make problems not only morphological analysis but also almost all natural language processing area. This paper describes a recognition method for Korean unknown nouns using strings following nouns such as postposition, suffix and postposition, suffix and eomi, etc. We collect and sort words including nouns from documents and divide a word including unknown noun into two parts, candidate noun and string following the noun, by finding same prefix morphemes from more than two unknown words. We use information of strings following nouns extracted from Sejong corpus and decide unknown noun finally. We obtain 99.64% precision and 99.46% recall for unknown nouns occurred more than two forms in news of two portal sites.