• 제목/요약/키워드: 최대 서픽스

검색결과 2건 처리시간 0.014초

스트링의 최대 서픽스를 계산하는 효율적인 외부 메모리 알고리즘 (Efficient External Memory Algorithm for Finding the Maximum Suffix of a String)

  • 김성권;김수철;조정식
    • 정보처리학회논문지A
    • /
    • 제15A권4호
    • /
    • pp.239-242
    • /
    • 2008
  • 외부 메모리 계산 모델에서 스트링의 최대서픽스를 찾는 문제를 고려한다. 외부메모리 모델에서는 디스크와 내부메모리 사이의 디스크 입출력 횟수를 줄이는 알고리즘을 설계하는 것이 중요 사항이다. 길이가 N인 스트링은 N개의 서픽스를 가지는데, 이중에서 사전 순서에 따라 가장 큰 것을 최대 서픽스라 부른다. 최대서픽스를 구하는 것은 여러 스트링 문제를 해결하는 데 중요한 역할을 한다. 본 논문에서는 길이가 N인 스트링의 최대 서픽스를 구하는 외부메모리 알고리즘을 제시한다. 이 알고리즘은 네 개의 내부 메모리 블록을 사용하고 최대 4(N/L)번의 디스크 입출력을 한다. 여기서 L은 블록의 크기이다.

생물학 서열 데이타베이스에서 부분 문자열의 선적도 추정 (Estimation of Substring Selectivity in Biological Sequence Database)

  • 배진욱;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권2호
    • /
    • pp.168-175
    • /
    • 2003
  • 지금까지 문자열 데이타에 대한 선택도 추정은 문자열들의 등장 회수에 대한 정보를 저장하고 있는 '카운트 서픽스 트리'를 생성한 뒤, 이 트리를 이용하여 부분 문자열들의 선택도를 추정하는 방법으로 이루어졌다. 그런데, 문자열 데이타가 생물학 서열처럼 매우 길어질 경우 카운트 서픽스 트리를 생성하는 일은 거의 불가능해진다는 문제점이 발생한다. 이 논문에서는 길이가 q인 부분 문자열들만을 삽입한 '카운트 큐그램 트리'를 제안한다. 카운트 큐그램 트리는 서열 내의 길이가 q 이하인 모든 부분 문자열(큐그램) 들의 정확한 등장 회수를 저장하고 있으며, 문자열의 전체 길이 N에 상관없는 크기로, O(N) 시간에 생성 가능하다. 또한, 이 논문에서는 카운트 큐그램 트리를 이용한 'k번째 최대겹침' 추정 방법을 제시한다. 이 추정 방법은 질의 문자열을 길이 q인 부분 문자열로 나눌 때 부분 문자열들의 겹치는 정도 k를 선택할 수 있도록 한 방법으로 이전 연구에서 제시한 '최대겹침' 방법을 확장하였다. q와 k를 변화시키며 진행한 실험 올 통해 대부분의 경우에 매우 정확하게 선택도를 추정할 수 있음을 확인하였다.