• 제목/요약/키워드: 부분 문자열 선택도 추정

검색결과 3건 처리시간 0.022초

생물학 서열 데이타베이스에서 부분 문자열의 선적도 추정 (Estimation of Substring Selectivity in Biological Sequence Database)

  • 배진욱;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권2호
    • /
    • pp.168-175
    • /
    • 2003
  • 지금까지 문자열 데이타에 대한 선택도 추정은 문자열들의 등장 회수에 대한 정보를 저장하고 있는 '카운트 서픽스 트리'를 생성한 뒤, 이 트리를 이용하여 부분 문자열들의 선택도를 추정하는 방법으로 이루어졌다. 그런데, 문자열 데이타가 생물학 서열처럼 매우 길어질 경우 카운트 서픽스 트리를 생성하는 일은 거의 불가능해진다는 문제점이 발생한다. 이 논문에서는 길이가 q인 부분 문자열들만을 삽입한 '카운트 큐그램 트리'를 제안한다. 카운트 큐그램 트리는 서열 내의 길이가 q 이하인 모든 부분 문자열(큐그램) 들의 정확한 등장 회수를 저장하고 있으며, 문자열의 전체 길이 N에 상관없는 크기로, O(N) 시간에 생성 가능하다. 또한, 이 논문에서는 카운트 큐그램 트리를 이용한 'k번째 최대겹침' 추정 방법을 제시한다. 이 추정 방법은 질의 문자열을 길이 q인 부분 문자열로 나눌 때 부분 문자열들의 겹치는 정도 k를 선택할 수 있도록 한 방법으로 이전 연구에서 제시한 '최대겹침' 방법을 확장하였다. q와 k를 변화시키며 진행한 실험 올 통해 대부분의 경우에 매우 정확하게 선택도를 추정할 수 있음을 확인하였다.

범위 술어에 대한 문자열 선택도 추정 구현 (Implementation of String Selectivity Estimation for Range-based Predicate)

  • 김재명;이미영;이상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.357-360
    • /
    • 2006
  • 범위 술어에 대한 문자열 선택도 추정은 해당 문자열 범위를 숫자 표현으로 변환 해야 하는 어려움이 있다. 하지만 문자열을 숫자 표현으로 변환할 경우 각각의 바이트에 대한 모든 경우의 수를 모두 고려해야 한다. 따라서 변환 시 문자열 뒷부분에 대한 정보를 고려할 수 없는 문제가 발생한다. 최근 연구되고 있는 부분 문자열에 대한 선택도 추정 방식을 적용할 경우 통계정보와 추정에 대한 연산이 증가되는 단점이 있다. 따라서 이는 범위 술어에 대한 추정만을 위해 사용하기에는 적합하지 않다. 따라서 이 논문에서는 B+ Tree 인덱스의 제한적인 통계정보만을 가지고 범위 술어에 대한 문자열 선택도를 추정하는 방법으로 알티베이스에 구현하였다.

  • PDF

부분 문자열 선택도 추정을 위한 서픽스트리 변환 기법 (A Suffix Tree Transform Technique for Substring Selectivity Estimation)

  • 이홍래;심규석;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.141-152
    • /
    • 2007
  • 선택도 추측은 관계형 데이타베이스에서 질의 최적화의 한 중요한 요소이다. 숫자 데이타에 대한 조건식에 대하여 이 주제는 많은 연구가 되어 왔으나 부분문자열에 대한 조건식은 최근에 이르러서야 관심의 초점이 되고 있다. 우리는 이 논문에서 이 문제를 위한 새로운 서픽스 트리 변환 알고리즘을 제시한다. 제안하는 기법은 서픽스 트리의 노드들을 단순히 잘라 없애 버리기 보다는 기본적으로 비슷한 카운트를 갖는 노드들을 구조적 정보를 유지하면서 병합하여 전체 크기를 줄인다. 본 논문은 여러 제약 사항하에서 서픽스 트리를 그 크기를 줄이도록 변환을 하는 알고리즘을 제시하고 실생활 데이타를 대상으로 실험을 수행하여 우리가 제안하는 알고리즘이 기존의 알고리즘들보다 우수한 평균 상대 에러와 에러 분포 특성을 지니고 있음을 보인다.