Frequency Estimation of Substring for Scientific Database

과학 데이타베이스에서 부분 문자열의 발생 빈도 예측

  • 배진욱 (서울대학교 전기·컴퓨터공학부) ;
  • 이석호 (서울대학교 전기·컴퓨터공학부)
  • Published : 2003.04.01

Abstract

대량의 짧은 문자열들에 대해 부분 문자열의 발생 빈도를 예측하는 문제는 카운트 서픽스 트리를 미리 생성한 후 이를 이용함으로써 처리될 수 있다. 카운트 서픽스 트리는 모든 부분 문자열의 발생 빈도를 저장한 뒤 가지치기를 함으로써, 제한된 트리 크기와 발생 빈도 예측이라는 두 가지 목표를 처리한다. 하지만, 염기서열에서 처럼 저장된 문자열의 길이가 길어질 경우 카운트 서픽스 트리를 생성하기가 대단히 어려워진다는 문제점이 발생한다. 이 논문에서는 선삽입, 후가지치기 방식의 카운트 서픽스 트리 대신 처음부터 길이가 q 이하인 문자열들만을 삽입하는 큐그램 트리를 제안한다. 큐그램 트리는 제한된 트리 크기에 따라 저장할 부분 문자열의 크기를 미리 결정할 수 있으며, 데이타베이스에 저장된 문자열의 전체 길이가 N일 때 O(N) 시간에 생성 가능하다. 실험 결과 제한된 부분 문자열을 가지고 있음에도 불구하고 긴 부분 문자열의 발생 빈도를 매우 정확하게 예측할 수 있음을 보였다.

Keywords