Frequency Estimation of Substring for Scientific Database

;;

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

2003.04a
/
Pages.536-538
/
2003
/
1598-5164(pISSN)

Korean Institute of Information Scientists and Engineers (한국정보과학회)

Frequency Estimation of Substring for Scientific Database

과학 데이타베이스에서 부분 문자열의 발생 빈도 예측

배진욱 (서울대학교 전기·컴퓨터공학부) ;
이석호 (서울대학교 전기·컴퓨터공학부)

Published : 2003.04.01

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

대량의 짧은 문자열들에 대해 부분 문자열의 발생 빈도를 예측하는 문제는 카운트 서픽스 트리를 미리 생성한 후 이를 이용함으로써 처리될 수 있다. 카운트 서픽스 트리는 모든 부분 문자열의 발생 빈도를 저장한 뒤 가지치기를 함으로써, 제한된 트리 크기와 발생 빈도 예측이라는 두 가지 목표를 처리한다. 하지만, 염기서열에서 처럼 저장된 문자열의 길이가 길어질 경우 카운트 서픽스 트리를 생성하기가 대단히 어려워진다는 문제점이 발생한다. 이 논문에서는 선삽입, 후가지치기 방식의 카운트 서픽스 트리 대신 처음부터 길이가 q 이하인 문자열들만을 삽입하는 큐그램 트리를 제안한다. 큐그램 트리는 제한된 트리 크기에 따라 저장할 부분 문자열의 크기를 미리 결정할 수 있으며, 데이타베이스에 저장된 문자열의 전체 길이가 N일 때 O(N) 시간에 생성 가능하다. 실험 결과 제한된 부분 문자열을 가지고 있음에도 불구하고 긴 부분 문자열의 발생 빈도를 매우 정확하게 예측할 수 있음을 보였다.

Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)

Frequency Estimation of Substring for Scientific Database

과학 데이타베이스에서 부분 문자열의 발생 빈도 예측

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)