• 제목/요약/키워드: 시퀀스 데이터베이스

검색결과 83건 처리시간 0.027초

시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 (A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases)

  • 문양세;김진호;노웅기
    • 정보처리학회논문지D
    • /
    • 제13D권4호
    • /
    • pp.513-524
    • /
    • 2006
  • 정규화 변환은 시계열 시퀀스를 구성하는 엔트리들의 전체적인 패턴을 분석하는데 매우 유용하다. 본 논문에서는 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 다양한 길이의 질의 시퀀스를 지원하기 위하여 여러 개의 색인을 생성해야 하고, 이에 따라 색인 저장 공간의 오버헤드와 색인 관리의 오버헤드가 발생한다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 질의 시퀀스에 대한 정규화 변환을 지원하는 효율적인 서브시퀀스 매칭 방법을 제안한다. 이를 위하여, 우선 정규화 변환을 일반화한 포함-정규화 변환(inclusion-normalization transform) 개념을 제시한다. 포함 정규화 변환이란 색인에 저장할 윈도우에 대해서 해당 윈도우를 포함하는 서브시퀀스의 평균과 표준편차로 정규화하는 것으로서, 기본적인 정규화 변환을 윈도우 및 서브시퀀스 개념을 사용하여 확장한 것이다. 다음으로, 포함-정규화 변환을 기존 서브시퀀스 매칭 연구에 적용하기 위한 이론적 근거를 정리로서 제시하고 증명한다. 그리고, 이 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시한다. 실제 주식 데이터에 대한 실험 결과, 제안한 방법은 기존 방법에 비해 최대 $2.5{\sim}2.8$배까지 성능을 향상 시킨 것으로 나타났다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 정규화 변환 이외의 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있다. 따라서, 제안한 방법은 정규화 변환을 포함하는 많은 다른 종류의 변환을 지원하는 서브시퀀스 매칭에 폭넓게 적용될 수 있는 좋은 연구결과라 사료된다.

시계열 데이터베이스에서 임의 계수의 이동평균 변환을 지원하는 서브시퀀스 매칭 알고리즘 (A Subsequence Matching Algorithm Supporting Moving Average Transformation of Arbitrary Order in Time-Series Databases)

  • 노웅기;김상욱;황규영;심규석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.334-336
    • /
    • 1999
  • 본 논문에서는 시계열 데이터베이스에서 임의 계수의 이동평균 변환을 지원하는 서브시퀀스 매칭 알고리즘을 제안한다. 응용분야와 분석하려고 하는 시계열 데이터의 특성에 따라 잡음의 영향을 줄이는 정도와 경향을 파악하는 주기가 달라지므로 이동평균 계수의 선택도 달라진다. 본 논문에서는 하나의 이동평균 계수에 대해서 생성한 인덱스만을 이용하여 인덱스가 생성되어 있지 않은 계수에 대해서도 탐색을 수행하는 방법을 제안한다. 이때, 제안된 탐색 기법이 질의 결과로 반환되어야 할 서브시퀀스를 모두 찾아내지 못하는 착오 기각이 발생하지 않음을 증명한다. 실험 결과, 모든 이동평균 계수에 대해 인덱스가 생성되어 있는 경우와 비교하여 탐색 성능의 저하는 42%이내였으며, 제안된 알고리즘의 탐색 성능이 순차 검색에 비하여 초대 2.7배 우수하였다.

  • PDF

허밍 기반 음원 검색을 위한 오디오 특징 시퀀스 데이터 색인 기법 개발 (Development of Audio Feature Sequence Data Indexing Method for Query by Singing and Humming)

  • 송재종;임태범
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.381-384
    • /
    • 2013
  • 본 논문에서는 허밍기반 음원 검색 시스템을 위한 오디오 특징 시퀀스 데이터 색인 기법을 제안한다. 우선 Query-by-Singing/Humming (QbSH) 시스템의 특징 데이터베이스를 생성하기 위하여 MP3 와 같은 다성음원에서 주요 멜로디를 추출하여 시퀀스데이터를 생성하고, 고속 검색을 지원하기 위한 시퀀스데이터를 색인화한다. 본 논문에서는 최소 Dynamic Time Warping (DTW) 거리 기법, 시퀀스 추상화 기법, 상한 값 기반 DTW 기법과 같이 세 가지의 시퀀스 데이터의 색인화 기술을 제시하고 각각에 대한 문제점을 파악하고, 성능을 평가한다. 이를 통하여 향상된 검색 시간과 검색 정확도를 얻을 수 있다.

  • PDF

DNA 시퀀스 검색을 위한 효율적인 인덱스 기법 (An Efficient Index Structure for DNA Sequence Retrieval)

  • 홍상균;원정임;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.118-123
    • /
    • 2006
  • DNA 시퀀스 데이터베이스 규모의 급격한 증가 추세를 고려할 때, DNA 시퀀스 검색 연산을 보다 효과적으로 지원할 수 있는 인덱싱 및 질의 처리 기술이 요구 된다. 접미어 트리는 DNA 시퀀스 검색을 위한 좋은 인덱스 구조로 알려져 왔다. 그러나 접미어 트리는 그 구조적 특성으로 인하여 저장공간, 검색 성능, DBMS와의 통합 등의 문제점을 갖는다. 본 논문에서는 이와 같은 접미어 트리의 문제점들을 해결하는 DNA 시퀀스 검색을 위한 새로운 인덱스 구조를 제안하고, 이를 기반으로 하는 효율적인 질의 처리 방식을 제안한다. 제안된 인덱스 기법은 이진 트라이를 기본 구조로 채택하며 DNA 시퀀스의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색을 위한 질의 처리 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first) 방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 제안된 기법의 우수성을 검증하기 위하여, 기존의 접미어 트리와의 비교 실험을 통한 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 인덱스 기법은 접미어 트리에 비하여 약 30%의 작은 저장 공간을 가지고도 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

  • PDF

시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭 : 관찰, 최적화, 성능 결과 (Subsequence Matching Under Time Warping in Time-Series Databases : Observation, Optimization, and Performance Results)

  • 김만순;김상욱
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1385-1398
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 먼저, 사전 실험을 통하여 기존의 기본적인 처리 방식인 Naive-Scan의 성능 병목이 CPU 처리 과정에 있음을 지적하고, Naive-Scan의 CPU 처리 과정을 최적화하는 새로운 기법을 제안한다. 제안된 기법은 질의 시퀀스와 서브시퀀스들간의 타임 워핑 거리들을 계산하는 과정에서 발생하는 중복 작업들을 사전에 제거함으로써 CPU 처리 성능을 극대화한다. 제안된 기법이 착오 기각을 발생시키지 않음과 Naive-Scan을 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 제안된 기법을 기존의 타임 워핑 하의 서브시퀀스 매칭 기법인 LB-Scan과 ST-Filter의 후처리 정량적으로 검증한다. 실험 결과에 의하면, 기존의 타임 워핑 하의 서비시퀀스 매칭을 위한 모든 기법들이 제안된 최적화 기법에 의하여 성능이 개선되는 것으로 나타났다. 특히, Nsive-Scan은 최적화 기법의 적용 전에는 가장 떨어지는 성능을 보였으나, 최적화 기법의 적용 후에는 모든 경우에서 ST-Filter나 LB-Scan을 사용한 경우보다 더 좋은 성능을 보였다. 이것은 성능 병목인 CPU 처리 과정을 최적화함으로써 기존 기법들인 Naive-Scan, LB-Scan, ST-Filter 간의 처리 성능 상의 순위 역전 현상이 발생하였음을 보이는 매우 중요한 결과이다.

시계열 데이타베이스의 인덱스 보간법을 기반으로 정규화 변환을 지원하는 서브시퀀스 매칭 알고리즘 (An Index-Based Subsequence Matching Algorithm Supporting Normalization Transform in Time-Series Databases)

  • 노웅기;감상욱;황규영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.152-154
    • /
    • 2000
  • 본 논문에서는 시계열 데이터베이스에서 정규화 변환을 지원하는 서브시퀀스 매칭 알고리즘을 제안한다. 정규화 변환은 시계열 데이터간의 절대적인 유클리드 거리에 관계없이, 구성하는 값들의 상대적인 변화 추이가 유사한 패턴을 갖는 시계열 데이터를 검색하는 데에 유용하다. 제안된 알고리즘은 몇 개의 질의 시퀀스 길이에 대해서만 각각 인덱스를 생성한 후, 이를 이용하여 모든 가능한 길이의 질의 시퀀스에 대해서 탐색을 수행한다. 이때, 착오 기각이 발생하지 않음을 증명한다. 본 논문에서는 이와 같이 인덱스가 요구되는 모든 경우 중에서 적당한 간격의 일부에 대해서만 생성된 인덱스를 이용한 탐색 기법을 인덱스 보간법이라 부른다. 질의 시퀀스의 길이 256~512 중 다섯 개의 길이에 대해 인덱스를 생성하여 실험한 결과, 탐색 결과를 선택률이 10-5일 때 제안된 알고리즘의 탐색 성능이 순차 검색에 비하여 평균 14.6배 개선되었다.

  • PDF

DNA시퀀스 데이터베이스를 위한 저장-효율적인 Trie 인덱싱 기법 (A Storage-Efficient Trie Indexing Method . for DNA Sequence Databases)

  • 김강모;서남호;원정임;윤지희;박상현;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.31-33
    • /
    • 2004
  • 대규모 DNA 시퀀스를 대상으로 하여 서브시퀀스를 고속으로 검색하기 위한 인덱싱 방법으로서 접미어 트리가 유용하다. 그러나 접미어 트리는 데이터 크기의 약 100배에 해당하는 방대한 저장 공간을 필요로 한파. 본 논문에서는 기존 접미어 트리의 검색 성능을 유지하며, 저장 공간을 획기적으로 감소시킬 수 있는 새로운 인덱스 구조를 제안한다. 제안된 인덱싱 방안에서는 DNA 시퀀스 내의 모든 염기 위치에 고정 길이의 슬라이딩 윈도우를 위치시켜, 윈도우 크기에 해당하는 연속된 서브시퀀스를 추출한 후, 이들을 대상으로 트라이를 구성한다. 트라이는 저장 공간 감소를 위하여 각 문자를 최소 비트 정보로 표현하며, 저장 구조로서 포인터를 사용하지 않는 디스크 기반의 이진 트라이 구조를 사용한다. DNA 서브시퀀스 검색을 효율적으로 처리하기 위한 인덱스 기반의 질의 처리 알고리즘을 제안하고 실험을 통하여 그 유용성을 보인다. 제안된 인덱스는 접미어 트리의 약 10분의 1의 저장 공간을 필요로 하며, 데이터 크기 증가에 거의 영향을 받지 않는 안정된 고속 검색 성능을 지원한다.

  • PDF

정규 거리에 기반한 시계열 데이터베이스의 유사 검색 기법 (Similarity Search in Time Series Databases based on the Normalized Distance)

  • 이상준;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.23-29
    • /
    • 2004
  • 본 논문에서는 정규 거리에 기반 한 유사 시퀀스의 검색 기법을 제안한다. 시퀀스의 형태가 중요한 관심 사항인 응용에서 정규 거리는 단순한 Lp 거리에 비해 적합한 유사도라 할 수 있다. 이러한 정규 거리에 기반 한 질의를 처리하기 위한 기존의 기법들은 시퀀스의 평균을 구한 후 이를 이용하여 시퀀스를 수직 이동하는 전처리 과정을 가지고 있다. 제안된 기법은 시퀀스의 인접한 두 요소들 간의 변이가 정규화 과정에 불변이라는 속성을 이용하여 수직 이동의 전처리 과정 없이 특징 벡터를 추출한 후 이를 R-tree와 같은 공간 접근 기법을 이용하여 인덱싱한다. 제안된 기법은 비슷한 형태의 시퀀스를 검색할 수 있으며 착오 누락이 얼음을 보장한다. 실제 주식 데이타를 이용한 실험을 통해 제안된 기법의 성능을 확인하였다.

윈도우를 구성하는 방법의 이원성을 이용한 효율적인 시계열 서부시퀀스 매칭 (Efficient Time-Series Subsequence Matching using Duality in Constructing Windows)

  • 문양세;노웅기;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권1호
    • /
    • pp.15-30
    • /
    • 2001
  • 서브시퀀스 매칭은 질의 시퀀스와 유사한 서브시퀀스를 가지는 데이터 시퀀스와 해당 서브시퀀스의 위치를 찾는 문제이다. 본 논문에서는 윈도우를 구성하는 방법의 이원성을 이용한 새로운 서부시퀀스 매칭 방법인 Dual-Match는 윈도우를 구성하는 방법에 있어서 Faloutsos 등이 사용한 방법(간단히 FRM 이라한다)의 이원적 접근법이다. 즉, FRM에서는 데이터 시퀀스를 슬라이딩 윈도우로 나누고 질의 시퀀스를 디스조인트 윈도우로 나누는 방법을 사용한 반면, Dual-Match에서는 데이터 시퀀스를 디스조이트 윈도우로 나누고 질의 시퀀스를 슬라이딩 윈도우로 나누는 방법을 사용한다. FRM은 색인에 필요한 저장공간을 줄이기 위하여 개별 점 대신 최소 포함 사각형만을 저장함으로 인하여 많은 착오해답(유사하지 않은 후보 서브시퀀스)을 발생시켰다. Dual-Match는 FRM과 비슷한 크기의 저장공간에 개별 점을 직접 저장함으로써 이 문제를 해결한다. 실험결과, Dual-Match는 많은 경우에 있어서 FRM에 비하여 후보 개수를 크게 줄이고 성능을 향상시켰다. 특히, 선택률이 낮은 경우($10^{-4}$이하)에는 후보 개수를 최대 8800배 까지 줄이고, 페이지 액세스 횟수를 최대 26.9배까지 줄였으며, 성능을 최대 430배까지 향상시켰다. 또한, 동일한 크기의 색인을 생성하는데 있어서 Dual-Match는 FRM보다 4.10~25.6배 빠르게 색인을 구성하였다. 이는 색인 구성시에 CPU 오버헤드의 많은 부분을 차지하는 저차원 변환의 횟수를 FRM에 비해 크게 줄이기 때문이다. 이 같은 결과로 볼 때, Dual-Match는 대용량 데이터베이스에 대한 서부시퀀스 매칭의 성능을 크게 향상시킬 수 있는 획기적인 연구 결과라 믿는다.

  • PDF

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법 (An Efficient Subsequence Matching Method Based on Index Interpolation)

  • 노웅기;김상욱
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.345-354
    • /
    • 2005
  • 서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.