• 제목/요약/키워드: 시퀀스 검색

검색결과 123건 처리시간 0.029초

DNA 시퀀스 검색을 위한 효율적인 인덱스 기법 (An Efficient Index Structure for DNA Sequence Retrieval)

  • 홍상균;원정임;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.118-123
    • /
    • 2006
  • DNA 시퀀스 데이터베이스 규모의 급격한 증가 추세를 고려할 때, DNA 시퀀스 검색 연산을 보다 효과적으로 지원할 수 있는 인덱싱 및 질의 처리 기술이 요구 된다. 접미어 트리는 DNA 시퀀스 검색을 위한 좋은 인덱스 구조로 알려져 왔다. 그러나 접미어 트리는 그 구조적 특성으로 인하여 저장공간, 검색 성능, DBMS와의 통합 등의 문제점을 갖는다. 본 논문에서는 이와 같은 접미어 트리의 문제점들을 해결하는 DNA 시퀀스 검색을 위한 새로운 인덱스 구조를 제안하고, 이를 기반으로 하는 효율적인 질의 처리 방식을 제안한다. 제안된 인덱스 기법은 이진 트라이를 기본 구조로 채택하며 DNA 시퀀스의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색을 위한 질의 처리 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first) 방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 제안된 기법의 우수성을 검증하기 위하여, 기존의 접미어 트리와의 비교 실험을 통한 성능 평가를 수행하였다. 실험 결과에 의하면, 제안된 인덱스 기법은 접미어 트리에 비하여 약 30%의 작은 저장 공간을 가지고도 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

  • PDF

이미지 시퀀스 데이터베이스에서 우선순위 큐와 접미어 트리를 이용한 효율적인 유사 서브시퀀스 검색의 설계 (A Design for Efficient Similar Subsequence Search with a Priority Queue and Suffix Tree in Image Sequence Databases)

  • 김인범
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권4호
    • /
    • pp.613-624
    • /
    • 2003
  • 본 논문은 우선순위 큐와 접미어 트리로 색인 구조를 생성한 후. 이미지 시퀀스 데이터베이스에서 다차원 타임 워핑 거리 함수를 이용하여 유사한 이미지 서브시퀀스를 신속하고 정확하게 검색할 수 있는 방법을 제안한다. 본 논문에서 제안된 방법은 사전에 정의된 중요도에 따라 선별된 이미지 시퀀스로 구성된 우선순위 큐 색인의 이미지 서브시퀀스에 대한 유사성 거리 계산을 첫 단계로 시행하여 유사한 서브시퀀스집합을 얻고 만족할 결과를 얻지 못했을 경우에는 두 번째 단계로 나머지 유사 서브시퀀스에 대해 디스크 기반의 접미어 트리를 색인 구조체로 하여 유사한 서브시퀀스를 검색하는 것이다. 하한 거리 함수를 활용하여 질의 이미지 시퀀스와 유사한 이미지 서브시퀀스를 검색하는 과정에서 생성 가능한 오류를 방지 하면서 동시에 비 유사 이미지 서브시퀀스를 제거하도록 한다.

  • PDF

다차원 시퀀스 데이터베이스를 위한 효율적인 범위 검색 기법 (Efficient Range Search Method for Multi-dimensional Sequence Database)

  • 이상준;김범수;이석호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.613-620
    • /
    • 1999
  • 시간의 흐름에 따라 순차적으로 생성되는 연속적인 데이터의 모임을 시퀀스라 한다. 저장된 시퀀스에서 질의로 주어진 시퀀스와 유사한 것을 찾는 문제에 대한 기존의 연구는 대부분 하나의 속성만을 대상으로 한것이며, 여러 속성으로 구성된 다차원 시퀀스에 대해서는 아직까지 활발한 연구가 이루어지지않고 있다. 본 논문에서는 유사도에 기반한 다차원 시퀀스의 범위 검색 문제를 정의하고 세 가지 검색 기법을 기술한다. 순차 검색 기법, 속성별 인덱스 구조, 차원 감소 기법을 이용한 다차원 시퀀스의 검색 기법을 기술하고 질의에 대해 어떤 검색 기법이 효율적인지 실험을 통해 보인다.

시퀀스 데이터베이스를 위한 모양기반의 유사 부분시퀀스 검색 (Efficient Retrieval of Similar Shape-Based Subsequences for Sequence Database)

  • 이정화;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.340-342
    • /
    • 1999
  • 시퀀스 데이터(sequence data)에서는 각 데이터 값보다는 전후 그들 사이의 변화추세 등이 더 큰 정보로 작용하는 것이 일반적이다. 본문에서는 시퀀스 데이터베이스를 대상으로 하여 주어진 시퀀스 패턴과 모양이 유사한 모든 부분시퀀스를 검색해 내는 새로운 방식을 제안한다. 본 방식에서는 시퀀스 데이터의 모양 추출을 위한 데이터 변환, 유사 모양 패턴 클러스터링, 새로운 유사도 계산 방식 등을 도입함으로써, 기존의 방식이 매우 제한적인 패턴만을 유사패턴으로 간주하던 것에 비하여, 패턴이 데이터축 혹은 타임축으로 각각 확대, 축소, 이동된 경우에도 유사패턴으로 검색이 가능하다.

  • PDF

쉬프팅을 지원하는 유사 시퀀스 검색 (Similar Sequence Search Supporting Shifting)

  • 강석원;김수현;송준호;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1191-1192
    • /
    • 2015
  • 기존의 유사 시퀀스 검색 방법들은 시퀀스 간의 거리를 이용하여 유사도를 판단하였다. 그러나 이러한 방법은 시퀀스의 형태를 고려하지 못하는 문제가 있다. 본 논문에서는 시퀀스를 쉬프팅하여 형태를 고려하고 시퀀스 간의 거리를 이용해 유사한 시퀀스를 검색하는 방법을 제안하고자 한다.

시계열 데이터 베이스에서의 효율적인 유사 검색을 위한 Polar Wavelet 기법 (Polar Wavelet Method for Efficient Similarity Search in Time Series Databases)

  • 이범기;강성구;이상준;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.85-87
    • /
    • 2004
  • 유클리드 거리에 기반하여 유사한 시퀀스 검색을 하는 기법들은 각 시퀀스에서 특징을 추출하여 차원을 감소시킨 후, R-tree 같은 다차원 인덱싱 기법을 사용하여 검색을 수행한다. 본 논문에서는 시계열 데이터 베이스에서의 유사 검색 성능 향상을 위한 새로운 특징 추출 기법인 Polar Wavelet 기법을 제안한다. 이 기법은 유사 검색 시 후보 시퀀스의 개수를 줄임으로써 검색 성능을 향상시킬 수 있고, 특징 추출을 위해 시퀀스의 길이를 2$^n$으로 만들 필요가 없는 장점을 갖고 있다.

  • PDF

시퀀스 데이터웨어하우스에서 이산푸리에변환과 비트맵을 이용한 시퀀스 스트림 색인 기법 (Sequence Stream Indexing Method using DFT and Bitmap in Sequence Data Warehouse)

  • 손동원;홍동권
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.181-186
    • /
    • 2012
  • 최근 시간적으로 변화된 데이터에서 유사한 값의 움직임 즉 유사 패턴을 검색하는 연구가 활발히 진행되고 있다. 시간적으로 변화된 데이터는 시계열 데이터 (time series data) 또는 시퀀스 데이터(sequence data)로 분류되며 기존의 스칼라 값을 가지는 데이터와는 매우 다른 의미를 가진다. 본 논문에서 유사 시퀀스 검색은 시퀀스 데이터웨어하우스에서 값의 변화가 유사한 형태를 가지는 시퀀스들을 검색한다. 유사 시퀀스를 검색하기 위하여 본 논문에서는 먼저 시퀀스 원시 데이터에 이 산 푸리에 변환(DFT, Discrete Fourier Transform)을 적용하여 데이터를 변환한다. 변환된 데이터는 그 특성으로 인하여 유사 패턴의 검색에 적합하며 또 유사도를 비교할 때 일부분만 사용되므로 색인에 사용되는 속성의 개수를 줄이는 장점이 있다. 또 데이터웨어하우스 환경이므로 더 좋은 성능을 보일 수 있는 비트맵 색인 기법을 적용하였다. 시퀀스 데이터의 효율적인 검색을 위하여 영역 지정 검색 방법을 제안하고 효율적인 실행을 위한 비트맵을 활용한 다양한 조합의 색인을 생성하고, 질의 최적화기의 연산 비용을 비교하면서 효율적인 검색 연산을 위한 최저 비용의 색인을 선택하는 기법을 연구하였다.

DNA 시퀀스 데이타베이스를 위한 실용적인 유사 서브 시퀀스 검색 기법 (A Practical Approximate Sub-Sequence Search Method for DNA Sequence Databases)

  • 원정임;홍상균;윤지희;박상현;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.119-132
    • /
    • 2007
  • 유사 서브 시퀀스 검색은 분자 생물학 분야에서 사용되는 매우 중요한 연산이다. 본 논문에서는 대규모 DNA 시퀀스 데이타베이스를 처리 대상으로 하여 효율성과 정확도를 보장하는 실용적인 유사 서브 시퀀스 검색 기법을 제안한다. 제안된 기법은 이진 트라이를 인덱스 구조로 채택하여 DNA 시퀀스로부터 추출한 일정 길이의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first)방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 그러나 질의 길이가 윈도우의 크기보다 큰 일반적인 경우에는 질의를 일정 길이의 서브 시퀀스로 분해하여 각 서브 시퀀스에 대하여 유사 서브 시퀀스 검색을 수행한 후, 후처리 과정에 의하여 정확도에 손상 없이 이들 결과를 결합하는 분할 질의 처리 방식을 채택한다. 제안된 기법의 우수성을 검증하기 위하여, 실험을 통한 성능 평가를 수행한다. 실험 결과에 의하면 제안된 인덱스 기법은 접미어 트리에 비하여 약 40%의 작은 저장 공간을 가지고도 약 4-17배의 검색 성능의 개선 효과를 나타낸다. 또한 분할 질의 처리 방식에 의한 유사 서브 시퀀스 검색 알고리즘은 질의 길이가 긴 경우에도 효율적으로 동작하여 Suffix와 Smith-Waterman 알고리즘에 비하여 각각 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

허밍 기반 음원 검색을 위한 오디오 특징 시퀀스 데이터 색인 기법 개발 (Development of Audio Feature Sequence Data Indexing Method for Query by Singing and Humming)

  • 송재종;임태범
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.381-384
    • /
    • 2013
  • 본 논문에서는 허밍기반 음원 검색 시스템을 위한 오디오 특징 시퀀스 데이터 색인 기법을 제안한다. 우선 Query-by-Singing/Humming (QbSH) 시스템의 특징 데이터베이스를 생성하기 위하여 MP3 와 같은 다성음원에서 주요 멜로디를 추출하여 시퀀스데이터를 생성하고, 고속 검색을 지원하기 위한 시퀀스데이터를 색인화한다. 본 논문에서는 최소 Dynamic Time Warping (DTW) 거리 기법, 시퀀스 추상화 기법, 상한 값 기반 DTW 기법과 같이 세 가지의 시퀀스 데이터의 색인화 기술을 제시하고 각각에 대한 문제점을 파악하고, 성능을 평가한다. 이를 통하여 향상된 검색 시간과 검색 정확도를 얻을 수 있다.

  • PDF

시퀀스 데이터베이스를 위한 타임 워핑 기반 유사 검색 (Time-Warping-Based Similarity Search in Sequence Databases)

  • 감상욱;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.202-204
    • /
    • 2001
  • 본 논문에서는 대형 시퀀스 데이터베이스에서 타임 워핑을 지원하는 유사 검색을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 주는 변환이다. 타임 워핑 거리는 삼각형 부등식 성질을 만족하지 못하므로 기존의 기법들은 착오 기각 없이 다차원 인덱스를 사용할 수 없었다. 본 논문에서는 타임 워핑을 지원하는 새로운 인덱스 기반 유사 검색 기법을 제안한다. 제안된 주요 목표는 착오 기각 없이 대형 데이터베이스에서도 좋은 검색 성능을 보장하는 것이다. 다양한 실험을 통하여 제안된 기법의 우수성을 규명한다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 약 4배에서 43배까지의 성능 개선 효과를 가지는 것을 나타났다.

  • PDF