• 제목/요약/키워드: 시퀀스 데이터베이스

검색결과 83건 처리시간 0.025초

시퀀스 유사도에 기반한 유전체 데이터베이스 압축 및 영향 분석 (The Analysis of Genome Database Compaction based on Sequence Similarity)

  • 권선영;이병한;박승현;조정희;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.250-255
    • /
    • 2017
  • 유전체 데이터의 급증 및 정밀의료 등 응용 분야 확대에 따라 유전체 데이터베이스의 효율적 관리에 대한 중요성이 커지고 있다. 전통적인 압축 기법을 통해 유전체 데이터를 압축할 경우, 압축효과는 크지만, 압축된 상태에서 데이터베이스를 비교하거나 검색하는 등의 작업이 용이하지 않게 된다. 유전체 데이터 분석에 소요되는 시간은 데이터베이스에 존재하는 시퀀스 수에 비례하며, 중복되거나 유사한 시퀀스가 다수 존재한다는 점에 착안하여, 본 논문에서는 유전체 데이터베이스 상에 존재하는 유사 시퀀스를 제거함으로써 전체 데이터베이스 크기를 줄이는 기법을 제안한다. 실험을 통해 시퀀스 유사도 1% 기준으로도 전체의 약 84% 시퀀스가 제거되며, 약 10배 빠른 분류분석이 가능함을 보인다. 또한 큰 폭의 압축효과에도 불구하고, 범주 다양성 및 분류 분석 등에 미치는 변화가 미미함을 확인함으로써, 시퀀스 유사도 기반의 제안 압축 기법이 유전체 데이터베이스 압축에 효과적인 방법임을 제시한다.

시퀀스 데이터베이스를 위한 모양기반의 유사 부분시퀀스 검색 (Efficient Retrieval of Similar Shape-Based Subsequences for Sequence Database)

  • 이정화;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.340-342
    • /
    • 1999
  • 시퀀스 데이터(sequence data)에서는 각 데이터 값보다는 전후 그들 사이의 변화추세 등이 더 큰 정보로 작용하는 것이 일반적이다. 본문에서는 시퀀스 데이터베이스를 대상으로 하여 주어진 시퀀스 패턴과 모양이 유사한 모든 부분시퀀스를 검색해 내는 새로운 방식을 제안한다. 본 방식에서는 시퀀스 데이터의 모양 추출을 위한 데이터 변환, 유사 모양 패턴 클러스터링, 새로운 유사도 계산 방식 등을 도입함으로써, 기존의 방식이 매우 제한적인 패턴만을 유사패턴으로 간주하던 것에 비하여, 패턴이 데이터축 혹은 타임축으로 각각 확대, 축소, 이동된 경우에도 유사패턴으로 검색이 가능하다.

  • PDF

이미지 시퀀스 데이터베이스에서 우선순위 큐와 접미어 트리를 이용한 효율적인 유사 서브시퀀스 검색의 설계 (A Design for Efficient Similar Subsequence Search with a Priority Queue and Suffix Tree in Image Sequence Databases)

  • 김인범
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권4호
    • /
    • pp.613-624
    • /
    • 2003
  • 본 논문은 우선순위 큐와 접미어 트리로 색인 구조를 생성한 후. 이미지 시퀀스 데이터베이스에서 다차원 타임 워핑 거리 함수를 이용하여 유사한 이미지 서브시퀀스를 신속하고 정확하게 검색할 수 있는 방법을 제안한다. 본 논문에서 제안된 방법은 사전에 정의된 중요도에 따라 선별된 이미지 시퀀스로 구성된 우선순위 큐 색인의 이미지 서브시퀀스에 대한 유사성 거리 계산을 첫 단계로 시행하여 유사한 서브시퀀스집합을 얻고 만족할 결과를 얻지 못했을 경우에는 두 번째 단계로 나머지 유사 서브시퀀스에 대해 디스크 기반의 접미어 트리를 색인 구조체로 하여 유사한 서브시퀀스를 검색하는 것이다. 하한 거리 함수를 활용하여 질의 이미지 시퀀스와 유사한 이미지 서브시퀀스를 검색하는 과정에서 생성 가능한 오류를 방지 하면서 동시에 비 유사 이미지 서브시퀀스를 제거하도록 한다.

  • PDF

시퀀스 데이터베이스를 위한 타임 워핑 기반 유사 검색 (Time-Warping-Based Similarity Search in Sequence Databases)

  • 감상욱;박상현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.202-204
    • /
    • 2001
  • 본 논문에서는 대형 시퀀스 데이터베이스에서 타임 워핑을 지원하는 유사 검색을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 주는 변환이다. 타임 워핑 거리는 삼각형 부등식 성질을 만족하지 못하므로 기존의 기법들은 착오 기각 없이 다차원 인덱스를 사용할 수 없었다. 본 논문에서는 타임 워핑을 지원하는 새로운 인덱스 기반 유사 검색 기법을 제안한다. 제안된 주요 목표는 착오 기각 없이 대형 데이터베이스에서도 좋은 검색 성능을 보장하는 것이다. 다양한 실험을 통하여 제안된 기법의 우수성을 규명한다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 약 4배에서 43배까지의 성능 개선 효과를 가지는 것을 나타났다.

  • PDF

시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭의 성능 최적화 (Optimization of Subsequence Matching Under Time-Warping in Time-Series Databases)

  • 김만순;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.117-120
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 데이터베이스내 시퀀스들의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 본 논문에서는 타임 워핑 하의 서브시퀀스 매칭을 위한 기존의 기본 처리 방식인 Naive-Scan의 CPU 처리 과정을 최적화하는 새로운 기법을 제안한다. 제안된 기법은 질의 시퀀스와 서브시퀀스들 간의 타임 워핑 거리들을 계산하는 과정에서 발생하는 중복 작업들을 사전에 제거함으로써 CPU 처리 성능을 극대화한다. 제안된 기법이 착오 기각을 발생시키지 않음과 Naive-Scan을 처리하기 위한 최적의 기법임을 이론적으로 규명한다. 또한, 다양한 실험을 통한 성능 평가에 의하여 제안된 최적화 기법이 가져오는 성능 개선 효과를 정량적으로 검증한다. 아울러, 제안된 기법이 기존의 여과 단계를 포함하는 방식인 LB-Scan과 ST-Filter의 후처리 단계에도 성공적으로 적용될 수 있음을 보인다.

  • PDF

시계열 데이터베이스에서 순위를 지원하는 서브시퀀스 매칭 방법을 위한 시각화 툴 (A Visualization Tool for Ranked Subsequence Matching in Time-Series Databases)

  • 이성진;이진수;조훈;한욱신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.787-788
    • /
    • 2009
  • 시계열 데이터(time-series data)는 연속적인 데이터를 고정된 시간 간격으로 샘플링한 실수 값들의 연속을 의미한다. 시계열 데이터의 예로는, 음악 및 동영상 데이터, 심전도 데이터, 주식 그래프 등의 데이터가 있다. 시계열 데이터는 다시 데이터베이스에 저장 되어있는 데이터 시퀀스(data sequence)와, 사용자에 의해 주어지는 질의 시퀀스(query sequence)로 분류된다. 시계열 데이터베이스(time-series database)에서 순위를 지원하는 서브시퀀스 매칭 방법(ranked subsequence matching)은 데이터 시퀀스와 질의 시퀀스가 주어졌을 때, 질의 시퀀스의 길이와 같은 데이터 시퀀스의 서브시퀀스(subsequence)들 중에서 질의 시퀀스와 가장 유사한 상위 k개의 서브시퀀스들을 찾는 것이다. 본 논문의 목적은 사용자가 매칭 방법에 대한 인식과 이해가 부족하더라도 기존의 콘솔 기반의 매칭 프로그램을 보다 쉽게 사용할 수 있도록 이용성을 향상시키기 위하여 시각화 툴을 개발하는 것이다. 구체적으로, 5가지 시각화(visualization) 기능을 제공하는 사용자 인터페이스를 구현하였다. 구현된 사용자 인터페이스를 통해 사용자가 기존의 매칭 프로그램을 보다 쉽고 간편하게 사용할 수 있도록 기여한다.

출현 시퀀스 마이닝 기반의 단백질 2 차 구조 예측 (Predict Protein Secondary Structure based on Emerging Sequence Mining)

  • ;이헌규;;손호선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.379-382
    • /
    • 2009
  • 최근 단백질 기능 예측을 위한 서열비교와 구조비교 기법들은 정확한 분류가 가능한 반면, 새로운 단백질 기능 분류를 함에 있어서 많은 복잡도가 따른다. 따라서 이 논문에서는 보다 빠른 단백질의 구조 분류 및 예측을 위하여 출현 시퀀스(emerging sequence)를 기반으로 하는 분류기법을 제안하였다. 이 기법에서는 먼저, 출현 시퀀스 마이닝 알고리즘을 이용하여 단백질 서열 데이터로부터 4 가지의 단백질 2 차 구조 출현 시퀀스를 발견하고, SVM을 이용하여 단백질의 출현 시퀀스 속성으로부터 단백질의 2 차 구조를 예측하였다.

시계열 서브시퀀스 매칭을 위한 최적의 다중 인덱스 구성 방안 (Optimal Construction of Multiple Indexes for Time-Series Subsequence Matching)

  • 임승환;박희진;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.193-195
    • /
    • 2005
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이다. 본 논문에서는 크기 효과로 인한 서브시퀀스 매칭의 심각한 성능 저하 현상을 정량적으로 관찰하여, 하나의 윈도우 크기를 대상으로 만든 단 하나의 인덱스만을 이용하는 것은 실제 응용에서 만족할만한 성능을 제공할 수 없다는 것을 규명하였다. 또한, 이러한 문제로 인해 다양한 윈도우 크기를 기반으로 다수의 인덱스들을 구성하여 서브시퀀스 매칭을 수행하는 인덱스 보간법의 응용이 필요함을 보였다. 인덱스 보간법을 응용하여 서비시퀀스 매칭을 수행하기 위해서는 먼저 다수의 인덱스들을 위한 윈도우 크기들을 결정해야 한다. 본 연구에서는 물리적 데이터베이스 설계방식을 이용하여 이러한 최적의 다수의 윈도우 크기들을 선정하는 문제를 해결하였다. 이를 위하여 시계열 데이터베이스에서 수행될 예정인 질의 시퀀스들의 집합과 인덱스 구성의 기반이 되는 윈도우들의 크기의 집합이 주어질 때, 전체 서브시퀀스 매칭들을 수행하는 데에 소요되는 비용을 예측할 수 있는 공식을 산출하였다. 또한, 이 비용 공식을 이용하여 전체 서브시퀀스 매칭들의 성능을 극대화 할 수 있는 최적의 윈도우 크기들을 결정하는 알고리즘을 제안하였으며, 이 알고리즘의 최적성과 효율성을 이론적으로 규명하였다. 끝으로, 실험에 의한 성능 평가를 제안된 기법의 우수성을 제시하였다.

  • PDF

시계열 데이터베이스에서 DFT-기반 다차원 인덱스를 위한 물리적 데이터베이스 설계 (Physical Database Design for DFT-Based Multidimensional Indexes in Time-Series Databases)

  • 김상욱;김진호;한병일
    • 한국멀티미디어학회논문지
    • /
    • 제7권11호
    • /
    • pp.1505-1514
    • /
    • 2004
  • 시퀀스 매칭은 시계열 데이터베이스로부터 질의 시퀀스와 변화의 추세가 유사한 데이터 시퀀스들을 검색하는 연산이다. 기존의 대부분의 연구에서는 효과적인 시퀀스 매칭을 위하여 다차원 인덱스를 사용하며, 데이터 시퀀스를 이산 푸리에 변환(Discrete Fourier Transform: DFT)한 후, 단순히 앞의 두 개 내지 세 개의 DFT 계수만을 구성 속성 (organizing attributes)으로 사용함으로써 고차원의 경우 발생하는 차원 저주(dimensionality curse) 문제를 해결한다. 본 논문에서는 기존의 단순한 기법이 가지는 성능 상의 문제점들을 지적하고, 이러한 문제점들을 해결하는 최적의 다차원 인덱스 구성 기법을 제안한다. 제안된 기법은 대상이 되는 시계열 데이터베이스의 특성을 사전에 분석함으로써 변별력이 뛰어난 요소들을 다차원 인덱스의 구성 속성으로 선정하며, 비용 모델(cost model)을 기반으로 한 시퀀스 매칭 비용의 추정을 통하여 다차원 인덱스에 참여하는 최적의 구성 속성의 수를 결정한다. 제안된 기법의 우수성을 규명하기 위하여 실험을 통한기존 기법과의 성능 비교를 수행하였다 실험 결과에 의하면, 제안된 기법은 기존의 기법에 비교하여 매우 큰 성능 개선 효과를 가지는 것으로 나타났다.

  • PDF

이미지 시퀀스 데이터베이스에서의 유사성 기반 서브시퀀스 검색 (Similarity-Based Subsequence Search in Image Sequence Databases)

  • 김인범;박상현
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.501-512
    • /
    • 2003
  • 본 논문은 다차원 타임 워핑 거리 함수를 이용하여 유사한 이미지 서브시퀀스를 신속하게 검색할 수 있는 색인 방법을 제안한다. 타임 워핑 거리는 시퀀스들의 길이가 다르거나 샘플링 비율이 다른 많은 응용에서 Lp 거리보다 더욱 적합하다. 우리가 제안한 색인 방법은 디스크 기반의 접미어 트리를 색인 구조체로 채택하고, 유사하지 않은 서브시퀀스를 잘못된 누락 없이 잘 여과하기 위해 하한 거리 함수를 사용한다. 이 방법은 특정 차원의 상대적 가중치를 손쉽게 부여하기 위해 정규화를 적용하고 색인 트리를 압축하기 위해 이산화 과정을 수행한다. 메디컬 이미지와 합성 이미지 시퀀스를 대상으로 한 실험은 본 논문에서 제안한 방법이 naive한 방법보다 우수한 성능을 보이고 대용량의 이미지 시퀸스 데이터베이스로의 확장이 용이함을 입증한다.