• 제목/요약/키워드: 서브시퀀스 추출

검색결과 9건 처리시간 0.025초

인덱스 보간법을 이용한 효율적인 시계열 서브시퀀스 매칭 (Efficient Time-Series Subsequence Matching Using Index Interpolation)

  • 임승환;고현길;노웅기;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.31-34
    • /
    • 2004
  • 서브시퀀스 매칭은 시계열 데이터베이스에서 질의 시퀀스와 유사한 서브시퀀스틀 찾아내는 연산이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하기 때문에, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하되는 문제점을 갖고 있다. 본 논문에서는 이러한 기존 알고리즘의 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 서브시퀀스 매칭 비용 공식을 산출하고, 이 비용 공식에 기반하여 제안된 기법의 성능을 최적화 하도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 정량적으로 검증한다.

  • PDF

시퀀스 데이터베이스를 위한 서브시퀀스 탐색 : 세그먼트 기반 접근 방안 (Efficient Subsequence Searching in Sequence Databases : A Segment-based Approach)

  • 박상현;김상욱;노웅기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.344-356
    • /
    • 2001
  • 본 논문에서는 시퀀스 데이터베이스에서 시간왜곡 변환(time warping)을 지원하는 서브시퀀스 탐색 문제를 다룬다. 서브시퀀스 탐색은 데이터 시퀀스의 평균 길이의 이차 함수로 성능이 저하된다. 이러한 문제를 해결하기 위하여 본 논문에서는 세그먼트 기반 서브시퀀스 탐색 기법(Segment-Based Approach for Subsequence Searches : SBASS)을 제안한다. SBASS는 데이터와 질의 시퀀스를 연속된 세그먼트들로 분할하여 다음의 두가지 조건을 만족하는 모든 데이터 시퀀스를 검색한다. (1) 세그먼트의 개수가 질의 시퀀스의 세그먼트 개수와 같다. (2) 모든 세그먼트 쌍 간의 거리가 주어진 오차 한도 이내이다. 제안된 세그먼트 분할 기법에서는 세그먼트가 서로 다른 길이를 갖도록 허용하며, 세그먼트 쌀간의 유사성의 척도로서 시간왜곡 변환 거리를 이용한다. 효율적인 유사 서브시퀀스 탐색을 위하여, 각 데이터 세그먼트로부터 요서 값들이 단조적으로 변화하는 특성을 이용하여 특성 벡터를 추출하고, 추출된 특성 벡터를 이용하여 공간 인덱스를 생성한다. 질의는 이 인덱스를 이용하여 (1) R-트리 여과, (2) 특성 여과, (3) 순서 여과, (4) 후처리의 네 단계로 처리된다. 다양한 실험을 통하여 제안된 기법의 효율성을 입증한다.

  • PDF

만족가능성 처리기를 이용한 이진 변수 서브시퀀스 추출 (Extracting Subsequence of Boolean Variables using SAT-solver)

  • 박사천;권기현
    • 정보처리학회논문지D
    • /
    • 제15D권6호
    • /
    • pp.777-784
    • /
    • 2008
  • 최근 정형 검증 분야에서 상태 폭발 문제를 극복하기 위해 만족가능성(Satisfiability) 처리기를 사용하는 방법이 많이 연구되고 있다. 만족가능성 처리기를 사용하려면 대상을 CNF 식으로 변환해야 하는데, 이진 기수 제약 조건은 시스템을 CNF 식으로 변환하기 위해 많이 사용되는 기법이다. 그러나 이진 기수 제약 조건은 이진 변수들의 집합을 다루기 때문에 이진 변수들의 순서 정보는 변환할 수 없었다. 본 논문에서는 이진 변수의 시퀀스에서 길이가 k인 서브시퀀스 추출 문제에 대한 CNF 변환 방법을 제안한다. 또한 실험을 통해 제안된 방법이 순서정보를 고려치 않고 적용한 변환 방법보다 훨씬 더 좋은 결과를 얻을 수 있었다.

DNA시퀀스 데이터베이스를 위한 저장-효율적인 Trie 인덱싱 기법 (A Storage-Efficient Trie Indexing Method . for DNA Sequence Databases)

  • 김강모;서남호;원정임;윤지희;박상현;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.31-33
    • /
    • 2004
  • 대규모 DNA 시퀀스를 대상으로 하여 서브시퀀스를 고속으로 검색하기 위한 인덱싱 방법으로서 접미어 트리가 유용하다. 그러나 접미어 트리는 데이터 크기의 약 100배에 해당하는 방대한 저장 공간을 필요로 한파. 본 논문에서는 기존 접미어 트리의 검색 성능을 유지하며, 저장 공간을 획기적으로 감소시킬 수 있는 새로운 인덱스 구조를 제안한다. 제안된 인덱싱 방안에서는 DNA 시퀀스 내의 모든 염기 위치에 고정 길이의 슬라이딩 윈도우를 위치시켜, 윈도우 크기에 해당하는 연속된 서브시퀀스를 추출한 후, 이들을 대상으로 트라이를 구성한다. 트라이는 저장 공간 감소를 위하여 각 문자를 최소 비트 정보로 표현하며, 저장 구조로서 포인터를 사용하지 않는 디스크 기반의 이진 트라이 구조를 사용한다. DNA 서브시퀀스 검색을 효율적으로 처리하기 위한 인덱스 기반의 질의 처리 알고리즘을 제안하고 실험을 통하여 그 유용성을 보인다. 제안된 인덱스는 접미어 트리의 약 10분의 1의 저장 공간을 필요로 하며, 데이터 크기 증가에 거의 영향을 받지 않는 안정된 고속 검색 성능을 지원한다.

  • PDF

DNA 시퀀스 데이타베이스를 위한 실용적인 유사 서브 시퀀스 검색 기법 (A Practical Approximate Sub-Sequence Search Method for DNA Sequence Databases)

  • 원정임;홍상균;윤지희;박상현;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권2호
    • /
    • pp.119-132
    • /
    • 2007
  • 유사 서브 시퀀스 검색은 분자 생물학 분야에서 사용되는 매우 중요한 연산이다. 본 논문에서는 대규모 DNA 시퀀스 데이타베이스를 처리 대상으로 하여 효율성과 정확도를 보장하는 실용적인 유사 서브 시퀀스 검색 기법을 제안한다. 제안된 기법은 이진 트라이를 인덱스 구조로 채택하여 DNA 시퀀스로부터 추출한 일정 길이의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first)방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 그러나 질의 길이가 윈도우의 크기보다 큰 일반적인 경우에는 질의를 일정 길이의 서브 시퀀스로 분해하여 각 서브 시퀀스에 대하여 유사 서브 시퀀스 검색을 수행한 후, 후처리 과정에 의하여 정확도에 손상 없이 이들 결과를 결합하는 분할 질의 처리 방식을 채택한다. 제안된 기법의 우수성을 검증하기 위하여, 실험을 통한 성능 평가를 수행한다. 실험 결과에 의하면 제안된 인덱스 기법은 접미어 트리에 비하여 약 40%의 작은 저장 공간을 가지고도 약 4-17배의 검색 성능의 개선 효과를 나타낸다. 또한 분할 질의 처리 방식에 의한 유사 서브 시퀀스 검색 알고리즘은 질의 길이가 긴 경우에도 효율적으로 동작하여 Suffix와 Smith-Waterman 알고리즘에 비하여 각각 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법 (An Efficient Subsequence Matching Method Based on Index Interpolation)

  • 노웅기;김상욱
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.345-354
    • /
    • 2005
  • 서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.

시퀀스 데이터베이스에서 타임 워핑을 지원하는 효과적인 인덱스 기반 서브시퀀스 매칭 (An Index-Based Approach for Subsequence Matching Under Time Warping in Sequence Databases)

  • 박상현;김상욱;조준서;이헌길
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.173-184
    • /
    • 2002
  • 본 논문에서는 대용량 시퀀스 데이터베이스에 타임 워핑을 지원하는 인덱스 기반 서브시퀀스 매칭에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해준다. 최근의 연구에서 타임 워핑을 지원하는 효과적인 전체 매칭 기법을 제안된바 있다. 이 기법은 데이터 시퀀스들로부터 타임 워핑에 영향을 받지 않는 특징 벡터들의 집합을 대상으로 인덱스를 구성한다. 또한, 특징 공간상에서의 필터링을 위하여 삼각형 부등식을 만족하는 타임 워핑 거리의 하한 함수를 사용한다. 본 연구에서는 이 기존의 연구에 슬라이딩 윈도우를 기반으로 하는 접두어-질의 방법을 결합하는 새로운 기법을 제안한다. 인덱싱을 위하여 각 슬라이딩 윈도우와 대응되는 서브 시퀀스로부터 특징 벡터를 추출하고, 이 특징 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 구성한다. 질의 처리를 위하여, 조건을 만족하는 질의 접두어들에 대한 특징 벡터들을 이용하여 다수의 인덱스 검색을 수행한다. 제안된 기법은 대용량의 데이터베이스에서도 효과적인 서브시퀀스 매칭을 지원한다. 본 연구에서는 제안된 기법이 착오 기각을 유발시키지 않음을 증명한다. 제안된 기법의 우수성을 규명하기 위하여 다양한 실험을 수행한다. 실험 결과에 따르면, 제안된 기법은 실제 S&P 500 주식 데이터와 대용량의 생성 데이터 모두에 대하여 큰 성능 개선 효과를 보이는 것으로 나타났다.

방송용 스포츠 경기 비디오에서 제스처의 자동 추출 (Automatic Spotting of Gestures in Broadcast Sports Videos)

  • 노명철;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.841-843
    • /
    • 2005
  • 비디오 데이터 분석은 감시, 검색, 스포츠 경기 자동 요약 등 많은 분야에서 사용되는 기술이다. 그러나 감시 카메라나 스포츠 경기 비디오와 같이 사람의 영역이 저해상도인 환경에서는 포즈 추정, 모델과의 매칭이 어렵기 때문에 제스처 인식 연구는 많이 이루어지고 있지 못하다. 본 논문에서는 카메라가 Pan/Tilt/Zoom 동작을 하고 사람이 빠르게 움직이는 방송용 테니스 비디오에서, 사람을 추출하고, Curvature Scale Space를 기반으로 한 특징을 추출하여 학습된 포즈 모델과 매칭하는 방법과, 차원의 축소를 통해 일련의 포즈들을 학습된 제스처와 매칭하는 방법을 제안한다. 50개의 방송용 테니스 경기 비디오 장면에 대하여 서브 제스처 추출을 수행한 결과, 서브 포즈에 대하여 모델과 매칭이 잘 되고, 매칭이 되지 않는 포즈를 포함하는 시퀀스에 대해서도 강인한

  • PDF

이상탐지 기반의 효율적인 시계열 유사도 측정 및 순위화 (Efficient Time-Series Similarity Measurement and Ranking Based on Anomaly Detection)

  • 최지현;안현
    • 인터넷정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.39-47
    • /
    • 2024
  • 시계열 분석은 시간 순서로 정렬된 데이터로부터 다양한 정보와 인사이트를 발견하기 위한 방법으로 많은 조직에서 비즈니스 문제 해결을 위해 적용하고 있다. 그중에서 시계열 유사도 측정은 패턴이 비슷한 시계열들을 식별하기 위한 단계로서 시계열 검색 및 군집화와 같은 시계열 분석 응용에서 매우 중요하다. 본 연구에서는 전체 시계열이 아닌 이상치들을 중심으로 시계열 유사도 측정을 계산 효율적으로 수행하는 방법을 제안한다. 이와 관련하여 이상탐지를 통해 추출된 서브시퀀스 집합에 대한 유사도 측정 결과와 시계열 전체에 대한 유사도 측정 결과 사이의 순위 상관관계를 측정 및 분석하여 제안 방법을 검증한다. 실험 결과로써, 주식 종목 시계열 데이터에 이상치 비율 10% 을 적용한 유사도 측정으로부터 최대 0.9 이상의 스피어만 순위 상관계수를 확인하였다. 결론적으로 제안 방법을 통해 시계열 유사도 측정에 소요되는 계산량을 유의미하게 절감하는 동시에 신뢰 가능한 시계열 검색 및 군집화 결과를 기대할 수 있다.