• 제목/요약/키워드: Subsequence

검색결과 103건 처리시간 0.025초

부분 집계 근사법의 MBR-안전 성질을 이용한 효율적인 시계열 서브시퀀스 매칭 (Efficient Time-Series Subsequence Matching Using MBR-Safe Property of Piecewise Aggregation Approximation)

  • 문양세
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.503-517
    • /
    • 2007
  • 본 논문에서는 부분 집계 근사법(Piecewise Aggregation Approximation: PAA)이 MBR-안전(MBR-safe) 성질을 가짐을 보이고, 이를 사용한 효율적인 서브시퀀스 매칭 방법을 제안한다. MBR-안전 변환이란 고차원 MBR을 직접 변환한 저차원 MBR이 개별 고차원 시퀀스가 변환된 저차원 시퀀스를 모두 포함하는 변환을 의미한다. 이와 같은 MBR-안전 변환을 사용하면 고차원 MBR을 직접 저차원 MBR로 변환할 수 있어 유사 시퀀스 매칭에서 필요한 저차원 변환 횟수를 크게 줄일 수 있다. 또한, PAA는 계산이 간단하고 성능이 우수한 저차원 변환으로 알려져 있다. 이에 따라, 본 논문에서는 이들 두 개념의 장점을 통합하기 위하여, 기존의 PAA가 MBR-안전 성질을 가짐을 확인하고, 이를 사용하여 서브시퀀스 매칭의 성능을 개선한다. 본 논문의 공헌은 다음과 같다. 첫째, PAA 기반의 MBR 저차원 변환인 mbrPAA를 제안하고, mbrPAA가 MBR-안전함을 정형적으로 증명한다. 둘째, mbrPAA 기반의 새로운 서브시퀀스 매칭 방법을 제안하고, 이 방법의 정확성을 증명한다. 셋째, 서브시퀀스 매칭에서 엔트리 재사용 성질(entry reuse property)의 개념을 제시하고, 이 개념에 기반하여 고차원 MBR을 효율적으로 구성하는 방법을 제안한다. 넷째, 실험을 통해 mbrPAA의 우수성을 입증한다. 실험 결과, 제안한 mbrPAA는 기존 방법에 비해 저차원 MBR 구성을 평균 24.2배 빠르게 수행하고, 서브시퀀스 매칭 성능을 최대 65.9%까지 향상시킨 것으로 나타났다.

타임 워핑 하의 시계열 서브시퀀스 매칭 기법의 성능 평가 (Performance Evaluation of Methods for Time-Series Subsequence Matching Under Time Warping)

  • 김만순;김상욱
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.290-297
    • /
    • 2003
  • 시계열 데이터베이스란 객체의 변화되는 값들의 연속으로 구성된 데이터 시퀀스들의 집합이며, 타임 워핑 하의 서브시퀀스 매칭은 주어진 질의 시퀀스와 타임 워핑 거리가 허용치 이하인 서브시퀀스들을 시계열 데이터베이스로부터 찾아내는 연산이다. 본 논문에서는 먼저 타임 워핑 하의 시퀀스 매칭을 지원하는 기존의 기법들의 특성을 지적하고, 이들을 전체매칭 및 서브시퀀스 매칭에 각각 적용하는 방안에 관하여 논의한다. 또한, 실제 주식 데이터를 이용한 다양한 실험을 통하여 이들에 대한 정량적인 성능평가를 수행한다. 타임 워핑 하의 서브시퀀스 매칭을 위한 기존 기법들의 성능을 상호 비교한 연구 결과는 아직 제시된 바 없다. 따라서 본 연구 결과는 이러한 세 가지 기법들에 대한 성능을 제시하는 좋은 자료로서 사용될 수 있을 것이다.

  • PDF

DTW 거리를 지원하는 범위 서브시퀀스 매칭 (Range Subsequence Matching under Dynamic Time Warping)

  • 한욱신;이진수;문양세
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.559-566
    • /
    • 2008
  • 본 논문에서는 동적 타임 워핑(DTW) 거리를 사용하는 범위 서브시퀀스 질의 처리 방법을 제안한다. 본 논문에서는 제안하는 방법은 데이타 시퀀스를 디스조인트 윈도우로 분할하고, 질의 시퀀스를 슬라이딩 윈도우로 분할하는 방법을 사용하는 DualMatch의 범위 서브시퀀스 질의 처리 방법을 이용한다. DualMatch는 유클리디언 거리 하에서 동작하는 것으로 알려져 있다. 그러나, 유클리디언 거리는 견고하지 못한 유사 모델이기 때문에 DualMatch는 반드시 DTW 거리를 지원해야 한다. 본 논문에서는 제안하는 방법의 정확성을 입증하기 위해서 중요한 정리를 유도하고, 이에 근거한 알고리즘을 제안한다. 광범위한 실험을 통해 본 논문에서 제안하는 방법이 순차 스캔 알고리즘 보다 효율적으로 동작함을 보였다.

IMPLEMENTATION OF SUBSEQUENCE MAPPING METHOD FOR SEQUENTIAL PATTERN MINING

  • Trang, Nguyen Thu;Lee, Bum-Ju;Lee, Heon-Gyu;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 Proceedings of ISRS 2006 PORSEC Volume II
    • /
    • pp.627-630
    • /
    • 2006
  • Sequential Pattern Mining is the mining approach which addresses the problem of discovering the existent maximal frequent sequences in a given databases. In the daily and scientific life, sequential data are available and used everywhere based on their representative forms as text, weather data, satellite data streams, business transactions, telecommunications records, experimental runs, DNA sequences, histories of medical records, etc. Discovering sequential patterns can assist user or scientist on predicting coming activities, interpreting recurring phenomena or extracting similarities. For the sake of that purpose, the core of sequential pattern mining is finding the frequent sequence which is contained frequently in all data sequences. Beside the discovery of frequent itemsets, sequential pattern mining requires the arrangement of those itemsets in sequences and the discovery of which of those are frequent. So before mining sequences, the main task is checking if one sequence is a subsequence of another sequence in the database. In this paper, we implement the subsequence matching method as the preprocessing step for sequential pattern mining. Matched sequences in our implementation are the normalized sequences as the form of number chain. The result which is given by this method is the review of matching information between input mapped sequences.

  • PDF

최대 공통 부열을 이용한 비전 기반의 양팔 제스처 인식 (Vision-Based Two-Arm Gesture Recognition by Using Longest Common Subsequence)

  • 최철민;안정호;변혜란
    • 한국통신학회논문지
    • /
    • 제33권5C호
    • /
    • pp.371-377
    • /
    • 2008
  • 본 논문은 비전에 기반한 사람의 양팔 제스처의 모델링과 인식에 관한 연구이다. 우리는 양팔 제스처 인식을 위한 특징점의 추출에서부터 제스처의 분류에 이르는 전체적 틀을 제안하였다. 먼저, 양팔 제스처의 모델링을 위해 색채 기반의 양손 추적 방법을 제안하였고, 추출된 양손의 궤적 정보를 효과적으로 선택하게 하는 제스처 구(Phrase) 분석법을 제시하였다. 선택된 특징 점들의 시퀀스(sequence) 들로 이루어진 훈련 데이터들의 최대 공통부열(Longest Common Subsequence) 정보를 이용하여 제스처를 모델링하고 이에 따른 유사도 척도를 제안하였다. 제안된 방법론을 공항 등에서 이용하는 항공기 유도 수신호에 적용하였고, 실험을 통해 제안된 방법론의 효율성과 인식성능을 보였다.

Implementation of Subsequence Mapping Method for Sequential Pattern Mining

  • Trang Nguyen Thu;Lee Bum-Ju;Lee Heon-Gyu;Park Jeong-Seok;Ryu Keun-Ho
    • 대한원격탐사학회지
    • /
    • 제22권5호
    • /
    • pp.457-462
    • /
    • 2006
  • Sequential Pattern Mining is the mining approach which addresses the problem of discovering the existent maximal frequent sequences in a given databases. In the daily and scientific life, sequential data are available and used everywhere based on their representative forms as text, weather data, satellite data streams, business transactions, telecommunications records, experimental runs, DNA sequences, histories of medical records, etc. Discovering sequential patterns can assist user or scientist on predicting coming activities, interpreting recurring phenomena or extracting similarities. For the sake of that purpose, the core of sequential pattern mining is finding the frequent sequence which is contained frequently in all data sequences. Beside the discovery of frequent itemsets, sequential pattern mining requires the arrangement of those itemsets in sequences and the discovery of which of those are frequent. So before mining sequences, the main task is checking if one sequence is a subsequence of another sequence in the database. In this paper, we implement the subsequence matching method as the preprocessing step for sequential pattern mining. Matched sequences in our implementation are the normalized sequences as the form of number chain. The result which is given by this method is the review of matching information between input mapped sequences.

이원성 기반 시계열 서브시퀀스 매칭의 인덱스 검색을 위한 최적의 기법 (An Optimal Way to Index Searching of Duality-Based Time-Series Subsequence Matching)

  • 김상욱;박대현;이헌길
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1003-1010
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 먼저, 본 논문에서는 서브시퀀스 매칭을 위한 기존 기법의 인덱스 검색에서 발생하는 성능상의 문제점들을 지적하고, 이들을 해결할 수 있는 새로운 방법을 제시한다. 제안된 기법은 서브시퀀스 매칭의 인덱스 검색 문제를 윈도우-조인이라는 일종의 공간 조인 문제로 새롭게 해석하는 것에서 출발한다. 윈도우-조인의 빠른 처리를 위하여 제안된 기법에서는 서브시퀀스 매칭을 시작할 때 질의 시퀀스를 위한 R*-트리를 주기억장치 내에 구성한다. 또한, 제안된 기법은 데이터 시퀀스들을 위한 디스크 상의 R*-트리와 질의 시퀀스를 위한 주기억장치 상의 R*-트리를 효과적으로 조인할 수 있는 새로운 알고리즘을 포함한다. 이 알고리즘은 데이터 시퀀스들을 위한 R*-트리 페이지들을 인덱스 단계의 착오 채택 없이 단 한번만 디스크로부터 액세스하므로 디스크 액세스 측면에서 최적의 기법임이 증명된다. 또한, 다양한 실험을 통한 성능 평가를 통하여 제안된 기법의 우수성을 정량적으로 규명한다.

시퀀스 데이터베이스를 위한 서브시퀀스 탐색 : 세그먼트 기반 접근 방안 (Efficient Subsequence Searching in Sequence Databases : A Segment-based Approach)

  • 박상현;김상욱;노웅기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.344-356
    • /
    • 2001
  • 본 논문에서는 시퀀스 데이터베이스에서 시간왜곡 변환(time warping)을 지원하는 서브시퀀스 탐색 문제를 다룬다. 서브시퀀스 탐색은 데이터 시퀀스의 평균 길이의 이차 함수로 성능이 저하된다. 이러한 문제를 해결하기 위하여 본 논문에서는 세그먼트 기반 서브시퀀스 탐색 기법(Segment-Based Approach for Subsequence Searches : SBASS)을 제안한다. SBASS는 데이터와 질의 시퀀스를 연속된 세그먼트들로 분할하여 다음의 두가지 조건을 만족하는 모든 데이터 시퀀스를 검색한다. (1) 세그먼트의 개수가 질의 시퀀스의 세그먼트 개수와 같다. (2) 모든 세그먼트 쌍 간의 거리가 주어진 오차 한도 이내이다. 제안된 세그먼트 분할 기법에서는 세그먼트가 서로 다른 길이를 갖도록 허용하며, 세그먼트 쌀간의 유사성의 척도로서 시간왜곡 변환 거리를 이용한다. 효율적인 유사 서브시퀀스 탐색을 위하여, 각 데이터 세그먼트로부터 요서 값들이 단조적으로 변화하는 특성을 이용하여 특성 벡터를 추출하고, 추출된 특성 벡터를 이용하여 공간 인덱스를 생성한다. 질의는 이 인덱스를 이용하여 (1) R-트리 여과, (2) 특성 여과, (3) 순서 여과, (4) 후처리의 네 단계로 처리된다. 다양한 실험을 통하여 제안된 기법의 효율성을 입증한다.

  • PDF

시계열 데이타베이스에서 서브시퀀스 매칭의 성능 병목 : 관찰, 해결 방안, 성능 평가 (The Performance Bottleneck of Subsequence Matching in Time-Series Databases: Observation, Solution, and Performance Evaluation)

  • 김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.381-396
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이타베이스로부터 검색하는 연산이다. 본 논문에서는 서브시퀀스 매칭 처리의 성능 병목을 파악하고, 이를 해결함으로써 전체 서브시퀀스 매칭의 성능을 크게 개선하는 방안에 관하여 논의한다. 먼저, 사전 실험을 통하여 전체 서브시퀀스 매칭의 처리 시간 중 인덱스 검색 단계와 후처리 단계에서 디스크 액세스 시간 및 CPU 처리 시간이 차지하는 비중을 분석한다. 이를 바탕으로 후처리 단계가 서브시퀀스 매칭의 성능 병목이며, 후처리 단계의 최적화가 기존의 서브시퀀스 매칭 기법들이 간과한 매우 중요한 이슈임을 지적한다. 이러한 서브시퀀스 매칭의 성능 병목을 해결하기 위하여 후처리 단계를 최적으로 처리할 수 있는 간단하면서도 매우 효과적인 기법을 제안한다. 제안된 기법은 후처리 단계에서 후보 서브시퀀스들이 질의 시퀀스와 실제로 유사한가를 판단하는 순서를 조정함으로써 기존의 후처리 단계의 처리에서 발생하는 많은 디스크 액세스의 중복과 CPU 처리의 중복을 완전히 제거한 수 있다 제안된 기법이 착오 기각을 발생시키지 않음과 후처리 단계를 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 실제 데이타와 생성 데이타를 이용한 다양한 실험들을 통하여 제안된 기법의 성능 개선 효과를 정량적으로 검증한다. 실험 결과에 의하면, 제안된 기법은 기존 기법의 후처리 단계 수행 시간을 실제 주식 데이타를 이용한 실험의 경우 ,3.91 배에서 9.42배까지, 대규모의 생성 데이터를 이용한 실험의 경우 4.97 배에서 5.61배까지 개선시키는 것으로 나타났다. 또한, 제안된 기법을 채택함으로써 전체 서브시퀀스 매칭 처리 시간의 90%에 이르던 후처리 단계의 비중을 70%이하로 내릴 수 있었다. 이것은 제안된 기법이 서브시퀀스 매칭의 성능 병목을 성공적으로 해결하였음을 보여주는 것이다. 이 견과, 제안된 기법은 전체 서브시퀀tm 매칭의 성능을 실제 주식 데이타를 사용한 실험의 경우 3.05 배에서 5.60 배까지, 대규모의 생성 데이타를 이용한 실험의 경우 3.68 배에서 4.21 배까지 개선시킬 수 있었다.

인덱스 보간법에 기반한 효율적인 서브시퀀스 매칭 기법 (An Efficient Subsequence Matching Method Based on Index Interpolation)

  • 노웅기;김상욱
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.345-354
    • /
    • 2005
  • 서브시퀀스 매칭은 데이터 마이닝 분야에서 중요한 연산 중의 하나이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하며, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하된다. 본 논문에서는 이러한 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 먼저 사전 실험을 통하여 서브시퀀스 매칭을 수행하는 데에 있어 질의 시퀀스 길이와 윈도우 크기 간의 차이로 인한 성능의 변화를 관찰하고, 이 관찰을 통하여 물리적 데이터베이스 설계 관점에서 질의 시퀀스의 길이 분포에 따른 검색 비용 공식을 산출한다. 다음에, 윈도우 크기 효과에 의한 성능 저하를 개선하기 위해 인덱스 보간법에 기반한 새로운 검색 기법을 제안한다. 또한, 검색 비용 공식에 기반하여 제안된 검색 기법의 성능을 최적화할 수 있도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터와 합성 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 검증한다.