• 제목/요약/키워드: 시퀀스 데이터

검색결과 409건 처리시간 0.027초

시계열 데이터베이스에서 순위를 지원하는 서브시퀀스 매칭 방법을 위한 시각화 툴 (A Visualization Tool for Ranked Subsequence Matching in Time-Series Databases)

  • 이성진;이진수;조훈;한욱신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.787-788
    • /
    • 2009
  • 시계열 데이터(time-series data)는 연속적인 데이터를 고정된 시간 간격으로 샘플링한 실수 값들의 연속을 의미한다. 시계열 데이터의 예로는, 음악 및 동영상 데이터, 심전도 데이터, 주식 그래프 등의 데이터가 있다. 시계열 데이터는 다시 데이터베이스에 저장 되어있는 데이터 시퀀스(data sequence)와, 사용자에 의해 주어지는 질의 시퀀스(query sequence)로 분류된다. 시계열 데이터베이스(time-series database)에서 순위를 지원하는 서브시퀀스 매칭 방법(ranked subsequence matching)은 데이터 시퀀스와 질의 시퀀스가 주어졌을 때, 질의 시퀀스의 길이와 같은 데이터 시퀀스의 서브시퀀스(subsequence)들 중에서 질의 시퀀스와 가장 유사한 상위 k개의 서브시퀀스들을 찾는 것이다. 본 논문의 목적은 사용자가 매칭 방법에 대한 인식과 이해가 부족하더라도 기존의 콘솔 기반의 매칭 프로그램을 보다 쉽게 사용할 수 있도록 이용성을 향상시키기 위하여 시각화 툴을 개발하는 것이다. 구체적으로, 5가지 시각화(visualization) 기능을 제공하는 사용자 인터페이스를 구현하였다. 구현된 사용자 인터페이스를 통해 사용자가 기존의 매칭 프로그램을 보다 쉽고 간편하게 사용할 수 있도록 기여한다.

시퀀스 데이터베이스를 위한 모양기반의 유사 부분시퀀스 검색 (Efficient Retrieval of Similar Shape-Based Subsequences for Sequence Database)

  • 이정화;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.340-342
    • /
    • 1999
  • 시퀀스 데이터(sequence data)에서는 각 데이터 값보다는 전후 그들 사이의 변화추세 등이 더 큰 정보로 작용하는 것이 일반적이다. 본문에서는 시퀀스 데이터베이스를 대상으로 하여 주어진 시퀀스 패턴과 모양이 유사한 모든 부분시퀀스를 검색해 내는 새로운 방식을 제안한다. 본 방식에서는 시퀀스 데이터의 모양 추출을 위한 데이터 변환, 유사 모양 패턴 클러스터링, 새로운 유사도 계산 방식 등을 도입함으로써, 기존의 방식이 매우 제한적인 패턴만을 유사패턴으로 간주하던 것에 비하여, 패턴이 데이터축 혹은 타임축으로 각각 확대, 축소, 이동된 경우에도 유사패턴으로 검색이 가능하다.

  • PDF

시퀀스 패턴 마이닝 기법을 적용한 침입탐지 시스템의 경보데이터 패턴분석

  • 신문선
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.451-454
    • /
    • 2010
  • 침입탐지란 컴퓨터와 네트워크 자원에 대한 유해한 침입 행동을 식별하고 대응하는 과정이다. 점차적으로 시스템에 대한 침입의 유형들이 복잡해지고 전문적으로 이루어지면서 빠르고 정확한 대응을 할 수 있는 시스템이 요구되고 있다. 이에 대용량의 데이터를 분석하여 의미 있는 정보를 추출하는 데이터 마이닝 기법을 적용하여 지능적이고 자동화된 탐지 및 경보데이터 패턴 분석에 이용할 수 있다. 본 논문에서는 경보데이터 패턴 분석을 위해 시퀀스패턴기법을 적용한 경보데이터 마이닝 엔진을 구축한다. 구현된 경보데이터 마이닝 시스템은 기존의 시퀀스 패턴 알고리즘인 PrefixSpan 알고리즘을 확장 구현하여 경보데이터의 빈발 경보시퀀스 분석과 빈발 공격시퀀스 분석에 활용할 수 있다.

  • PDF

시퀀스 데이터웨어하우스에서 이산푸리에변환과 비트맵을 이용한 시퀀스 스트림 색인 기법 (Sequence Stream Indexing Method using DFT and Bitmap in Sequence Data Warehouse)

  • 손동원;홍동권
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.181-186
    • /
    • 2012
  • 최근 시간적으로 변화된 데이터에서 유사한 값의 움직임 즉 유사 패턴을 검색하는 연구가 활발히 진행되고 있다. 시간적으로 변화된 데이터는 시계열 데이터 (time series data) 또는 시퀀스 데이터(sequence data)로 분류되며 기존의 스칼라 값을 가지는 데이터와는 매우 다른 의미를 가진다. 본 논문에서 유사 시퀀스 검색은 시퀀스 데이터웨어하우스에서 값의 변화가 유사한 형태를 가지는 시퀀스들을 검색한다. 유사 시퀀스를 검색하기 위하여 본 논문에서는 먼저 시퀀스 원시 데이터에 이 산 푸리에 변환(DFT, Discrete Fourier Transform)을 적용하여 데이터를 변환한다. 변환된 데이터는 그 특성으로 인하여 유사 패턴의 검색에 적합하며 또 유사도를 비교할 때 일부분만 사용되므로 색인에 사용되는 속성의 개수를 줄이는 장점이 있다. 또 데이터웨어하우스 환경이므로 더 좋은 성능을 보일 수 있는 비트맵 색인 기법을 적용하였다. 시퀀스 데이터의 효율적인 검색을 위하여 영역 지정 검색 방법을 제안하고 효율적인 실행을 위한 비트맵을 활용한 다양한 조합의 색인을 생성하고, 질의 최적화기의 연산 비용을 비교하면서 효율적인 검색 연산을 위한 최저 비용의 색인을 선택하는 기법을 연구하였다.

범주형 시퀀스 데이터의 K-Nearest Neighbor알고리즘 (A K-Nearest Neighbor Algorithm for Categorical Sequence Data)

  • 오승준
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.215-221
    • /
    • 2005
  • 최근에는 단백질 시퀀스, 소매점 거래 데이터, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 본 논문에서는 이런 시퀀스 데이터들을 분류하는 문제를 다룬다. 분류 기법 으로는 의사결정 나무나 베이지안 분류기, K-NN방법 등 석러 종류가 있는데, 본 연구에서는 또-U방법을 이용하여 시퀀스들을 분류한다. 또한, 시퀀스들간의 유사도를 구하기 위한 새로운 계산 방법과 효율적인 계산 방법도 제안한다.

  • PDF

하둡 기반 빈발 시퀀스 추출기 개발 (Development of Frequent Sequence Extractor Based on Hadoop)

  • 박준하;이병희;박상재;이정준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1199-1202
    • /
    • 2013
  • 최근 증권, 센서, 기후, 의료 분야 등에서 수많은 시계열 데이터들이 쏟아져 나오고 있고, 이러한 시계열 빅 데이터를 통해 의미를 찾아내고자 하는 시계열 해석 및 분석, 예측 작업의 수요가 증가하고 있다. 시계열 해석 및 분석, 예측 작업을 하기 위해서 사용 될 수 있는 기초 작업은 유사한 시계열 시퀀스를 찾아내는 유사 시퀀스 매칭과 이러한 매칭을 통해 특정 시계열 데이터의 하나의 특징이 되는 빈발 시퀀스 추출 기술이 필요하다. 본 논문에서는 이러한 시계열 빅 데이터에서 유사 시퀀스 매칭을 이용한 빈발 시퀀스 추출 문제를 효율적으로 해결하는 빈발 시퀀스 추출기(Frequent Sequence Extractor)를 개발 및 구현하였다. 또한 분산처리 플랫폼인 하둡을 이용한 데이터 파싱을 사용하여, 각 분야별 시계열 데이터를 분석하는 전문가에게 효율적인 분산처리 효과를 제공한다.

한국 주식 데이터를 이용한 서브시퀀스 매칭 방법의 효과성 평가 (Effectiveness Evaluations of Subsequence Matching Methods Using KOSPI Data)

  • 유승근;이상호
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.355-364
    • /
    • 2005
  • 기존의 서브시퀀스 매칭 방법은 검색을 효율적으로 수행하기 위한 인덱스 구성 방법에 대하여 연구하였으며, 서브시퀀스 매칭 방법의 효과성 평가를 고려하지 않았다. 본 논문은 서브시퀀스 매칭 방법의 효과성에 대하여 고려하였으며, 서브시퀀스 매칭 방법의 효과성을 평가 할 수 있는 2가지 척도를 제안한다. 한국 주식 데이터와 5가지 서브시퀀스 매칭 방법에 대하여 제안된 효과성 측정 방안을 적용하였으며, 그 결과를 분석하였다. 실험 결과, 정규화를 지원하는 서브시퀀스 매칭 방법과 스케일링과 쉬프팅 변환을 지원하는 서브시퀀스 매칭 방법이 상대적으로 효과적인 서브시퀀스를 검색하였다.

구매이력 데이터에서 상품 분류 체계를 고려한 시퀀스 유사도 측정 기법 (A Sequence Similarity Measure Considering the Product Taxonomy in Transaction Data)

  • 양유정;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.367-370
    • /
    • 2019
  • 본 논문은 구매이력 데이터에서 상품간의 분류 체계를 고려하여 시퀀스 간의 유사도를 계산하는 새로운 방법을 제안한다. 시퀀스란 두 항목간의 순서가 존재하는 데이터를 의미한다. 항목 간의 선후관계가 중요한 시퀀스 데이터에서는 두 시퀀스 간의 유사도를 정확히 정의하는 것이 중요하다. 본 논문에서는 대표적인 시퀀스 유사도 측정 알고리즘인 편집 거리 알고리즘을 활용하여 구매이력 데이터에서 시퀀스 간의 유사도를 정의한다. 상품은 상품의 특성에 따라 항목 분류 체계에서 여러 범주로 분류된다. 이 경우 기존의 편집 거리 알고리즘에서 문자의 일치유무에 따라 단순히 0 또는 1을 부여하는 것은 부정확하다. 따라서 본 논문은 편집 거리 알고리즘의 수정 연산 중 대체 연산 비용 계산 시 항목 분류 트리를 사용하여 연산 비용이 0 에서 1 사이의 값을 가지도록 세분화하였다. 실험 결과 제안 방법은 대체 연산 비용 계산 시 두 문자가 다르면 단순히 1 을 부여하는 기존의 편집 거리 알고리즘에 비해 시퀀스 간의 유사도를 더 정확하게 계산함을 확인하였다.

비디오 검색 시스템을 위한 데이터 시퀀스 패턴 유사성 검색 (Pattern Similarity Retrieval of Data Sequences for Video Retrieval System)

  • 이석룡
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.347-356
    • /
    • 2006
  • 비디오 스트림은 다차원 공간에서 데이터 포인트의 시퀀스로 표현될 수 있다. 본 논문에서는 시퀀스 내의 데이터 포인트들의 값들의 근사치에 대한 정보와 시퀀스 내의 포인트들의 방향성에 대한 정보를 내포하고 있는 트랜드 벡터(trend vector)에 대한 소개와 이 벡터를 이용하여 데이터 시퀀스를 위한 유사 패턴 검색 기법을 제안한다. 시퀀스는 복수 개의 세그먼트로 분할되며 각 세그먼트는 트랜드 벡터로 표현된다. 질의처리는 시퀀스 내의 각각의 포인트들에 대하여 수행되는 대신, 트랜드 벡터들에 대하여 처리된다. 제안한 기법은 이 벡터를 사용하여 질의와 무관한 데이터 시퀀스들을 데이터베이스로부터 여과하고 질의 시퀀스와 유사한 시퀀스들을 검색하도록 설계되었다. 제안한 기법을 검증하기 위하여 비디오 스트림과 가상으로 생성된 데이터에 관하여 실험을 수행하였으며, 실험 결과 제안한 기법의 정밀도(precision)는 기존의 방법에 비하여 2.1배까지 향상되었으며 처리시간은 45%까지 감소되었음을 보여주고 있다.

가상 윈도우 기반 인스턴스 레벨 서브시퀀스 매칭 방안 (Instance-Level Subsequence Matching Method based on a Virtual Window)

  • 임선영;박영호
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권2호
    • /
    • pp.43-46
    • /
    • 2014
  • 시계열 데이터는 시간에 따라 변화되는 실수 값을 저장한 것이다. 시계열 데이터에서 사용자 질의 시퀀스가 주어졌을 때, 유사한 서브시퀀스를 가지는 데이터 시퀀스를 검색하는 서브시퀀스 매칭은 매우 중요한 문제이다. 본 논문에서는 인스턴스 레벨의 새로운 서브시퀀스 매칭 방법인 I-Match (Instance-Match)를 제안한다. I-Match는 인스턴스 레벨에서 가상 윈도우를 생성하여 질의 시퀀스와 데이터 시퀀스를 비교하여 착오 해답을 줄이는 방법으로 기존 방법인 Dual Match에 비해 후보의 개수를 줄임으로써 성능을 향상시켰다. 실험을 통해 I-Match의 질의 처리 시간이 Dual Match와 비교하여 최대 2.95배 빠르며, 후보의 개수를 줄임을 보인다.