• Title/Summary/Keyword: 데이터 시퀀스

Search Result 409, Processing Time 0.047 seconds

A Visualization Tool for Ranked Subsequence Matching in Time-Series Databases (시계열 데이터베이스에서 순위를 지원하는 서브시퀀스 매칭 방법을 위한 시각화 툴)

  • Lee, Sung-Jin;Lee, Jinsoo;Cho, Hune;Han, Wook-Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.787-788
    • /
    • 2009
  • 시계열 데이터(time-series data)는 연속적인 데이터를 고정된 시간 간격으로 샘플링한 실수 값들의 연속을 의미한다. 시계열 데이터의 예로는, 음악 및 동영상 데이터, 심전도 데이터, 주식 그래프 등의 데이터가 있다. 시계열 데이터는 다시 데이터베이스에 저장 되어있는 데이터 시퀀스(data sequence)와, 사용자에 의해 주어지는 질의 시퀀스(query sequence)로 분류된다. 시계열 데이터베이스(time-series database)에서 순위를 지원하는 서브시퀀스 매칭 방법(ranked subsequence matching)은 데이터 시퀀스와 질의 시퀀스가 주어졌을 때, 질의 시퀀스의 길이와 같은 데이터 시퀀스의 서브시퀀스(subsequence)들 중에서 질의 시퀀스와 가장 유사한 상위 k개의 서브시퀀스들을 찾는 것이다. 본 논문의 목적은 사용자가 매칭 방법에 대한 인식과 이해가 부족하더라도 기존의 콘솔 기반의 매칭 프로그램을 보다 쉽게 사용할 수 있도록 이용성을 향상시키기 위하여 시각화 툴을 개발하는 것이다. 구체적으로, 5가지 시각화(visualization) 기능을 제공하는 사용자 인터페이스를 구현하였다. 구현된 사용자 인터페이스를 통해 사용자가 기존의 매칭 프로그램을 보다 쉽고 간편하게 사용할 수 있도록 기여한다.

Efficient Retrieval of Similar Shape-Based Subsequences for Sequence Database (시퀀스 데이터베이스를 위한 모양기반의 유사 부분시퀀스 검색)

  • 이정화;윤지희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.340-342
    • /
    • 1999
  • 시퀀스 데이터(sequence data)에서는 각 데이터 값보다는 전후 그들 사이의 변화추세 등이 더 큰 정보로 작용하는 것이 일반적이다. 본문에서는 시퀀스 데이터베이스를 대상으로 하여 주어진 시퀀스 패턴과 모양이 유사한 모든 부분시퀀스를 검색해 내는 새로운 방식을 제안한다. 본 방식에서는 시퀀스 데이터의 모양 추출을 위한 데이터 변환, 유사 모양 패턴 클러스터링, 새로운 유사도 계산 방식 등을 도입함으로써, 기존의 방식이 매우 제한적인 패턴만을 유사패턴으로 간주하던 것에 비하여, 패턴이 데이터축 혹은 타임축으로 각각 확대, 축소, 이동된 경우에도 유사패턴으로 검색이 가능하다.

  • PDF

시퀀스 패턴 마이닝 기법을 적용한 침입탐지 시스템의 경보데이터 패턴분석

  • Shin, Moon-Sun
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05a
    • /
    • pp.451-454
    • /
    • 2010
  • 침입탐지란 컴퓨터와 네트워크 자원에 대한 유해한 침입 행동을 식별하고 대응하는 과정이다. 점차적으로 시스템에 대한 침입의 유형들이 복잡해지고 전문적으로 이루어지면서 빠르고 정확한 대응을 할 수 있는 시스템이 요구되고 있다. 이에 대용량의 데이터를 분석하여 의미 있는 정보를 추출하는 데이터 마이닝 기법을 적용하여 지능적이고 자동화된 탐지 및 경보데이터 패턴 분석에 이용할 수 있다. 본 논문에서는 경보데이터 패턴 분석을 위해 시퀀스패턴기법을 적용한 경보데이터 마이닝 엔진을 구축한다. 구현된 경보데이터 마이닝 시스템은 기존의 시퀀스 패턴 알고리즘인 PrefixSpan 알고리즘을 확장 구현하여 경보데이터의 빈발 경보시퀀스 분석과 빈발 공격시퀀스 분석에 활용할 수 있다.

  • PDF

Sequence Stream Indexing Method using DFT and Bitmap in Sequence Data Warehouse (시퀀스 데이터웨어하우스에서 이산푸리에변환과 비트맵을 이용한 시퀀스 스트림 색인 기법)

  • Son, Dong-Won;Hong, Dong-Kweon
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.2
    • /
    • pp.181-186
    • /
    • 2012
  • Recently there has been many active researches on searching similar sequences from data generated with the passage of time. Those data are classified as time series data or sequence data and have different semantics from scalar data of traditional databases. In this paper similar sequence search retrieves sequences that have a similar trend of value changes. At first we have transformed the original sequences by applying DFT. The converted data are more suitable for trend analysis and they require less number of attributes for sequence comparisons. In addition we have developed a region-based query and we applied bitmap indexes which could show better performance in data warehouse. We have built bitmap indexes with varying number of attributes and we have found the least cost query plans for efficient similar sequence searches.

A K-Nearest Neighbor Algorithm for Categorical Sequence Data (범주형 시퀀스 데이터의 K-Nearest Neighbor알고리즘)

  • Oh Seung-Joon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.2 s.34
    • /
    • pp.215-221
    • /
    • 2005
  • TRecently, there has been enormous growth in the amount of commercial and scientific data, such as protein sequences, retail transactions, and web-logs. Such datasets consist of sequence data that have an inherent sequential nature. In this Paper, we study how to classify these sequence datasets. There are several kinds techniques for data classification such as decision tree induction, Bayesian classification and K-NN etc. In our approach, we use a K-NN algorithm for classifying sequences. In addition, we propose a new similarity measure to compute the similarity between two sequences and an efficient method for measuring similarity.

  • PDF

Development of Frequent Sequence Extractor Based on Hadoop (하둡 기반 빈발 시퀀스 추출기 개발)

  • Park, Joon-Ha;Lee, Byung-Hee;Park, Sang-Jae;Lee, Jeong-Joon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1199-1202
    • /
    • 2013
  • 최근 증권, 센서, 기후, 의료 분야 등에서 수많은 시계열 데이터들이 쏟아져 나오고 있고, 이러한 시계열 빅 데이터를 통해 의미를 찾아내고자 하는 시계열 해석 및 분석, 예측 작업의 수요가 증가하고 있다. 시계열 해석 및 분석, 예측 작업을 하기 위해서 사용 될 수 있는 기초 작업은 유사한 시계열 시퀀스를 찾아내는 유사 시퀀스 매칭과 이러한 매칭을 통해 특정 시계열 데이터의 하나의 특징이 되는 빈발 시퀀스 추출 기술이 필요하다. 본 논문에서는 이러한 시계열 빅 데이터에서 유사 시퀀스 매칭을 이용한 빈발 시퀀스 추출 문제를 효율적으로 해결하는 빈발 시퀀스 추출기(Frequent Sequence Extractor)를 개발 및 구현하였다. 또한 분산처리 플랫폼인 하둡을 이용한 데이터 파싱을 사용하여, 각 분야별 시계열 데이터를 분석하는 전문가에게 효율적인 분산처리 효과를 제공한다.

Effectiveness Evaluations of Subsequence Matching Methods Using KOSPI Data (한국 주식 데이터를 이용한 서브시퀀스 매칭 방법의 효과성 평가)

  • Yoo Seung Keun;Lee Sang Ho
    • The KIPS Transactions:PartD
    • /
    • v.12D no.3 s.99
    • /
    • pp.355-364
    • /
    • 2005
  • Previous researches on subsequence matching have been focused on how to make indexes in order to speed up the matching time, and do not take into account the effectiveness issues of subsequence matching methods. This paper considers the effectiveness of subsequence matching methods and proposes two metrics for effectiveness evaluations of subsequence matching algorithms. We have applied the proposed metrics to Korean stock data and five known matching algorithms. The analysis on the empirical data shows that two methods (i.e., the method supporting normalization, and the method supporting scaling and shifting) outperform the others in terms of the effectiveness of subsequence matching.

A Sequence Similarity Measure Considering the Product Taxonomy in Transaction Data (구매이력 데이터에서 상품 분류 체계를 고려한 시퀀스 유사도 측정 기법)

  • Yang, Yu-Jeong;Lee, Ki Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.367-370
    • /
    • 2019
  • 본 논문은 구매이력 데이터에서 상품간의 분류 체계를 고려하여 시퀀스 간의 유사도를 계산하는 새로운 방법을 제안한다. 시퀀스란 두 항목간의 순서가 존재하는 데이터를 의미한다. 항목 간의 선후관계가 중요한 시퀀스 데이터에서는 두 시퀀스 간의 유사도를 정확히 정의하는 것이 중요하다. 본 논문에서는 대표적인 시퀀스 유사도 측정 알고리즘인 편집 거리 알고리즘을 활용하여 구매이력 데이터에서 시퀀스 간의 유사도를 정의한다. 상품은 상품의 특성에 따라 항목 분류 체계에서 여러 범주로 분류된다. 이 경우 기존의 편집 거리 알고리즘에서 문자의 일치유무에 따라 단순히 0 또는 1을 부여하는 것은 부정확하다. 따라서 본 논문은 편집 거리 알고리즘의 수정 연산 중 대체 연산 비용 계산 시 항목 분류 트리를 사용하여 연산 비용이 0 에서 1 사이의 값을 가지도록 세분화하였다. 실험 결과 제안 방법은 대체 연산 비용 계산 시 두 문자가 다르면 단순히 1 을 부여하는 기존의 편집 거리 알고리즘에 비해 시퀀스 간의 유사도를 더 정확하게 계산함을 확인하였다.

Pattern Similarity Retrieval of Data Sequences for Video Retrieval System (비디오 검색 시스템을 위한 데이터 시퀀스 패턴 유사성 검색)

  • Lee Seok-Lyong
    • The KIPS Transactions:PartD
    • /
    • v.13D no.3 s.106
    • /
    • pp.347-356
    • /
    • 2006
  • A video stream can be represented by a sequence of data points in a multidimensional space. In this paper, we introduce a trend vector that approximates values of data points in a sequence and represents the moving trend of points in the sequence, and present a pattern similarity matching method for data sequences using the trend vector. A sequence is partitioned into multiple segments, each of which is represented by a trend vector. The query processing is based on the comparison of these vectors instead of scanning data elements of entire sequences. Using the trend vector, our method is designed to filter out irrelevant sequences from a database and to find similar sequences with respect to a query. We have performed an extensive experiment on synthetic sequences as well as video streams. Experimental results show that the precision of our method is up to 2.1 times higher and the processing time is up to 45% reduced, compared with an existing method.

Instance-Level Subsequence Matching Method based on a Virtual Window (가상 윈도우 기반 인스턴스 레벨 서브시퀀스 매칭 방안)

  • Ihm, Sun-Young;Park, Young-Ho
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.3 no.2
    • /
    • pp.43-46
    • /
    • 2014
  • A time-series data is the collection of real numbers over the time intervals. One of the main tasks in time-series data is efficiently to find subsequences similar to a given query sequence. In this paper, we propose an efficient subsequence matching method, which is called Instance-Match (I-Match). I-Match constructs a virtual window in order to reduce false alarms. Through the experiment with real data set and query sets, we show that I-Match improves query processing time by up to 2.95 times and significantly reduces the number of candidates comparing to Dual Match.