• 제목/요약/키워드: sequential pattern analysis

검색결과 113건 처리시간 0.025초

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences

  • Kang, Tae-Ho;Yoo, Jae-Soo;Kim, Hak-Yong;Lee, Byoung-Yup
    • International Journal of Contents
    • /
    • 제3권2호
    • /
    • pp.18-24
    • /
    • 2007
  • Biological sequences such as DNA and amino acid sequences typically contain a large number of items. They have contiguous sequences that ordinarily consist of more than hundreds of frequent items. In biological sequences analysis(BSA), a frequent contiguous sequence search is one of the most important operations. Many studies have been done for mining sequential patterns efficiently. Most of the existing methods for mining sequential patterns are based on the Apriori algorithm. In particular, the prefixSpan algorithm is one of the most efficient sequential pattern mining schemes based on the Apriori algorithm. However, since the algorithm expands the sequential patterns from frequent patterns with length-1, it is not suitable for biological datasets with long frequent contiguous sequences. In recent years, the MacosVSpan algorithm was proposed based on the idea of the prefixSpan algorithm to significantly reduce its recursive process. However, the algorithm is still inefficient for mining frequent contiguous sequences from long biological data sequences. In this paper, we propose an efficient method to mine maximal frequent contiguous sequences in large biological data sequences by constructing the spanning tree with a fixed length. To verify the superiority of the proposed method, we perform experiments in various environments. The experiments show that the proposed method is much more efficient than MacosVSpan in terms of retrieval performance.

연관규칙을 이용한 잠재성장모형의 개선방법론 (A Methodology for Improving fitness of the Latent Growth Modeling using Association Rule Mining)

  • 조영빈;전재훈;최병우
    • 한국융합학회논문지
    • /
    • 제10권2호
    • /
    • pp.217-225
    • /
    • 2019
  • 대표적인 종단자료 분석방법인 잠재성장모형(Latent Growth Modeling)은 무조건적 모형과 조건적 모형으로 구분한다. 잠재성장모형의 무조건적 모형 성장궤적은 선형으로 가정하여 분석하는 경우가 많다. 본 연구는 선형 성장궤적으로 가정하여 모형 적합도가 미달하는 경우 연관규칙기법을 이용하여 모형 적합도를 제고하는 방법론을 제안한다. 방법론은 연관규칙 마이닝의 순차패턴(Sequential Pattern)을 사용한다. 이를 위하여 종단자료를 분위별로 나누고, 각 분위에 속한 종단자료의 기간 변화를 산출한 뒤 이를 순차 패턴 화하였다. SPSS AMOS를 이용하여 한국고용정보원의 2001년부터 6년간 조사한 청년 패널 자료로 효과성을 검증하였다. 기존 단순선형함수를 가정할 때와 비교하여 모형 적합도가 상승하는 것을 확인할 수 있었다.

상세한 프로토콜 구조를 추론하는 프로토콜 리버스 엔지니어링 방법에 대한 연구 (A Study on the Inference of Detailed Protocol Structure in Protocol Reverse Engineering)

  • 채병민;문호원;구영훈;심규석;이민섭;김명섭
    • KNOM Review
    • /
    • 제22권1호
    • /
    • pp.42-51
    • /
    • 2019
  • 최근 네트워크 환경은 고속화, 대용량화 등으로 인터넷 트래픽 발생량이 증가하고 있으며, 모바일 및 IoT 환경, 지속적으로 증가하는 어플리케이션, 악성행위로 인해 비공개 프로토콜 데이터가 늘어나고 있다. 이러한 비공개 프로토콜들의 대다수는 구조가 전혀 알려지지 않고 있다. 효율적인 네트워크 관리 및 보안을 위해 비공개 프로토콜의 구조 분석은 반드시 선행되어야 한다. 이를 위해 많은 프로토콜 리버스 엔지니어링 방법론이 제안되었지만, 적용하기에 각기 다른 단점이 존재한다. 본 논문에서는 CSP(Contiguous Sequential Pattern)와 SP(Sequential Pattern) Algorithm을 계층적으로 결합하여 네트워크 트레이스 분석 기반의 상세한 프로토콜 구조를 추론하는 방법론을 제안한다. 제안된 방법론은 선행 연구인 A2PRE을 개선하는 방식으로 설계 및 구현을 하였으며 다른 방법론과 성능 비교를 위해 성능지표를 정의하고 HTTP, DNS 프로토콜의 예를 통해 제안하는 방법론의 우수성을 설명한다.

인터넷 쇼핑몰에서의 축차분석법 활용 방안 (Application of sequential analysis in internet shopping malls)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권6호
    • /
    • pp.1009-1014
    • /
    • 2009
  • 인터넷은 우리나라뿐만 아니라 세계 도처에서 인간의 일상생활과 전통적인 상거래의 패러다임을 변화시켰으며, 새로운 비즈니스 모델을 구축할 수 있는 무한한 기회를 제공하였다. 이로 인하여 최근에는 상거래 수단으로서 인터넷 쇼핑몰이 등장하였다. 인터넷 쇼핑몰이 경쟁력을 갖기 위해서는 효과적인 고객만족서비스가 제공되어야 한다. 이를 위해 고객들에게 적절한 마케팅 프로모션을 실시하기 위해서는 시간의 변화에 따른 고객들의 구매행위 패턴을 예측할 수 있는 동적인 분석 방법이 필요하다. 본 논문에서는 통계적 추정 방법 중의 하나인 축차분석법을 이용하여 유사한 품목들 간의 매출액을 비교함으로써 고객들의 구매행위 패턴을 예측을 통해 매출 향상을 도모하는 방안에 대해 연구하고자 한다.

  • PDF

SEQUENTIAL EM LEARNING FOR SUBSPACE ANALYSIS

  • Park, Seungjin
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.698-701
    • /
    • 2002
  • Subspace analysis (which includes PCA) seeks for feature subspace (which corresponds to the eigenspace), given multivariate input data and has been widely used in computer vision and pattern recognition. Typically data space belongs to very high dimension, but only a few principal components need to be extracted. In this paper I present a fast sequential algorithm for subspace analysis or tracking. Useful behavior of the algorithm is confirmed by numerical experiments.

  • PDF

SAHN 모델의 부분적 패턴 추정 방법에 대한 연구 (A Study on Partial Pattern Estimation for Sequential Agglomerative Hierarchical Nested Model)

  • 장경원;안태천
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2005년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.143-145
    • /
    • 2005
  • In this paper, an empirical study result on pattern estimation method is devoted to reveal underlying data patterns with a relatively reduced computational cost. Presented method performs crisp type clustering with given n number of data samples by means of the sequential agglomerative hierarchical nested model (SAHN). Conventional SAHN based clustering requires large computation time in the initial step of algorithm. To deal with this concern, we modified overall process with a partial approach. In the beginning of this method, we divide given data set to several sub groups with uniform sampling and then each divided sub data group is applied to SAHN based method. The advantage of this method reduces computation time of original process and gives similar results. Proposed is applied to several test data set and simulation result with conceptual analysis is presented.

  • PDF

RSP-DS: 데이터 스트림에서의 실시간 순차 패턴 분석 (RSP-DS: Real Time Sequential Patterns Analysis in Data Streams)

  • 신재진;김호석;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권9호
    • /
    • pp.1118-1130
    • /
    • 2006
  • 데이터 스트림에 대한 기존의 패턴 분석 알고리즘은 대부분 속도 향상과 효율적인 메모리 사용에 대하여 연구되어 왔다. 그러나 기존의 연구들은 새로운 패턴을 가진 데이터 스트림이 입력되었을 경우, 이 전에 분석된 패턴을 버리고 다시 패턴을 분석하여야 한다. 이러한 방법은 데이터의 실시간적인 패턴 분석을 필요로 하는 실제 환경에서는 많은 속도와 계산 비용이 소모된다. 본 논문에서는 끊임없이 입력되는 데이터 스트림의 패턴을 실시간으로 분석하는 방법을 제안한다. 이 것은 먼저 빠르게 패턴을 분석하고 그 다음부터는 이전에 분석된 패턴을 효율적으로 갱신하여 실시간적인 패턴을 얻어내는 방법이다. 데이터 스트림이 입력되면 시간 기반 윈도우로 나누어 여러 개의 순차들을 생성한다. 그리고 생성된 순차들의 정보는 해시 테이블에 입력되어 정해진 개수의 순차가 해시 테이블에 채워질 때마다 해시 테이블에서 패턴을 분석해 낸다. 이렇게 분석된 패턴은 패턴 트리를 형성하게 되고, 이 후에 새로 분석된 패턴들은 이 패턴 트리 안의 패턴 별로 갱신하여 현재 패턴을 유지하게 된다. 새로운 패턴 추가를 위해 패턴을 분석할 때 이전에 이미 발견된 패턴이 Suffix로 나올 수 있다. 그러면 패턴 트리에서 이 전 패턴으로의 포인터를 생성하여 중복되는 패턴 분석으로 인한 계산 시간의 낭비를 방지한다. 그리고 FIFO방법을 사용하여 오랫동안 입력이 안 된 패턴을 손쉽게 제거한다. 패턴이 조금씩 바뀌는 데이터 스트림 환경에서 RSP-DS가 기존의 알고리즘보다 우수하다는 것을 성능 평가를 통하여 증명하였다. 또한 패턴 분석을 수행할 데이터 순차의 개수와 자주 등장하는 데이터를 판별하는 기준을 조절하여 성능의 변화를 살펴보았다.

  • PDF

Finding associations between genes by time-series microarray sequential patterns analysis

  • Nam, Ho-Jung;Lee, Do-Heon
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2005년도 BIOINFO 2005
    • /
    • pp.161-164
    • /
    • 2005
  • Data mining techniques can be applied to identify patterns of interest in the gene expression data. One goal in mining gene expression data is to determine how the expression of any particular gene might affect the expression of other genes. To find relationships between different genes, association rules have been applied to gene expression data set [1]. A notable limitation of association rule mining method is that only the association in a single profile experiment can be detected. It cannot be used to find rules across different condition profiles or different time point profile experiments. However, with the appearance of time-series microarray data, it became possible to analyze the temporal relationship between genes. In this paper, we analyze the time-series microarray gene expression data to extract the sequential patterns which are similar to the association rules between genes among different time points in the yeast cell cycle. The sequential patterns found in our work can catch the associations between different genes which express or repress at diverse time points. We have applied sequential pattern mining method to time-series microarray gene expression data and discovered a number of sequential patterns from two groups of genes (test, control) and more sequential patterns have been discovered from test group (same CO term group) than from the control group (different GO term group). This result can be a support for the potential of sequential patterns which is capable of catching the biologically meaningful association between genes.

  • PDF

A Local Feature-Based Robust Approach for Facial Expression Recognition from Depth Video

  • Uddin, Md. Zia;Kim, Jaehyoun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권3호
    • /
    • pp.1390-1403
    • /
    • 2016
  • Facial expression recognition (FER) plays a very significant role in computer vision, pattern recognition, and image processing applications such as human computer interaction as it provides sufficient information about emotions of people. For video-based facial expression recognition, depth cameras can be better candidates over RGB cameras as a person's face cannot be easily recognized from distance-based depth videos hence depth cameras also resolve some privacy issues that can arise using RGB faces. A good FER system is very much reliant on the extraction of robust features as well as recognition engine. In this work, an efficient novel approach is proposed to recognize some facial expressions from time-sequential depth videos. First of all, efficient Local Binary Pattern (LBP) features are obtained from the time-sequential depth faces that are further classified by Generalized Discriminant Analysis (GDA) to make the features more robust and finally, the LBP-GDA features are fed into Hidden Markov Models (HMMs) to train and recognize different facial expressions successfully. The depth information-based proposed facial expression recognition approach is compared to the conventional approaches such as Principal Component Analysis (PCA), Independent Component Analysis (ICA), and Linear Discriminant Analysis (LDA) where the proposed one outperforms others by obtaining better recognition rates.

잠재성장모형의 무조건적 모델 추정을 위한 데이터 기반 방법론 (A Data Based Methodology for Estimating the Unconditional Model of the Latent Growth Modeling)

  • 조영빈
    • 디지털융복합연구
    • /
    • 제16권6호
    • /
    • pp.85-93
    • /
    • 2018
  • 대표적인 종단자료 분석방법인 잠재성장모형(Latent Growth Modeling)은 무조건적 모델과 조건적 모델로 구분되는데, 이중 무조건적 모델은 초기값과 기울기를 추정하여 적합도가 높은 모델을 추정해야 한다. 그렇지만 기존 잠재성장모형에는 종단자료의 형태가 단순선형함수 등 특정 함수가 아닐 경우 기울기를 추정하는 체계적인 방법론이 없었다. 본 연구에서는 뮤조건적 모델의 기울기를 추정하는데 연관규칙(Association Rule Mining)의 순차패턴(Sequential Pattern)을 사용하였다. 데이터는 한국고용정보원의 2001년~2006년에 조사한 청년 패널 데이터를 사용하였다. 제안한 방법론은 기존 단순선형함수를 가정할 때와 비교하여 적합도가 상승하는 것을 확인할 수 있었으며, 기울기 추정 과정을 시각화할 수 있는 부수적인 장점이 있었다.