• Title/Summary/Keyword: 순차패턴분석

Search Result 118, Processing Time 0.03 seconds

Linking DNA Sequence Motifs with Gene Expression Patterns Based on a Low-Dimensional Mapping (저차원공간으로의 매핑에 기반한 DNA서열 요소 및 유전자 발현 패턴간 관련성 분석)

  • Lee Jongwoo;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.235-237
    • /
    • 2005
  • 마이크로 어레이(micro array)로 표현되는 유전자 발현 패턴(gene expression pattern)들과 해당 유전자의 upstream에 위치한 DNA 서열 요소(motif)들은 유전자 발현에 밀접한 관련을 맺고 있는데 이들간의 매핑관계를 알아내는 것은 생물전산학 분야에서 중요한 문제 중 하나이다. 본 고에서는 유전자 발현 패턴 데이터와 해당 DNA에 포함된 것으로 알려진 모티프 프로파일에 대해 대응분석(correspondence analysis)을 수행하고 2차원 평면에 매핑하여 특정 유전자 발현과 밀접하게 관련된다고 여겨지는 후보 모티프를 시각적으로 직관적으로 동정하는 방법을 제시한다. 또한 유전자 발현 패턴은 일정한 길이로 나누어 가능한 모든 패턴에 대해 클러스터링을 행하여 이에 대한 인덱스로 데이터를 표현하여 패턴의 인식성과 발현 순차성을 높이는 반면 복잡도를 줄이도록 하였다. 실험에서 두가지 형태의 모티프 프로파일과 효모 Saccharomyces cerevisiae 포자형성 데이터 집합에 대하여 대응 분석을 통한 시각화된 결과를 이용해 유전자 발현과 깊게 관련되는 것으로 알려진 모티프들이 대응 유전자 발현과의 상관성이 잘 동정되고 있음을 알 수가 있다.

  • PDF

Design and implementation of a cache manager for pipeline time-series data (배관 시계열 데이터를 위한 캐시 관리자의 설계 및 구현)

  • Kim, Seon-Hyo;Kim, Won-Sik;Shin, Je-Yong;Han, Wook-Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.109-112
    • /
    • 2005
  • 배관에 생기는 구멍이나 틈은 대형 사고의 원인이 될 수 있다. 이러한 배관의 결함을 찾기 위해서는 먼저 센서를 부착한 배관 탐사 장비를 배관에 통과시키고, 배관을 통과하는 중에 센서가 읽은 정보들을 배관 탐사 장비의 하드 디스크에 저장한다. 배관 통과가 완료된 후, 분석가는 분석 프로그램을 사용하여 탐사 장비에서 얻은 데이터에서 결함을 수동적으로 찾는다. 분석가가 데이터를 분석할 때 일반적으로 두 가지 패턴이 존재한다. 첫 번째 패턴은 일정한 구간의 센서 데이터를 순차적으로 분석하는 패턴이고, 두 번째 패턴은 현재 구간에서 이전 구간으로 되돌아가서 다시 분석하는 반복적인 패턴이다. 현재까지 만족할 만 한 수준으로 자동적으로 분석이 되지 않으므로, 분석가는 수작업으로 분석을 하는 경우가 많은데 이로 인해 최근에 읽은 부분을 전후 반복해서 액세스하는 반복적인 패턴이 많이 사용된다. 반복적 패턴의 경우 시스템의 성능을 향상시키기 위해, 이전에 읽은 배관 센서 데이터를 캐싱 할 필요가 있다. 그러나 기존의 분석 소프트웨어에는 캐싱 기능이 없으므로 반복적 패턴일 경우 데이터베이스에서 동일한 데이터를 반복적으로 읽는 문제를 가지고 있다. 본 논문에서는 배관 센서 데이터를 효율적으로 관리하는 캐쉬 관리자를 설계하고 구현하였다. 세부적으로는, 배관 센서 데이터를 시계열 데이터로 간주하고, 시계열 데이터에 대한 캐시 관리자를 제안하였다. 본 논문은 배관 탐사 장비에서 획득한 데이터들을 시계열 데이터로 간주하여 데이터베이스 측면에서 이러한 문제들을 접근하였다는 점에서 의미가 있으며, 향후 이 분야에 대한 많은 연구들이 나올 것으로 기대한다.

  • PDF

The Goods Recommendation System based on modified FP-Tree Algorithm (변형된 FP-Tree를 기반한 상품 추천 시스템)

  • Kim, Jong-Hee;Jung, Soon-Key
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.11
    • /
    • pp.205-213
    • /
    • 2010
  • This study uses the FP-tree algorithm, one of the mining techniques. This study is an attempt to suggest a new recommended system using a modified FP-tree algorithm which yields an association rule based on frequent 2-itemsets extracted from the transaction database. The modified recommended system consists of a pre-processing module, a learning module, a recommendation module and an evaluation module. The study first makes an assessment of the modified recommended system with respect to the precision rate, recall rate, F-measure, success rate, and recommending time. Then, the efficiency of the system is compared against other recommended systems utilizing the sequential pattern mining. When compared with other recommended systems utilizing the sequential pattern mining, the modified recommended system exhibits 5 times more efficiency in learning, and 20% improvement in the recommending capacity. This result proves that the modified system has more validity than recommended systems utilizing the sequential pattern mining.

Analysis on Temporal Pattern of Location Data with Time Series Model (시계열 모델을 활용한 위치 데이터의 시간적 패턴 분석)

  • Song, Ha Yoon;Lee, Da Som;Jung, Jun Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.768-771
    • /
    • 2021
  • 시계열 분석은 이전 시점들의 데이터를 기반으로 미래 시점의 데이터를 예측하는 기술을 제공하며, SARIMA는 이러한 시계열 분석에서 활용되는 통계 모델의 일종이다. 본 연구는 직접 수집한 실시간 위치 데이터에 SARIMA를 적용하여 개인의 이동 패턴을 추출하고 이를 예측에 활용하는 전반적인 프로세스를 제작하였다. 첫째, DB에 업로드된 위치 데이터를 비지도 학습의 일종인 EM-clustering을 활용해 핵심 방문 장소들로부터의 거리에 따라 군집화했다. 둘째, 해당 장소에 입장하고 퇴장하는 시간 간격에 SARIMA를 적용해 주기성을 추출했다. 마지막으로, 이 주기성들을 군집의 중요도에 따라 순차적으로 분석하여 유의미한 예측 결과를 도출해냈다.

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences (생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝)

  • Kang, Tae-Ho;Yoo, Jae-Soo
    • The KIPS Transactions:PartD
    • /
    • v.15D no.2
    • /
    • pp.155-162
    • /
    • 2008
  • Biological sequences such as DNA sequences and amino acid sequences typically contain a large number of items. They have contiguous sequences that ordinarily consist of hundreds of frequent items. In biological sequences analysis(BSA), a frequent contiguous sequence search is one of the most important operations. Many studies have been done for mining sequential patterns efficiently. Most of the existing methods for mining sequential patterns are based on the Apriori algorithm. In particular, the prefixSpan algorithm is one of the most efficient sequential pattern mining schemes based on the Apriori algorithm. However, since the algorithm expands the sequential patterns from frequent patterns with length-1, it is not suitable for biological dataset with long frequent contiguous sequences. In recent years, the MacosVSpan algorithm was proposed based on the idea of the prefixSpan algorithm to significantly reduce its recursive process. However, the algorithm is still inefficient for mining frequent contiguous sequences from long biological data sequences. In this paper, we propose an efficient method to mine maximal frequent contiguous sequences in large biological data sequences by constructing the spanning tree with the fixed length. To verify the superiority of the proposed method, we perform experiments in various environments. As the result, the experiments show that the proposed method is much more efficient than MacosVSpan in terms of retrieval performance.

Web Page Recommendation Using Percentage Of The Time In The Cluster (클러스터의 점유시간을 이용한 웹 페이지 추천 기법)

  • 신형섭;이충세
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.130-132
    • /
    • 2002
  • 기존의 여러 동적 추천 시스템에서는 웹 페이지들 사이의 유사도와 로그 파일 안에들어 있는 사용자들의 패턴을 이용하였기 때문에 연관된 페이지 뿐 아니라 단순히 순차적으로 연결되는 문서를 추천 페이지로 제공할 수 있었다. 본 논문에서는 기존의 방식에 각 페이지가 점유하는 시간의 분석을 더하려 한다. Data를 여러 분야로 나눌 수 있는 전자상거래의 특성을 이용하여 개개의 클러스터로 분류된 사이트들의 로그파일을 분석하여 점유시간의 크기와 무의미하게 보내어 지는 시간을 가중치를 주어 구별해내는 결과를 바탕으로 사용자가 주로 방문하는 연관성이 높다고 판단되는 웹 페이지를 추천하는 방법을 제안한다.

  • PDF

A Comparison of Performance between STMP/MST and Existing Spatio-Temporal Moving Pattern Mining Methods (STMP/MST와 기존의 시공간 이동 패턴 탐사 기법들과의 성능 비교)

  • Lee, Yon-Sik;Kim, Eun-A
    • Journal of Internet Computing and Services
    • /
    • v.10 no.5
    • /
    • pp.49-63
    • /
    • 2009
  • The performance of spatio-temporal moving pattern mining depends on how to analyze and process the huge set of spatio-temporal data due to the nature of it. The several method was presented in order to solve the problems in which existing spatio-temporal moving pattern mining methods[1-10] have, such as increasing execution time and required memory size during the pattern mining, but they did not solve properly yet. Thus, we proposed the STMP/MST method[11] as a preceding research in order to extract effectively sequential and/or periodical frequent occurrence moving patterns from the huge set of spatio-temporal moving data. The proposed method reduces patterns mining execution time, using the moving sequence tree based on hash tree. And also, to minimize the required memory space, it generalizes detailed historical data including spatio-temporal attributes into the real world scopes of space and time by using spatio-temporal concept hierarchy. In this paper, in order to verify the effectiveness of the STMP/MST method, we compared and analyzed performance with existing spatio-temporal moving pattern mining methods based on the quantity of mining data and minimum support factor.

  • PDF

Mining Commuter Patterns from Large Smart Card Transaction Databases (대용량 교통카드 트랜잭션 데이터베이스에서 통근 패턴 탐사)

  • Park, Jong-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06a
    • /
    • pp.38-39
    • /
    • 2010
  • 수도권 대중교통 이용자는 2004년 서울시의 대중교통 체계 개편에 따라 교통 카드를 사용하여 버스와 지하철을 이용하게 되었다. 교통 카드를 사용하는 각 승객의 승차와 하차에 관한 데이터가 하나의 트랜잭션으로 구성되고, 하루 천만 건 이상의 트랜잭션들로 구성된 대용량 교통카드 트랜잭션 데이터베이스가 만들어지고 있다. 대중교통을 이용하는 승객들의 승차와 하차에 관한 여러 정보를 담고 있는 교통카드 트랜잭션 데이터베이스에서 유용한 패턴이나 정보를 탐사해내는 연구가 계속 진행되고 있다. 이런 연구 결과는 수도권 대중교통 정책을 입안하는데 중요한 기초 자료가 되고 수도권 승객들에게 대중교통을 보다 잘 이용할 수 있는 정보로 제공된다. 교통카드 이용률은 2006년 79.5%, 2007년 80.3%, 2008년 81.6%로 점차적으로 증가하고 있다. 대용량의 교통카드 트랜잭션 데이터베이스에 대한 연구를 살펴보면 하루 동안의 교통카드 트랜잭션 데이터베이스에서 순차 패턴을 탐사하는 알고리즘을 연구하였고[1], 승객들의 통행 패턴에 대한 분석연구를 확장하여 일 년에 하루씩 2004년에서 2006년까지 3일간의 교통카드 트랜잭션 데이터베이스로부터 승객 시퀀스의 평균 정류장 개수와 환승 횟수 등을 연도별로 비교하였다[2]. 수도권 지하철 시스템의 특성에 관한 연구로는 네트워크 구조 분석이 있었고[3], 승객의 기종점 통행 행렬(Origin-Destination trip matrix)에 의한 승객 흐름의 분포가 멱함수 법칙(power law)임을 보여주는 연구가 있었고[4], 지하철 교통망에서 모든 링크상의 승객들의 흐름을 찾아내는 연구가 있었다[5]. 본 논문에서는 교통카드 트랜잭션 데이터베이스에서 지하철 승객들의 통근 패턴을 탐사해내는 방법을 연구하였다. 수도권 지하철 네트워크에 대한 정보를 입력하고 하루치의 교통카드 트랜잭션 데이터베이스에 연구된 방법을 적용하여 8가지 통근 패턴들을 탐사해내고 분석하였다. 탐사된 패턴들 중에서 많은 승객들이 지지하는 출퇴근 패턴에 대해서는 시간대별로 승객수를 그래프로 보여주었다.

  • PDF

Web Log Mining for Adaptive Web Sites (적응형 웹 사이트를 위한 웹 로그 마이닝)

  • Ko, Kyong-Ja;Kim, In-Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.325-328
    • /
    • 2001
  • 본 논문에서는 웹 사이트에 접근하는 이용자의 패턴을 분석하여 정보 제공이 보다 용이한 구조로 자동 개선시켜 나가는 적응형 웹 사이트의 구현 방안을 제시한다. 특히, 본 연구에서는 기존 웹 사이트의 구조를 가능한 파괴하지 않는 범위 내에서 웹 사이트론 변경하고자 이용자의 접근 패턴상 연관성은 높으나 접근 경로가 긴 문서들을 추출하여 색인 페이지를 추가 생성한다. 이를 위하여, 먼저 대용량의 웹 서버 로그 데이터를 대상으로 하이퍼 링크 구조에 따라 필터링된 최후 전진 문서만을 가지고 데이터 시퀀스를 구성한다. 이러한 데이터 시퀀스에 새로운 순차 접근 패턴 탐색 알고리즘인 TPA를 적용함으로써 웹 문서간 충분한 지지도를 갖는 연관성 있는 문서들의 시퀀스를 구한다. 이와같은 빈발 시퀀스들에 대한 색인 페이지를 추가로 생성시켜주는 서비스를 통하여 이용자들의 효과적인 정보 접근을 지원할 수 있는 웹 사이트로의 변경이 가능하다.

  • PDF

Classification of Protein Sequence Using Sequential Pattern Mining (순차 패턴 마이닝 기법을 이용한 단백질 서열 분류)

  • 정광호;김진수;최성용;한승진;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.298-300
    • /
    • 2004
  • 기존의 생물정보학 연구는 전체 서열들의 매칭을 통한 상동성 연구에 중점을 두고 진행되어 왔다 최근에 서열 데이터베이스의 급격한 증가와 게놈 정보가 축적됨에 따라 서열로부터 다양한 정보를 얻기 위해 서열 데이터 분석에 마이닝 기법을 접목시키고자 하는 다양한 기술들이 제안되고 있다. 단백질과 DNA의 서열 비교는 생물정보학의 기본 작업 기운데 하나이다. 신속하고 자동화 된 서열 비교 능력은 새로운 서열에 대한 기능 판별 및 분석 등 모든 작업을 용이하게 한다 본 논문에서는 동종의 단백질 서열들을 다중 정렬하여 일치하는 구간을 찾아내고, 그 구간에서 아미노산 코드와 위치정보를 이용해 동종 서열들 간의 특정한 패턴 규칙을 찾아내고, 새로운 서열에서 어떤 서열 필턴 특징이 발생하는지를 찾아냄으로써 서얼을 분류하는 방법을 제안한다.

  • PDF