• Title/Summary/Keyword: Sequence Mining

검색결과 163건 처리시간 0.088초

Increasing Splicing Site Prediction by Training Gene Set Based on Species

  • Ahn, Beunguk;Abbas, Elbashir;Park, Jin-Ah;Choi, Ho-Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권11호
    • /
    • pp.2784-2799
    • /
    • 2012
  • Biological data have been increased exponentially in recent years, and analyzing these data using data mining tools has become one of the major issues in the bioinformatics research community. This paper focuses on the protein construction process in higher organisms where the deoxyribonucleic acid, or DNA, sequence is filtered. In the process, "unmeaningful" DNA sub-sequences (called introns) are removed, and their meaningful counterparts (called exons) are retained. Accurate recognition of the boundaries between these two classes of sub-sequences, however, is known to be a difficult problem. Conventional approaches for recognizing these boundaries have sought for solely enhancing machine learning techniques, while inherent nature of the data themselves has been overlooked. In this paper we present an approach which makes use of the data attributes inherent to species in order to increase the accuracy of the boundary recognition. For experimentation, we have taken the data sets for four different species from the University of California Santa Cruz (UCSC) data repository, divided the data sets based on the species types, then trained a preprocessed version of the data sets on neural network(NN)-based and support vector machine(SVM)-based classifiers. As a result, we have observed that each species has its own specific features related to the splice sites, and that it implies there are related distances among species. To conclude, dividing the training data set based on species would increase the accuracy of predicting splicing junction and propose new insight to the biological research.

범주형 시퀀스들에 대한 확장성 있는 클러스터링 방법 (A Scalable Clustering Method for Categorical Sequences)

  • 오승준;김재련
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.136-141
    • /
    • 2004
  • 소매점 거래 데이터와 단백질 시퀀스, 웹 로그 등과 같은 상업적이거나 과학적인 데이터의 폭발적인 증가를 볼 수 있다. 이런 데이터들은 순서적인 면을 가지고 있는 시퀀스 데이터들이다. 그러나, 순서적인 면을 고려한 클러스터링 알고리듬은 소수이다. 따라서, 본 연구에서는 시퀀스 데이터들을 클러스터링 하는 방법을 연구한다. 시퀀스들 간의 유사도를 계산하기 위한 새로운 유사도를 제안한다. 또한, 유사도를 효율적으로 계산하기 위한 방법과 클러스터링 방법도 제안한다. 계층적 클러스터링 알고리듬은 높은 계산량을 가지고 있기에, 새로운 클러스터링 방법이 요구된다. 그러므로, 본 연구에서는 샘플링과 k-nn 방법을 이용한 확장성 있는 클러스터링 방법을 제안한다. 실제 데이터 셋과 합성 데이터 셋을 이용하여, 본 연구에서 제안하는 방법이 기존 방법보다 성능이 우수함을 보여준다.

의미 정보를 이용한 다차원 데이터 시퀀스의 유사성 척도 연구 (A Study of Similarity Measures on Multidimensional Data Sequences Using Semantic Information)

  • 이석룡;이주홍;전석주
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.283-292
    • /
    • 2003
  • 연속된 일차원 실수로 이루어진 시계열 데이터는 데이터 마이닝이나 데이터 웨어하우징과 같은 다양한 데이터베이스 응용 분야에서 연구되어져 왔다. 그러나 최근의 복잡한 비즈니스 환경에서, 다차원 데이터 시퀀스(multidimensional data sequence : MDS)는 일차원 시계열 데이터와 더불어 그 중요성이 더해가고 있다. 다차원 데이터 시퀀스의 예로써, 비디오 스트림은 색상과 질감 등의 속성들로 이루어진 다차원 공간상에서 MDS로 나타낼 수 있다. 본 논문에서는 패턴 유사성 검색에서 사용되는 효과적인 유사성 척도를 제시한다. 하나의 MDS는 여러 개의 세그먼트(segment)로 나누어지며, 각 세그먼트는 다양한 의미적인 특징들로 표현된다. 유사성 척도는 이러한 세그먼트에 대해서 정의되는데 이 척도를 사용하여 어떤 주어진 질의 시퀀스에 대하여 무관한 세그먼트들은 검색 대상에서 일차적으로 제외된다. 데이터 시퀀스와 질의 시퀀스 모두 세그먼트 단위로 분할되며, 질의 처리는 전체 시퀀스의 모든 데이터를 검색하지 않고 데이터 세그먼트와 질의 세그먼트의 특징을 비교하는 것을 기초로 하여 수행된다.

Transcriptome analysis of a medicinal plant, Pistacia chinensis

  • Choi, Ki-Young;Park, Duck Hwan;Seong, Eun-Soo;Lee, Sang Woo;Hang, Jin;Yi, Li Wan;Kim, Jong-Hwa;Na, Jong-Kuk
    • Journal of Plant Biotechnology
    • /
    • 제46권4호
    • /
    • pp.274-281
    • /
    • 2019
  • Pistacia chinensis Bunge has not only been used as a medicinal plant to treat various illnesses but its young shoots and leaves have also been used as vegetables. In addition, P. chinensis is used as a rootstock for Pistacia vera (pistachio). Here, the transcriptome of P. chinensis was sequenced to enrich genetic resources and identify secondary metabolite biosynthetic pathways using Illumina RNA-seq methods. De novo assembly resulted in 18,524 unigenes with an average length of 873 bp from 19 million RNA-seq reads. A Kyoto Encyclopedia of Genes and Genomes (KEGG) annotation tool assigned KO (KEGG orthology) numbers to 6,553 (36.2%) unigenes, among which 4,061 unigenes were mapped into 391 different metabolic pathways. For terpenoid backbone and carotenoid biosynthesis pathways, 44 and 22 unigenes encode enzymes corresponding to 30 and 16 entries, respectively. Twenty-two unigenes encode proteins for 16 entries of the carotenoid biosynthesis pathway. As for the phenylpropanoid and flavonoid biosynthesis pathways, 63 and 24 unigenes were homologous to 17 and 14 entry proteins, respectively. Mining of simple sequence repeat identified 2,599 simple sequence repeats from P. chinensis unigenes. The results of the present study provide a valuable resource for in-depth studies on comparative and functional genomics to unravel the underlying mechanisms of the medicinal properties of Pistacia L.

LSTM을 활용한 고위험성 조류인플루엔자(HPAI) 확산 경로 예측 (Prediction of Highy Pathogenic Avian Influenza(HPAI) Diffusion Path Using LSTM)

  • 최대우;이원빈;송유한;강태훈;한예지
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.1-9
    • /
    • 2020
  • 이 연구는 2018년도 정부(농림축산식품부)의 재원으로 농림식품기술기획평가원 지원을 받아 수행된 연구이다. 최근 시계열 및 텍스트 마이닝에서 활발히 사용되는 모델은 딥러닝(Deep Learning) 모델 구조를 활용한 LSTM(Long Short-Term Memory models) 모델이다. LSTM 모델은 RNN의 BPTT(Backpropagation Through Time) 과정에서 발생하는 Long-Term Dependency Problem을 해결하기 위해 등장한 모델이다. LSTM 모델은 가변적인 Sequence data를 활용하여 예측하는 문제를 굉장히 잘 해결했고, 지금도 널리 사용되고 있다. 본 논문 연구에서는 KT가 제공하는 CDR(Call Detailed Record) 데이터를 활용하여 바이러스와 밀접한 관계가 있을 것으로 예측되는 사람의 이동 경로를 파악하였다. 해당 사람의 경로를 활용하여 LSTM 모델을 학습시켜 이동 경로를 예측한 결과를 소개한다. 본 연구 결과를 활용하여 HPAI가 전파되는 경로를 예측하여 방역에 중점을 둘 경로 또는 지역을 선정해 HPAI 확산을 줄이는 데 이용될 수 있을 것이다.

Deadbeat and Hierarchical Predictive Control with Space-Vector Modulation for Three-Phase Five-Level Nested Neutral Point Piloted Converters

  • Li, Junjie;Chang, Xiangyu;Yang, Dirui;Liu, Yunlong;Jiang, Jianguo
    • Journal of Power Electronics
    • /
    • 제18권6호
    • /
    • pp.1791-1804
    • /
    • 2018
  • To achieve a fast dynamic response and to solve the multi-objective control problems of the output currents, capacitor voltages and system constraints, this paper proposes a deadbeat and hierarchical predictive control with space-vector modulation (DB-HPC-SVM) for five-level nested neutral point piloted (NNPP) converters. First, deadbeat control (DBC) is adopted to track the reference currents by calculating the deadbeat reference voltage vector (DB-RVV). After that, all of the candidate switching sequences that synthesize the DB-RVV are obtained by using the fast SVM principle. Furthermore, according to the redundancies of the switch combination and switching sequence, a hierarchical model predictive control (MPC) is presented to select the optimal switch combination (OSC) and optimal switching sequence (OSS). The proposed DB-HPC-SVM maintains the advantages of DBC and SVM, such as fast dynamic response, zero steady-state error and fixed switching frequency, and combines the characteristics of MPC, such as multi-objective control and simple inclusion of constraints. Finally, comparative simulation and experimental results of a five-level NNPP converter verify the correctness of the proposed DB-HPC-SVM.

실시간 고장 예방을 위한 이벤트 기반 결함원인분석 시스템 (An Event-Driven Failure Analysis System for Real-Time Prognosis)

  • 이양지;김덕영;황민순;정영수
    • 한국CDE학회논문집
    • /
    • 제18권4호
    • /
    • pp.250-257
    • /
    • 2013
  • This paper introduces a failure analysis procedure that underpins real-time fault prognosis. In the previous study, we developed a systematic eventization procedure which makes it possible to reduce the original data size into a manageable one in the form of event logs and eventually to extract failure patterns efficiently from the reduced data. Failure patterns are then extracted in the form of event sequences by sequence-mining algorithms, (e.g. FP-Tree algorithm). Extracted patterns are stored in a failure pattern library, and eventually, we use the stored failure pattern information to predict potential failures. The two practical case studies (marine diesel engine and SIRIUS-II car engine) provide empirical support for the performance of the proposed failure analysis procedure. This procedure can be easily extended for wide application fields of failure analysis such as vehicle and machine diagnostics. Furthermore, it can be applied to human health monitoring & prognosis, so that human body signals could be efficiently analyzed.

A novel route restoring method upon geo-tagged photos

  • Wang, Guannan;Wang, Zhizhong;Zhu, Zhenmin;Wen, Saiping
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권5호
    • /
    • pp.1236-1251
    • /
    • 2013
  • Sharing geo-tagged photos has been a hot social activity in the daily life because these photos not only contain geo information but also indicate people's hobbies, intention and mobility patterns. However, the present raw geo-tagged photo routes cannot provide information as enough as complete GPS trajectories due to the defects hidden in them. This paper mainly aims at analyzing the large amounts of geo-tagged photos and proposing a novel travel route restoring method. In our approach we first propose an Interest Measure Ratio to rank the hot spots based on density-based spatial clustering arithmetic. Then we apply the Hidden Semi-Markov model and Mean Value method to demonstrate migration discipline in the hot spots and restore the significant region sequence into complete GPS trajectory. At the end of the paper, a novel experiment method is designed to demonstrate that the approach is feasible in restoring route, and there is a good performance.

In silica Prediction of Angiogenesis-related Genes in Human Hepatocellular Carcinoma

  • Kang, Seung-Hui;Park, Jeong-Ae;Hong, Soon-Sun;Kim, Kyu-Won
    • Genomics & Informatics
    • /
    • 제2권3호
    • /
    • pp.134-141
    • /
    • 2004
  • Hepatocellular carcinoma (HCC) is one of the most common malignancies worldwide and a typical hypervascular tumor. Therefore, it is important to find factors related to angiogenesis in the process of HCC malignancy. In order to find angiogenesis-related factors in HCC, we used combined methods of in silico prediction and an experimental assay. We analyzed 1457 genes extracted from cDNA microarray of HCC patients by text-mining, sequence similarity search and domain analysis. As a result, we predicted that 16 genes were likely to be involved in angiogenesis and then the effects of these genes were confirmed by hypoxia response element(HRE)-luciferase assay. For instant, we classified osteopontin into a potent angiogenic factor and coagulation factor XII into a significant anti­angiogenic factor. Collectively, we suggest that using a combination of in silico prediction and experimental approaches, we can identify HCC-specific angiogenesis­related factors effectively and rapidly.

한국 주식 데이터를 이용한 서브시퀀스 매칭 방법의 효과성 평가 (Effectiveness Evaluations of Subsequence Matching Methods Using KOSPI Data)

  • 유승근;이상호
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.355-364
    • /
    • 2005
  • 기존의 서브시퀀스 매칭 방법은 검색을 효율적으로 수행하기 위한 인덱스 구성 방법에 대하여 연구하였으며, 서브시퀀스 매칭 방법의 효과성 평가를 고려하지 않았다. 본 논문은 서브시퀀스 매칭 방법의 효과성에 대하여 고려하였으며, 서브시퀀스 매칭 방법의 효과성을 평가 할 수 있는 2가지 척도를 제안한다. 한국 주식 데이터와 5가지 서브시퀀스 매칭 방법에 대하여 제안된 효과성 측정 방안을 적용하였으며, 그 결과를 분석하였다. 실험 결과, 정규화를 지원하는 서브시퀀스 매칭 방법과 스케일링과 쉬프팅 변환을 지원하는 서브시퀀스 매칭 방법이 상대적으로 효과적인 서브시퀀스를 검색하였다.