• Title/Summary/Keyword: 서열

Search Result 3,677, Processing Time 0.028 seconds

A Hybrid Protein Function Prediction System Using Sequence Similarity and Feature-based Classification (서열 유사도와 특징 기반 분류를 융합시킨 단백질 기능 예측 시스템)

  • Moon, Ji Hwan;Kim, Yoo-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.197-200
    • /
    • 2010
  • 단백질의 서열 정보와 기능 정보의 양이 증가함에 따라 컴퓨터 실험을 통한 단백질의 기능 예측이 가능해졌으며 정확성이 높은 예측 시스템을 개발하려는 여러 연구가 시도되고 있다. 대표적인 방법으로 서열 유사도를 기반으로 기능 예측을 하는 시스템이 제안되었으나 단백질 중에는 서열이 유사하지만 기능이 다르거나 또는 서열은 다름에도 불구하고 기능이 같은 단백질이 존재하기 때문에 서열의 유사도 만을 이용해서는 단백질의 기능 예측을 어렵다. 이러한 유사도 방법의 단점을 극복하기 위해 단백질 서열로부터 추출한 특징을 기반으로 분류하는 방법도 제안되었다. 본 논문에서는 이러한 기존 방법들의 장점을 얻기 위하여 서열 유사도 방법과 특징 기반 방법을 융합한 단백질 기능 예측 시스템을 제안하고 예측 정확성 분석을 위한 실험을 실시하였다. 실험의 결과에 따르면 제안된 융합시스템이 서열 유사도만을 이용한 방법과 특징 기반 방법보다 좋은 예측 정확률을 갖는 것으로 분석되었다.

Nucleotide Sequences and Expression of cDNA Clones Encoding Uricase II in Canavalia lineata (해녀콩 Uricase II의 cDNA 염기서열과 발현)

  • 김호방
    • Journal of Plant Biology
    • /
    • v.36 no.4
    • /
    • pp.415-423
    • /
    • 1993
  • 대두의 uricase II cDNA를 탐침으로 plaque 혼성화 방법에 의해 해녀콩의 뿌리를 cDNA library로부터의 두 개의 phage 클론(λCINUO-01, λCINUO-02)을 선별하였다. 두 phage 클론은 약 1.6 kb와 1.0 kb의 insert를 갖고 있었으며 이들의 염기서열을 결정하기 위하여 pUC19과 pBSKS vector에 subcloing(pcCLNUO-01, pcCLNUO-02)하였다. Sanger법에 의해 염기서열을 결정한 결과, 두 클론은 각각 1,611 bp와 1,024 bp로 이루어져 있었으며 pcCINUO-01은 308개의 아미노산, pcCINUO-02는 301개의 아미노산을 암호화하는 open reading frame(ORF)을 갖고 있었다. 두 클론의 ORF의 염기서열은 대두의 uricase II와 각각 88.9%, 89.3%의 상동성을 보여주었으며, 아미노산 서열은 84.1%, 85.4%의 상동성을 보여주었다. pcCINUO-01의 경우, 종결코돈으로부터 313 NT 하류쪽에 진핵생물의 poly(A) 첨가신호인 AATAAA 서열이 존재하였으며 이로부터 21 NT 하류쪽에 17 잔기의 poly(A)가 존재하였다. 두 클론의 염기서열에서 추정된 아미노산 서열의 카르복시 말단에는 세포질에서 합성된 몇몇 단백질들이 peroxisome으로 수송되는데 필요한 신호서열인 Ser-Lys-Leu-COOH 서열이 존재하고 있었다. 두 클론의 염기서열을 토대로 아미노산 조성을 살펴본 결과, 염기성 아미노산(Arg, His, Lys)과 산성 아미노산(Asp, Glu)이 각각 46 대 35, 47 대 35의 비를 보여주었는데 이는 uricase II 단백질의 염기성 성질을 보여주는 결과로 추정된다. Northern 혼성화 결과 해녀콩에서 uricase II는 뿌리혹에서만 특이적으로 발현됨을 알 수 있었고 게놈 혼성화 반응 결과는 uricase II 유전자가 해녀콩 게놈상에 유전자 가족으로는 존재할 수 있음을 보여주었다.

  • PDF

Oligonucleotide Probe Selection using Evolutionary Computation in Large Target Genes (다수의 목표 유전자에서 진화연산을 이용한 Oligonucleotide Probe 선택)

  • Shin, Ki-Roo;Kim, Sun;Zhang, Byung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.455-457
    • /
    • 2003
  • DNA microarray는 분자생물학에서 널리 사용되고 있는 실험 도구로써 크게 cDNA와 oligonucleotide microarray로 나뉘어진다. DNA microarray는 일련의 DNA 서열로 이루어진 probe들의 집합으로 구성되며 알려지지 않은 서열과의 hybridization 과정을 통해 특정 서열을 인식할 수 있게 된다. O1igonucieotide microarray는 cDNA 방법과는 다르게 probe를 구성하는 서열을 제작자가 임의로 구성할 수 있기 때문에 목표 서열이 가지는 고유한 부분만을 probe 서열로 사용함으로써 비용절감과 실험의 정확도를 높일 수 있다는 장점이 있다. 그러나 현재 목표 유전자 서열에 대해 probe 집합을 생성하는 결정적인 방법은 존재하지 않으며, 따라서 넓은 해 공간에서 효과적으로 최적 해를 찾아 주는 진화 연산이 probe 선택을 위한 좋은 대안으로 사용될 수 있다[1.2]. 그러나 진화연산을 이용한 probe 선택방법에 있어서 인식하고자 하는 목표 서열의 개수가 많아질 경우, 해 공간의 크기가 커짐으로 인해 문제점이 발생할 수 있다. 따라서 본 논문에서는 다수의 목표 유전자 서열을 대상으로 한 probe 선택 방법에 일어서 보다 효율적인 진화연산 접근 방법을 소개한다. 제시된 방법은 인식하고자 하는 목표 서얼의 일부를 선택해 이를 probe 집합의 후보로 사용하며. 유전 연산자를 이용한 진화과정을 통해 최적에 가까운 probe 집합을 찾는다. 본 논문은 GenBank로부터 유전자 서열을 대상으로 제안된 방법을 실험하였으며, 축소된 목표 서열만을 이용해 probe 집합을 선택하더라도 적합한 probe 집합을 찾을 수 있었다.

  • PDF

A management Technique for Protein Version Information based on Local Sequence Alignment and Trigger (로컬 서열 정렬과 트리거 기반의 단백질 버전 정보 관리 기법)

  • Jung Kwang-Su;Park Sung-Hee;Ryu Keun-Ho
    • The KIPS Transactions:PartD
    • /
    • v.12D no.1 s.97
    • /
    • pp.51-62
    • /
    • 2005
  • After figuring out the function of an amino acid sequence, we can infer the function of the other amino acids that have similar sequence composition. Besides, it is possible that we alter protein whose function we know, into useful protein using genetic engineering method. In this process. an original protein amino sequence produces various protein sequences that have different sequence composition. Here, a systematic technique is needed to manage protein version sequences and reference data of those sequences. Thus, in this paper we proposed a technique of managing protein version sequences based on local sequence alignment and a technique of managing protein historical reference data using Trigger This method automatically determines the similarity between an original sequence and each version sequence while the protein version sequences are stored into database. When this technique is employed, the storage space that stores protein sequences is also reduced. After storing the historical information of protein and analyzing the change of protein sequence, we expect that a new useful protein and drug are able to be discovered based on analysis of version sequence.

Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences (생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝)

  • Kang, Tae-Ho;Yoo, Jae-Soo
    • The KIPS Transactions:PartD
    • /
    • v.15D no.2
    • /
    • pp.155-162
    • /
    • 2008
  • Biological sequences such as DNA sequences and amino acid sequences typically contain a large number of items. They have contiguous sequences that ordinarily consist of hundreds of frequent items. In biological sequences analysis(BSA), a frequent contiguous sequence search is one of the most important operations. Many studies have been done for mining sequential patterns efficiently. Most of the existing methods for mining sequential patterns are based on the Apriori algorithm. In particular, the prefixSpan algorithm is one of the most efficient sequential pattern mining schemes based on the Apriori algorithm. However, since the algorithm expands the sequential patterns from frequent patterns with length-1, it is not suitable for biological dataset with long frequent contiguous sequences. In recent years, the MacosVSpan algorithm was proposed based on the idea of the prefixSpan algorithm to significantly reduce its recursive process. However, the algorithm is still inefficient for mining frequent contiguous sequences from long biological data sequences. In this paper, we propose an efficient method to mine maximal frequent contiguous sequences in large biological data sequences by constructing the spanning tree with the fixed length. To verify the superiority of the proposed method, we perform experiments in various environments. As the result, the experiments show that the proposed method is much more efficient than MacosVSpan in terms of retrieval performance.

Multiple Sequence Aligmnent Genetic Algorithm (진화 알고리즘을 사용한 복수 염기서열 정렬)

  • Kim, Jin;Song, Min-Dong;Choi, Hong-Sik;Chang, Yeon-Ah
    • Korean Journal of Microbiology
    • /
    • v.35 no.2
    • /
    • pp.115-120
    • /
    • 1999
  • Multiple Sequence Alignment of DNA and protem sequences is a imnport'mt tool in the study of molecular evolution, gene regulation. and prolein suucture-function relationships. Progressive pairwise alignment method generates multiple sequence alignment fast but not necessarily with optimal costs. Dynamic programming generates multiple sequence alig~~menl with optimal costs in most cases but long execution time. In this paper. we suggest genetlc algorithm lo improve the multiple sequence alignment generated from the cnlent methods, describe the design of the genetic algorithm, and compare the multiple sequence alignments from 0111 method and current methods.

  • PDF

Cloning and Characterization of Highly Repetitive Sequences in the Genome of Allium sativum L. (마늘(Allium sativum L.) 게놈의 고반복서열의 분이와 특성 조사)

  • 이동희
    • Journal of Plant Biology
    • /
    • v.39 no.1
    • /
    • pp.49-55
    • /
    • 1996
  • We have studied the DNA of Allium sativum L. with respect to highly repetitive sequences. Fast reassociated DNA fragments expected to be highly repetitive sequences based on $C_{o}t$ curve were isolated and characterized. Their copy numbers were approximately $10^{5}~10^{7}$ per haploid genome. Nucleotide sequences analysis of six candidates reveals that their G/C content were low, 25-40% and typical patterns of repeating sequences exist. Repeat sequences were used as probes to access restriction fragment length polymorphism (RFLP) of genomic DNAs of four local clones, Tanyang, Mungyong, So san, and Uisong. The hybridization pattern were very similar among these four local clones.clones.

  • PDF

Extracting Information on Structural Classification through Protein Sequence Alignment (단백질 서열 정렬을 통한 구조 분류정보 추출)

  • 변상희;김진홍;안건태;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.884-886
    • /
    • 2003
  • 인간 지놈 프로젝트가 완료된 이후로 여러 지놈 프로젝트가 수행되었으며 이로 인해 데이터베이스에 수록되는 서열수가 기하급수적으로 증가하고 있다. 최근에는 단순한 서열 분석뿐만 아니라 이미 밟혀진 단백질 정보를 이용하여 새로운 단백질의 기능을 예측하는 연구가 보다 활발히 진행되고 있다. 단백질 기능은 단백질의 삼차구조에 의해 결정된다. 따라서 단백질의 서열을 분석하여 삼차구조를 알아내고 어떤 분류에 속하는지 알아낸다면 단백질의 기능을 예측할 수 있다. 본 논문에서는 단백질 서열 정렬을 통하여 보다 빠르고 효과적으로 단백질 구조 정보를 추출하는 기법에 대하여 기술한다. 개발된 단백질 구조 추출 기법은 Pfam 데이터베이스에서 제공하는 단백질 서열의 샘플링 결과를 기반으로 서열 정렬을 수행퇴고, 선정뭔 서열을 대상으로 SCOP 데이터베이스에서 단백질 구조 분류정보(family 및 fold)를 추출함으로써 구조 분류정보 추출 과정의 성능을 향상시키고자 한다.

  • PDF

Protein Secondary Structure System Design Using Clustering Protein Database and Data Distribution Scheme (클러스터링 단백질 데이터베이스와 데이터 분산 기법을 적용한 단백질 이차구조예측 시스템 설계)

  • 이수진;김재훈;정진원;이원태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.82-84
    • /
    • 2003
  • 생물학 데이터베이스의 크기가 점점 증가함에 따라 데이터베이스를 사용하여 서열을 정렬할 경우 많은 처리시간이 필요하게 되었다. 단백질 이차구조예측 시스템에서 단백질 서열 데이터베이스를 이용해 사용자의 서열들을 정렬하는 부분에서도 많은 처리 시간을 요구한다. 본 논문에서는 단백질 데이터베이스를 비슷한 크기로 나눠 여러 노드에서 서열 정렬을 분산 처리하여 처리율을 높이고자 했다. 또한, ClustalW에서 서열들의 관계에 따라 다양한 BLOSUM을 사용하여 정렬의 정확도를 높이는 휴리스틱 전략을 적용하기 위해 기존의 데이터베이스를 클러스터링 하였다. 클러스터링된 데이터베이스의 대표서열과 사용자 서열의 거리를 비교하여 적합한 BLOSUM을 선택하여 보다 정확한 서열 정렬을 통해 단백질 이차구조예측의 정확도를 높이게 될 것이다. 본 논문에서는 대용량의 단백질 데이터베이스를 여러 노드를 사용하여 병렬 클러스터링하여 이를 이차구조예측 시스템에 적용하여 처리율과 정확도를 높이고자 하였다.

  • PDF

Sequence Alignment Algorithm using Quality Information (품질 정보를 이용한 서열 배치 알고리즘)

  • Na, Joong-Chae;Roh, Kang-Ho;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.32 no.11_12
    • /
    • pp.578-586
    • /
    • 2005
  • In this Paper we consider the problem of sequence alignment with quality scores. DNA sequences produced by a base-calling program (as part of sequencing) have quality scores which represent the confidence level for individual bases. However, previous sequence alignment algorithms do not consider such quality scores. To solve sequence alignment with quality scores, we propose a measure of an alignment of two sequences with orality scores. We show that an optimal alignment in this measure can be found by dynamic programming.