• Title/Summary/Keyword: 단백질서열

Search Result 698, Processing Time 0.024 seconds

Extracting Information on Structural Classification through Protein Sequence Alignment (단백질 서열 정렬을 통한 구조 분류정보 추출)

  • 변상희;김진홍;안건태;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.884-886
    • /
    • 2003
  • 인간 지놈 프로젝트가 완료된 이후로 여러 지놈 프로젝트가 수행되었으며 이로 인해 데이터베이스에 수록되는 서열수가 기하급수적으로 증가하고 있다. 최근에는 단순한 서열 분석뿐만 아니라 이미 밟혀진 단백질 정보를 이용하여 새로운 단백질의 기능을 예측하는 연구가 보다 활발히 진행되고 있다. 단백질 기능은 단백질의 삼차구조에 의해 결정된다. 따라서 단백질의 서열을 분석하여 삼차구조를 알아내고 어떤 분류에 속하는지 알아낸다면 단백질의 기능을 예측할 수 있다. 본 논문에서는 단백질 서열 정렬을 통하여 보다 빠르고 효과적으로 단백질 구조 정보를 추출하는 기법에 대하여 기술한다. 개발된 단백질 구조 추출 기법은 Pfam 데이터베이스에서 제공하는 단백질 서열의 샘플링 결과를 기반으로 서열 정렬을 수행퇴고, 선정뭔 서열을 대상으로 SCOP 데이터베이스에서 단백질 구조 분류정보(family 및 fold)를 추출함으로써 구조 분류정보 추출 과정의 성능을 향상시키고자 한다.

  • PDF

A management Technique for Protein Version Information based on Local Sequence Alignment and Trigger (로컬 서열 정렬과 트리거 기반의 단백질 버전 정보 관리 기법)

  • Jung Kwang-Su;Park Sung-Hee;Ryu Keun-Ho
    • The KIPS Transactions:PartD
    • /
    • v.12D no.1 s.97
    • /
    • pp.51-62
    • /
    • 2005
  • After figuring out the function of an amino acid sequence, we can infer the function of the other amino acids that have similar sequence composition. Besides, it is possible that we alter protein whose function we know, into useful protein using genetic engineering method. In this process. an original protein amino sequence produces various protein sequences that have different sequence composition. Here, a systematic technique is needed to manage protein version sequences and reference data of those sequences. Thus, in this paper we proposed a technique of managing protein version sequences based on local sequence alignment and a technique of managing protein historical reference data using Trigger This method automatically determines the similarity between an original sequence and each version sequence while the protein version sequences are stored into database. When this technique is employed, the storage space that stores protein sequences is also reduced. After storing the historical information of protein and analyzing the change of protein sequence, we expect that a new useful protein and drug are able to be discovered based on analysis of version sequence.

A Hybrid Protein Function Prediction System Using Sequence Similarity and Feature-based Classification (서열 유사도와 특징 기반 분류를 융합시킨 단백질 기능 예측 시스템)

  • Moon, Ji Hwan;Kim, Yoo-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.197-200
    • /
    • 2010
  • 단백질의 서열 정보와 기능 정보의 양이 증가함에 따라 컴퓨터 실험을 통한 단백질의 기능 예측이 가능해졌으며 정확성이 높은 예측 시스템을 개발하려는 여러 연구가 시도되고 있다. 대표적인 방법으로 서열 유사도를 기반으로 기능 예측을 하는 시스템이 제안되었으나 단백질 중에는 서열이 유사하지만 기능이 다르거나 또는 서열은 다름에도 불구하고 기능이 같은 단백질이 존재하기 때문에 서열의 유사도 만을 이용해서는 단백질의 기능 예측을 어렵다. 이러한 유사도 방법의 단점을 극복하기 위해 단백질 서열로부터 추출한 특징을 기반으로 분류하는 방법도 제안되었다. 본 논문에서는 이러한 기존 방법들의 장점을 얻기 위하여 서열 유사도 방법과 특징 기반 방법을 융합한 단백질 기능 예측 시스템을 제안하고 예측 정확성 분석을 위한 실험을 실시하였다. 실험의 결과에 따르면 제안된 융합시스템이 서열 유사도만을 이용한 방법과 특징 기반 방법보다 좋은 예측 정확률을 갖는 것으로 분석되었다.

A Protein Sequence Prediction Method by Mining Sequence Data (서열 데이타마이닝을 통한 단백질 서열 예측기법)

  • Cho, Sun-I;Lee, Do-Heon;Cho, Kwang-Hwi;Won, Yong-Gwan;Kim, Byoung-Ki
    • The KIPS Transactions:PartD
    • /
    • v.10D no.2
    • /
    • pp.261-266
    • /
    • 2003
  • A protein, which is a linear polymer of amino acids, is one of the most important bio-molecules composing biological structures and regulating bio-chemical reactions. Since the characteristics and functions of proteins are determined by their amino acid sequences in principle, protein sequence determination is the starting point of protein function study. This paper proposes a protein sequence prediction method based on data mining techniques, which can overcome the limitation of previous bio-chemical sequencing methods. After applying multiple proteases to acquire overlapped protein fragments, we can identify candidate fragment sequences by comparing fragment mass values with peptide databases. We propose a method to construct multi-partite graph and search maximal paths to determine the protein sequence by assembling proper candidate sequences. In addition, experimental results based on the SWISS-PROT database showing the validity of the proposed method is presented.

Protein Secondary Structure System Design Using Clustering Protein Database and Data Distribution Scheme (클러스터링 단백질 데이터베이스와 데이터 분산 기법을 적용한 단백질 이차구조예측 시스템 설계)

  • 이수진;김재훈;정진원;이원태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.82-84
    • /
    • 2003
  • 생물학 데이터베이스의 크기가 점점 증가함에 따라 데이터베이스를 사용하여 서열을 정렬할 경우 많은 처리시간이 필요하게 되었다. 단백질 이차구조예측 시스템에서 단백질 서열 데이터베이스를 이용해 사용자의 서열들을 정렬하는 부분에서도 많은 처리 시간을 요구한다. 본 논문에서는 단백질 데이터베이스를 비슷한 크기로 나눠 여러 노드에서 서열 정렬을 분산 처리하여 처리율을 높이고자 했다. 또한, ClustalW에서 서열들의 관계에 따라 다양한 BLOSUM을 사용하여 정렬의 정확도를 높이는 휴리스틱 전략을 적용하기 위해 기존의 데이터베이스를 클러스터링 하였다. 클러스터링된 데이터베이스의 대표서열과 사용자 서열의 거리를 비교하여 적합한 BLOSUM을 선택하여 보다 정확한 서열 정렬을 통해 단백질 이차구조예측의 정확도를 높이게 될 것이다. 본 논문에서는 대용량의 단백질 데이터베이스를 여러 노드를 사용하여 병렬 클러스터링하여 이를 이차구조예측 시스템에 적용하여 처리율과 정확도를 높이고자 하였다.

  • PDF

Integrated Information Retrieval System from Distributed Biological Database (분산된 생물정보 데이터베이스의 통합검색 시스템연구)

  • 윤홍원
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.04a
    • /
    • pp.311-314
    • /
    • 2000
  • 분자 생물학의 발전염기서열, 단백질 서열, 지놈 서열 등의 서열데이터베이스와 단백질 3차구조를 제공하는 구조 데이터베이스등이 구축되어서 웹을 통해 많은 정보를 제공하고 있다. 전세계적으로 분산되어 있는 다양한 생물정보 데이터베이스의 효율적인 검색을 위해서 통합 검색 시스템의 개발이 필요하다. 이 논문에서는 전세계의 생물정보 데이터베이스의 개발 현황을 보이고 분산되어 있는 생물정보데이터베이스로부터 통합검색을 위한 생물정보 통합검색시스템(GenPlus)를 제안하였다. 제안한 GenPlus 에서는 염기 서열, 단백질서열, 그리고 키워드를 이용한 서열정보, 구조정보,완전한 지놈 정보, 그리고 문헌정보의 통합 검색을 제공한다.

  • PDF

Design and Implementation of Advanced Sequence Analysis System using the Stand -Alone BLAST (Stand-Alone BLAST를 이용한 향상된 통합 서열분석시스템의 설계 및 구현)

  • 박춘구;허정호;최지인;박윤주;정동수;남홍길
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.268-270
    • /
    • 2002
  • 오늘날 급속하게 발전하는 유전자 분석기술은 유전자 서열(sequence), 단백질의 기능(function) 및 구조(structure)정보와 같은 생명현상의 연구에 필수적인 정보들을 제공하게 되었다. 특히, 인간 유전체 프로젝트의 완성 이후 염기 및 단백질의 서열데이터를 이용하여 유사한 서열데이터의 검색 및 관련 단백질의 기능, 구조 정보들과 같은 생물정보의 종합적인 검색이 요구되고 있다. 하지만 기존 대부분의 통합서열분석시스템들은 단지 관련 정보를 포함하는 데이터 베이스들에 접근하며 서열유사성을 분석한 후, 그 결과를 단순히 디스플레이 하는 것이 대부분 이였다. 부연하면, 기존 통합 서열분석시스템들은 각 데이터베이스로부터 검색된 결과들 간의 명확한 관계를 설명하지 못하여 종합적인 생물정보를 제공하지 못하고 있다. 따라서 본 논문에서는 염기 및 단백질의 서열데이터로부터 서열유사성 검색 및 관련 단백질의 기능, 구조정보에 해당하는 종합적 인 생물정보를 효과적으로 검색, 서비스 할 수 있는 통합 서열분석시스템의 설계, 구현에 관해 기술한다.

  • PDF

Feature selection and frequent pattern analysis in protein motif sequence (모티프 서열에서의 특징추출 및 빈발패턴 분석)

  • Kim, Dae-Sung;Lee, Bum-Ju;Ryu, Keun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.10-13
    • /
    • 2007
  • 모티프는 진화과정을 거치면서 단백질 서열상에서 부분적으로 높게 보존된 지역을 의미한다. 이러한 모티프는 단백질의 기능과 구조를 예측하거나 생물학적으로 관련성이 있는 단백질의 공통적인 특성을 기술하는데 사용된다. 또한, 모티프와 단백질 서열의 상관관계는 생물학적 기능 예측에 필수적이며, 이러한 예측 문제는 모티프 검색을 통해 서열에 존재하는 빈발한 서열패턴과 구조패턴을 통해 단백질 서열에 대한 분석이 가능하다. 이 논문에서는 단백질 서열에 존재하는 2차 구조 특성과 빈발패턴을 검색하고 추출된 정보를 이용하여 단백질 기능 분류에 활용하고자 한다.

  • PDF

Automata Species Classifier based on Protein Sequences and Text Information (단백질 서열과 텍스트 정보 기반 오토마타 종 분류기)

  • Park, Jun-Hyeong;Lee, Hyeon-Jeong;Yang, Ji-Hun;Kim, Seon-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.9-14
    • /
    • 2007
  • 단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없으며, 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과 상대적으로 좋은 성능을 얻을 수 있었다.

  • PDF

Prediction of Protein Secondary Structure Using the Weighted Combination of Homology Information of Protein Sequences (단백질 서열의 상동 관계를 가중 조합한 단백질 이차 구조 예측)

  • Chi, Sang-mun
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.20 no.9
    • /
    • pp.1816-1821
    • /
    • 2016
  • Protein secondary structure is important for the study of protein evolution, structure and function of proteins which play crucial roles in most of biological processes. This paper try to effectively extract protein secondary structure information from the large protein structure database in order to predict the protein secondary structure of a query protein sequence. To find more remote homologous sequences of a query sequence in the protein database, we used PSI-BLAST which can perform gapped iterative searches and use profiles consisting of homologous protein sequences of a query protein. The secondary structures of the homologous sequences are weighed combined to the secondary structure prediction according to their relative degree of similarity to the query sequence. When homologous sequences with a neural network predictor were used, the accuracies were higher than those of current state-of-art techniques, achieving a Q3 accuracy of 92.28% and a Q8 accuracy of 88.79%.