• 제목/요약/키워드: Protein Structure Alignment

검색결과 30건 처리시간 0.03초

단백질 3차원 구조의 지역적 유사성을 이용한 Flexible 단백질 구조 정렬에 관한 연구 (A Study of Flexible Protein Structure Alignment Using Three Dimensional Local Similarities)

  • 박찬용;황치정
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.359-366
    • /
    • 2009
  • 구조적 생물 정보학 분야는 단백질의 3차원 구조를 대상으로 단백질을 연구하는 분야이며, 본 논문에서는 구조적 생물 정보학 분야의 핵심 연구 주제중의 하나인 Flexible 단백질 구조 정렬에 관한 새로운 알고리즘을 제시한다. Flexible 단백질 구조 정렬을 위하여, 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조간에 연결 가능성을 검색하여 정렬이 가능한 모든 유사 구조를 찾고, 이 유사 구조에 꺽임점을 도입하여 Flexible 단백질 구조 정렬을 수행하였다. 이 과정에서 단백질의 지역적 유사성을 정확히 비교하기 위하여 RDA를 이용한 방법을 제안하였고, Flexible 단백질 구조 정렬시 신뢰성 있는 꺽임점 위치 선정 방법과 그래프를 이용한 최적화 방법을 제안하였다. 성능 평가를 위하여 다양한 방법으로 Flexible 단백질 구조 정렬의 성능 평가를 수행하였고, 기존의 방법인 DALI, CE, FATCAT 보다 성능의 우수함을 나타내었다.

Protein Backbone Torsion Angle-Based Structure Comparison and Secondary Structure Database Web Server

  • Jung, Sunghoon;Bae, Se-Eun;Ahn, Insung;Son, Hyeon S.
    • Genomics & Informatics
    • /
    • 제11권3호
    • /
    • pp.155-160
    • /
    • 2013
  • Structural information has been a major concern for biological and pharmaceutical studies for its intimate relationship to the function of a protein. Three-dimensional representation of the positions of protein atoms is utilized among many structural information repositories that have been published. The reliability of the torsional system, which represents the native processes of structural change in the structural analysis, was partially proven with previous structural alignment studies. Here, a web server providing structural information and analysis based on the backbone torsional representation of a protein structure is newly introduced. The web server offers functions of secondary structure database search, secondary structure calculation, and pair-wise protein structure comparison, based on a backbone torsion angle representation system. Application of the implementation in pair-wise structural alignment showed highly accurate results. The information derived from this web server might be further utilized in the field of ab initio protein structure modeling or protein homology-related analyses.

단백질 서열정렬 정확도 예측을 위한 새로운 방법 (A new method to predict the protein sequence alignment quality)

  • 이민호;정찬석;김동섭
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.82-87
    • /
    • 2006
  • 현재 가장 많이 사용되는 단백질 구조 예측 방법은 비교 모델링 (comparative modeling) 방법이다. 비교 모델링 방법에서의 정확도를 높이기 위해서는 alignment의 정확도 역시 매우 필수적으로 필요하다. 비교 모델링 과정 중의 fold-recognition 단계에서 alignment의 정확도에 의해 template을 고르는 방법은 단지 가장 비슷한 template을 선택하는 방법에 비해 주목을 받지 못하고 있다. 최근에는 두 가지의 alignment에 사이의 shift 정보를 바탕으로 한 shift score라는 수치가 alignment의 성능을 표현하기 위해서 개발되었다. 우리는 더 정확한 구조 예측의 첫걸음이 될 수 있는 shift score를 예측하는 방법을 개발하였다. Shift score를 예측하기 위해 support vector regression (SVR)이 사용되었다. 사전에 구축된 라이브러리 안의 길이가 n 인 template과 구조를 알고 싶은 query 단백질 사이의 alignment는 n+2 차원의 input 벡터로 변환된다. Structural alignment가 가장 좋은 alignment로 가정되었고 SVR은 query 단백질과 template 단백질의 structural alignment과 profile-profile alignment 사이의 shift score를 예측하도록 training 되었다. 예측 정확도는 Pearson 상관계수로 측정되었다. Training 된 SVR은 실제의 shift score와 예측된 shift score 사이에 0.80의 Pearson 상관계수를 갖는 정도로 예측하였다.

  • PDF

정렬된 잔기 사이의 최대거리와 유사도 그래프에 기반한 단백질 구조 정렬 (Protein Structure Alignment Based on Maximum of Residue Pair Distance and Similarity Graph)

  • 김우철;박상현;원정임
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권5호
    • /
    • pp.396-408
    • /
    • 2007
  • 최근 인간 게놈 프로젝트를 통해서 인간의 DNA가 해석된 이후 유전자가 생성하는 단백질의 기능에 대한 관심이 높아지고 있다. 단백질의 기능은 서열의 유사도보다는 진화과정 상에서 잘 보존되는 구조의 유사도에 더 연관되어 있다. 이를 통해 두 개의 단백질 간에 구조 유사성이 관찰되면 이로부터 이들이 유사한 생물학적 기능을 가질 것을 기대할 수 있다. 따라서 유사한 단백질 구조를 가진 단백질을 찾기 위한 방법으로 단백질 구조 정렬에 대한 많은 연구들이 진행되었다. 하지만 기존의 연구들은 유사도로 주로 RMSD(Root Mean Square Deviation)를 사용했기 때문에 두 단백질의 정렬 결과가 유사한지 흑은 유사하지 않은지를 직관적으로 판단하기 쉽지 않다. 또한 대부분의 기존 연구들은 정렬 결과로 최적의 정렬 결과 하나만을 찾기 때문에 서로 다른 목적을 가지는 사용자들을 만족시키기 어렵다. 따라서 본 논문에서는 새로운 유사도인 MRPD(Maximum of Residue Pair Distance)와 다수의 정렬 결과를 하나의 그래프로 표현하는 SG(Similarity Graph)을 기반으로 여러 가지 정렬 결과를 한 번에 생성하는 단백질 구조 정렬 방식을 제안한다. 단백질 정렬에 MRPB를 유사도로 사용하면 RMSD를 사용하는 경우에 비해서 유사 정도를 직관적으로 이해할 수 있을 뿐 아니라 신속하게 결과를 얻을 수 있다. SG는 사용자가 다양한 후보 정렬 결과들 중에서 자신이 원하는 정렬결과를 신속히 검색할 수 있도록 지원한다. 따라서 본 논문에서 제안한 단백질 구조 정렬 알고리즘은 다양한 길이에 따른 다수의 최적 정렬들을 제시하여 사용자의 만족도를 향상시킬 수 있었으며, 다수의 정렬결과 검색임에도 불구하고 정렬 시간은 기존 방법들과 거의 비슷하다는 장점이 있다.

An Approach for a Substitution Matrix Based on Protein Blocks and Physicochemical Properties of Amino Acids through PCA

  • You, Youngki;Jang, Inhwan;Lee, Kyungro;Kim, Heonjoo;Lee, Kwanhee
    • Interdisciplinary Bio Central
    • /
    • 제6권4호
    • /
    • pp.3.1-3.10
    • /
    • 2014
  • Amino acid substitution matrices are essential tools for protein sequence analysis, homology sequence search in protein databases and multiple sequence alignment. The PAM matrix was the first widely used amino acid substitution matrix. The BLOSUM series then succeeded the PAM matrix. Most substitution matrixes were developed by using the statistical frequency of substitution between each amino acid at blocks representing groups of protein families or related proteins. However, substitution of amino acids is based on the similarity of physiochemical properties of each amino acid. In this study, a new approach was used to obtain major physiochemical properties in multiple sequence alignment. Frequency of amino acid substitution in multiple sequence alignment database and selected attributes of amino acids in physiochemical properties database were merged. This merged data showed the major physiochemical properties through principle components analysis. Using factor analysis, these four principle components were interpreted as flexibility of electronic movement, polarity, negative charge and structural flexibility. Applying these four components, BAPS was constructed and validated for accuracy. When comparing receiver operated characteristic ($ROC_{50}$) values, BAPS scored slightly lower than BLOSUM and PAM. However, when evaluating for accuracy by comparing results from multiple sequence alignment with the structural alignment results of two test data sets with known three-dimensional structure in the homologous structure alignment database, the result of the test for BAPS was comparatively equivalent or better than results for prior matrices including PAM, Gonnet, Identity and Genetic code matrix.

Reviving GOR method in protein secondary structure prediction: Effective usage of evolutionary information

  • Lee, Byung-Chul;Lee, Chang-Jun;Kim, Dong-Sup
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.133-138
    • /
    • 2003
  • The prediction of protein secondary structure has been an important bioinformatics tool that is an essential component of the template-based protein tertiary structure prediction process. It has been known that the predicted secondary structure information improves both the fold recognition performance and the alignment accuracy. In this paper, we describe several novel ideas that may improve the prediction accuracy. The main idea is motivated by an observation that the protein's structural information, especially when it is combined with the evolutionary information, significantly improves the accuracy of the predicted tertiary structure. From the non-redundant set of protein structures, we derive the 'potential' parameters for the protein secondary structure prediction that contains the structural information of proteins, by following the procedure similar to the way to derive the directional information table of GOR method. Those potential parameters are combined with the frequency matrices obtained by running PSI-BLAST to construct the feature vectors that are used to train the support vector machines (SVM) to build the secondary structure classifiers. Moreover, the problem of huge model file size, which is one of the known shortcomings of SVM, is partially overcome by reducing the size of training data by filtering out the redundancy not only at the protein level but also at the feature vector level. A preliminary result measured by the average three-state prediction accuracy is encouraging.

  • PDF

Identification of Viral Taxon-Specific Genes (VTSG): Application to Caliciviridae

  • Kang, Shinduck;Kim, Young-Chang
    • Genomics & Informatics
    • /
    • 제16권4호
    • /
    • pp.23.1-23.5
    • /
    • 2018
  • Virus taxonomy was initially determined by clinical experiments based on phenotype. However, with the development of sequence analysis methods, genotype-based classification was also applied. With the development of genome sequence analysis technology, there is an increasing demand for virus taxonomy to be extended from in vivo and in vitro to in silico. In this study, we verified the consistency of the current International Committee on Taxonomy of Viruses taxonomy using an in silico approach, aiming to identify the specific sequence for each virus. We applied this approach to norovirus in Caliciviridae, which causes 90% of gastroenteritis cases worldwide. First, based on the dogma "protein structure determines its function," we hypothesized that the specific sequence can be identified by the specific structure. Firstly, we extracted the coding region (CDS). Secondly, the CDS protein sequences of each genus were annotated by the conserved domain database (CDD) search. Finally, the conserved domains of each genus in Caliciviridae are classified by RPS-BLAST with CDD. The analysis result is that Caliciviridae has sequences including RNA helicase in common. In case of Norovirus, Calicivirus coat protein C terminal and viral polyprotein N-terminal appears as a specific domain in Caliciviridae. It does not include in the other genera in Caliciviridae. If this method is utilized to detect specific conserved domains, it can be used as classification keywords based on protein functional structure. After determining the specific protein domains, the specific protein domain sequences would be converted to gene sequences. This sequences would be re-used one of viral bio-marks.

단백질 이차 구조에 기반을 둔 단백질 구조 정렬 방법 (A Method for Protein Structure Alignment based on Protein Secondary Structure)

  • 김진홍;안건태;윤형석;이수현;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.700-702
    • /
    • 2002
  • 단백질 구조를 정렬하는 방법은 단백질의 모티프 또는 폴드를 찾는데 사용되고 있으며, 기능적 또는 구조적으로 연관된 단백질을 분류하는데 유용하게 사용되고 있다. 본 논문에서는 단백질 이차 구조($\alpha$-나선 구조와 $\beta$-병풍구조)를 기반으로 하는 단백질 구조 정렬 방법에 대하여 기술한다. 제안된 단백질 이차 구조 요소 기반의 정렬방법은 단백질 구조를 단백질 이차 구조 요소와 그들 사이의 관계(수소결합, 상대적 위치)를 이용하여 표현하고, 표현된 두 개의 구조를 단백질 이차 구조 요소와 그들 사이의 관계만을 이용하여 비교하는 방법으로 기존의 방법보다 빨리 정렬할 수 있다.

  • PDF

Backbone 1H, 15N and 13C Resonance Assignment and Secondary Structure Prediction of HP0062 (O24902_HELPY) from Helicobacter pylori

  • Jang, Sun-Bok;Ma, Chao;Park, Sung-Jean;Kwon, Ae-Ran;Lee, Bong-Jin
    • 한국자기공명학회논문지
    • /
    • 제13권2호
    • /
    • pp.117-125
    • /
    • 2009
  • HP0062 is an 86 residue hypothetical protein from Helicobacter pylori strain 26695. HP0062 was identified ESAT-6/WXG100 superfamily protein based on structure and sequence alignment and also contains leucine zipper domain sequence. Here, we report the sequence-specific backbone resonance assignment of HP0062. About 97.7% of all $^1H_N,\;^{15}N,\;^{13}C_{\alpha},\;^{13}C_{\beta}\;and\;^{13}C=O$ resonances were assigned unambiguously. We could predict the secondary structure of HP0062 by analyzing the deviation of the $^{13}C_{alpha}\;and\;^{13}C_{\beta}$ chemical shifts from their respective random coil values. Secondary structure prediction shows that HP0062 consist of two ${\alpha}$-helices. This study is a prerequisite for determining the solution structure of HP0062 and can be used for the study on interaction between HP0062 and DNA and other Helicobacter pylori proteins.

분자 데이터베이스 스크리닝을 위한 원자간 거리 기반의 3차원 형상 기술자 (3D Shape Descriptor with Interatomic Distance for Screening the Molecular Database)

  • 이재호;박준영
    • 한국CDE학회논문집
    • /
    • 제14권6호
    • /
    • pp.404-414
    • /
    • 2009
  • In the computational molecular analysis, 3D structural comparison for protein searching plays a very important role. As protein databases have been grown rapidly in size, exhaustive search methods cannot provide satisfactory performance. Because exhaustive search methods try to handle the structure of protein by using sphere set which is converted from atoms set, the similarity calculation about two sphere sets is very expensive. Instead, the filter-and-refine paradigm offers an efficient alternative to database search without compromising the accuracy of the answers. In recent, a very fast algorithm based on the inter-atomic distance has been suggested by Ballester and Richard. Since they adopted the moments of distribution with inter-atomic distance between atoms which are rotational invariant, they can eliminate the structure alignment and orientation fix process and perform the searching faster than previous methods. In this paper, we propose a new 3D shape descriptor. It has properties of the general shape distribution and useful property in screening the molecular database. We show some experimental results for the validity of our method.