Protein Structure Alignment Based on Maximum of Residue Pair Distance and Similarity Graph

정렬된 잔기 사이의 최대거리와 유사도 그래프에 기반한 단백질 구조 정렬

  • 김우철 (연세대학교 컴퓨터과학과) ;
  • 박상현 (연세대학교 컴퓨터과학과) ;
  • 원정임 (한양대학교 정보통신대학 컴퓨터)
  • Published : 2007.10.15

Abstract

After the Human Genome Project finished the sequencing of a human DNA sequence, the concerns on protein functions are increasing. Since the structures of proteins are conserved in divergent evolution, their functions are determined by their structures rather than by their amino acid sequences. Therefore, if similarities between two protein structures are observed, we could expect them to have common biological functions. So far, a lot of researches on protein structure alignment have been performed. However, most of them use RMSD(Root Mean Square Deviation) as a similarity measure with which it is hard to judge the similarity level of two protein structures intuitively. In addition, they retrieve only one result having the highest alignment score with which it is hard to satisfy various users of different purpose. To overcome these limitations, we propose a novel protein structure alignment algorithm based on MRPD(Maximum of Residue Pair Distance) and SG (Similarity Graph). MRPD is more intuitive similarity measure by which fast tittering of unpromising pairs of protein pairs is possible, and SG is a compact representation method for multiple alignment results with which users can choose the most plausible one among various users' needs by providing multiple alignment results without compromising the time to align protein structures.

최근 인간 게놈 프로젝트를 통해서 인간의 DNA가 해석된 이후 유전자가 생성하는 단백질의 기능에 대한 관심이 높아지고 있다. 단백질의 기능은 서열의 유사도보다는 진화과정 상에서 잘 보존되는 구조의 유사도에 더 연관되어 있다. 이를 통해 두 개의 단백질 간에 구조 유사성이 관찰되면 이로부터 이들이 유사한 생물학적 기능을 가질 것을 기대할 수 있다. 따라서 유사한 단백질 구조를 가진 단백질을 찾기 위한 방법으로 단백질 구조 정렬에 대한 많은 연구들이 진행되었다. 하지만 기존의 연구들은 유사도로 주로 RMSD(Root Mean Square Deviation)를 사용했기 때문에 두 단백질의 정렬 결과가 유사한지 흑은 유사하지 않은지를 직관적으로 판단하기 쉽지 않다. 또한 대부분의 기존 연구들은 정렬 결과로 최적의 정렬 결과 하나만을 찾기 때문에 서로 다른 목적을 가지는 사용자들을 만족시키기 어렵다. 따라서 본 논문에서는 새로운 유사도인 MRPD(Maximum of Residue Pair Distance)와 다수의 정렬 결과를 하나의 그래프로 표현하는 SG(Similarity Graph)을 기반으로 여러 가지 정렬 결과를 한 번에 생성하는 단백질 구조 정렬 방식을 제안한다. 단백질 정렬에 MRPB를 유사도로 사용하면 RMSD를 사용하는 경우에 비해서 유사 정도를 직관적으로 이해할 수 있을 뿐 아니라 신속하게 결과를 얻을 수 있다. SG는 사용자가 다양한 후보 정렬 결과들 중에서 자신이 원하는 정렬결과를 신속히 검색할 수 있도록 지원한다. 따라서 본 논문에서 제안한 단백질 구조 정렬 알고리즘은 다양한 길이에 따른 다수의 최적 정렬들을 제시하여 사용자의 만족도를 향상시킬 수 있었으며, 다수의 정렬결과 검색임에도 불구하고 정렬 시간은 기존 방법들과 거의 비슷하다는 장점이 있다.

Keywords

References

  1. F. S. Collins, A. Patrinos, E. Jordan, A. Chakravarti, R. Gesteland, L. Walters, and the members of the DOE and NIH planning groups, 'New Goals for the U.S. Human Genome Project: 1998-2003,' Science, Vol.282, No.5389, pp. 682-689, 1998 https://doi.org/10.1126/science.282.5396.1998
  2. L. Holm and C. Sander, 'Protein structure comparison by alignment of distance matrices,' Journal of Molecular Biology, Vol.233, pp. 123-138, 1993 https://doi.org/10.1006/jmbi.1993.1489
  3. B. Dahiya and S. Mayo, 'De Novo protein design: fully automated sequence selection,' Science, Vol. 278, pp. 82-87, 1997 https://doi.org/10.1126/science.278.5335.82
  4. P. E. Bourne and H. Weissig, Structural Bioinformatics, John Wiley & Sons Inc, 2003
  5. K. S. Arun, T. S. Huang, and S. D. Blostein, 'Least-squaresfitting of two 3-D point sets,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.PAMI-9, No.5, pp. 698-700, 1987 https://doi.org/10.1109/TPAMI.1987.4767965
  6. L. Chen, T. Zhou and Y. Tang, 'Protein structure alignment by deterministic annealing,' Bioinformatics, Vol.21, No.1, pp. 51-62, 2005 https://doi.org/10.1093/bioinformatics/bth467
  7. I. A. Jewett, C. C. Huang and T. E. Ferrin, 'MINRMS: an efficient algorithm for determining protein structure similarity using root-meansquared-distance,' Bioinformatics, Vol.19, No.5, pp. 625-634, 2003 https://doi.org/10.1093/bioinformatics/btg035
  8. O. Camoglu, T. Kahveci and A. K. Singh, 'Indexbased Similarity Search for Protein Structure Databases,' Journal of Bioinformatics and Computational Biology, Vol.2, No.1, pp. 99-126, 2004 https://doi.org/10.1142/S0219720004000491
  9. I. Eidhammer and I. Jonassen, 'Protein structure comparison and structure patterns - an algorithmic approach,' ISMB tutorial, 2001
  10. I. N. Shindyalov and P. E. Bourne, 'Protein structure alignment by incremental combinatorial extension (CE) of the optimal path,' Protein Engineering, Vol.11, No.9, pp. 739-747, 1998 https://doi.org/10.1093/protein/11.9.739
  11. W. R. Taylor and C. O. Orengo, 'Protein structure alignment,' Journal of Molecular Biology, Vol.208, pp. 1-22, 1989 https://doi.org/10.1016/0022-2836(89)90084-3
  12. W. R. Taylor, 'Protein structure comparison using iterated double dynamic programming,' Protein Science, Vol.8, pp. 654-665, 1999 https://doi.org/10.1110/ps.8.3.654
  13. I. Lotan and F. Schwarzer, 'Approximation of Protein Structure for Fast Similarity Measures,' Journal of Computational Biology, Vol.11, No.2-3, pp. 299-317, 2004 https://doi.org/10.1089/1066527041410355
  14. J. F. Gibrat, T. Madej and S. H. Bryant, 'Surprising similarities in structure comparison,' Current Opinion Structural Biology, Vol.6, No.3, pp. 377-385, 1996 https://doi.org/10.1016/S0959-440X(96)80058-3
  15. W. Kabsch and C. Sander, 'Dictionary of protein secondary structures: pattern recognition of hydrogen-bonded and geometrical features,' Biopolymers, Vol.22, pp. 2511-2631, 1983
  16. D. Frishman and P. Argos, 'Knowledge-based protein secondary structure assignment,' Proteins, Vol.23, pp. 566-579, 1995 https://doi.org/10.1002/prot.340230412
  17. L. Holm and C. Sander, '3-D lookup: Fast protein structure database searches at 90% reliability,' Proceeding of International Conference on Molecular Biology, pp. 179-187, 1995
  18. R. Nussinov and H. J. Wolfson, 'Efficient detection of three-dimensional structural motifs in biological macromolecules by computer vision techniques,' Proceeding of National Academy of Sciences of the USA, pp. 10495-10499, 1991
  19. M. A. Erdmann, 'Protein Similarity from Knot Theory: Geometric Convolution and Line Weavings,' Journal of Computational Biology, Vol.12, No.6, pp. 609-637, 2005 https://doi.org/10.1089/cmb.2005.12.609
  20. F. N. Abu-Khzam, N. E. Baldwin, M. A. Langston and N. F. Samatova, 'On the Relative Efficiency of Maximal Clique Enumeration Algorithms, with Applications to High-Throughput Computational Biology,' Proceeding of International Conference on Research Trends in Science and Technology, 2005
  21. C. Bron and J. Kerbosch, 'Algorithm 457: finding all cliques of an undirected graph,' Communications of the ACM, Vol.16, pp. 575-577, 1973 https://doi.org/10.1145/362342.362367
  22. V. Stix, 'Finding all maximal cliques in dynamic graphs,' Computational Optimization Application, Vol.27, No.2, pp. 173-186, 2004 https://doi.org/10.1023/B:COAP.0000008651.28952.b6
  23. E. Tomita, A. Tanaka, and H. Takahashi, 'The worst-case time complexity for generating all maximal cliques,' Proceeding of 10th International Computing and Combinatorics Conference (LNCS 3106), pp. 161-170, 2004
  24. RCSB Protein Data Bank (http://www.rcsb.org/pdb)
  25. A. G. Murzin, S. E. Brenner, T. Hubbard and C. Chothia, 'SCOP: a structural classification of proteins database for the investigation of sequences and structures,' Journal of Molecular Biology, Vol.247, pp. 536-540, 1995