도메인 조합 기반 단백질 상호작용 가능성 순위 부여 기법

Protein Interaction Possibility Ranking Method based on Domain Combination

  • 한동수 (한국정보통신대학교 공학부) ;
  • 김홍숙 (한국정보통신대학교 공학부) ;
  • 장우혁 (한국정보통신대학교 공학부) ;
  • 이성독 (한국정보통신대학교 공학부)
  • 발행 : 2005.10.01

초록

인터넷 상에 단백질 및 관련 데이터의 축적에 따라, 도메인에 기반하여 단백질의 상호작용을 계산적으로 예측하는 많은 기법들이 제안되었다. 그러나, 대부분의 기법들이 예측에서 낮은 정확도와 복수개의 단백질 쌍에 대한 상호작용 가능성들 간에 순위 정보를 제공하지 못하는 등의 한계로 인하여 실무 적용에 한계를 가지고 있다. 본 논문에서는 도메인 조합 기반 단백질 상호작용 예측 기법을 재평가하고 상호작용하는 것으로 예측되는 복수개의 단백질 쌍들에서 이들의 상호작용 가능성들 간에 순위를 부여하는 방법을 제시한다. 순위 부여 방법은 도메인 조합에 기반한 단백질 상호작용 예측 방법의 틀 내에서 확률 식을 고안하여 제시한다. 제시된 순위 부여 기법을 사용함으로써, 상호작용을 하는 것으로 예측된 단백질 쌍들간에 상호작용 가능성이 좀 더 높은 것을 구별해 낼 수 있다. 또한 순위 부여 기법의 검증 과정에서 학습에 사용된 단백질 집단의 PIP(Primary Interaction Probability)값과 일치된 PIP값을 가지는 단백질 쌍 그룹의 경우에는, 상호작용 확률과 예측 정확도 사이에 상관관계가 존재함을 확인할 수 있었다.

With the accumulation of protein and its related data on the Internet, many domain based computational techniques to predict protein interactions have been developed. However, most of the techniques still have many limitations to be used in real fields. They usually suffer from a low accuracy problem in prediction and do not provide any interaction possibility ranking method for multiple protein pairs. In this paper, we reevaluate a domain combination based protein interaction prediction method and develop an interaction possibility ranking method for multiple protein pairs. Probability equations are devised and proposed in the framework of domain combination based protein interaction prediction method. Using the ranking method, one can discern which protein pair is more probable to interact with each other than other protein pairs in multiple protein pairs. In the validation of the ranking method, we revealed that there exist some correlations between the interacting probability and the precision of the prediction in case of the protein pair group having the matching PIP(Primary Interaction Probability) values in the interacting or non interacting PIP distributions.

키워드

참고문헌

  1. J. R. Bock and D. A. Gough, Prediction of protein-protein interaction from primary structure, Bioinformatics, 17, 455-460, 2001 https://doi.org/10.1093/bioinformatics/17.5.455
  2. J. Park, M. Lappe and S. A. Teichmann, Map ping protein family interactions: intramolecular and intermolecular protein family interaction repertoires in the PDB and yeast. J. Mol. BioI., 307, 929-938, 2001 https://doi.org/10.1006/jmbi.2001.4526
  3. E. Sprinzak and H. Margalit, Correlated sequence-signatures as markers of protein-protein interaction. J. Mol. Biol., 311, 681-692, 2001 https://doi.org/10.1006/jmbi.2001.4920
  4. J. Wojcik and V. Sch?chter, Protein-Protein interaction map inference using interacting domain profile pairs. Bioinformatics, 17 Suppl., S296-S305, 2001
  5. A.J. Enright and C.A. Ouzounis, Chapter 33: Protein-Protein Interactions-A Molecular Cloning Manual, Cold Spring Harbor Laboratory Press, Cold spring Harbor, NY, 2002
  6. S. Ng, Z. Zhang and S. Tan, Integrative approach for computationally inferring protein domain interactions. Bioinformatics, 19, 923-929, 2003 https://doi.org/10.1093/bioinformatics/btg118
  7. M. Deng, S. Metah, F. Sun and T. Chen, Inferring Domain-Domain Interactions from ProteinProtein Interactions, Genome Research, 12, 1540-1548, 2002 https://doi.org/10.1101/gr.153002
  8. D. Han, H. Kim, J. Seo, and W. Jang. Domain Combination based Probabilistic Framework for Protein-Protein Interaction Prediction. Genome Informatics, 14: 250-259, 2003
  9. 한동수, 서정민, 김홍숙, 장우혁, 도메인 조합 기반 단백질-단백질 상호작용 확률 예측 틀, 정보과학회 논문지 : 컴퓨팅의 실제, 10권 4호 299-304, 2004
  10. A. G. Murzin, S. E. Brenner, T. Hubbard and C. Chothia, SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol., 247, 536-540, 1995 https://doi.org/10.1016/S0022-2836(05)80134-2
  11. L. Holm, and C. Sander, The FSSP database: fold classification based on structure-structure alignment of proteins. Nucleic Acids Res., 24, 206-210, 1996 https://doi.org/10.1093/nar/24.1.206
  12. F. M. G. Pearl, D. Lee, J. E. Bray, I. Sillitoe, A. E. Todd, A. P. Harrison, J. M. Thornton and C. A. Orengo, Assigning genomic sequences to CATH. Nucleic Acids Research, 28, 277-282, 2000 https://doi.org/10.1093/nar/28.1.277
  13. N. Goffard, V. Garcia, F. Iragne, A. Groppi and A. de Daruvar, IPPRED: Server for Proteins Interactions Inference. Bioinformatics, 19, 903-904, 2003 https://doi.org/10.1093/bioinformatics/btg091
  14. S. Dohkan, A. Koike and T. Takagi, Prediction of Protein-Protein Interactions Uisng Support Vector Machines, Fourth IEEE Symposium on Bioinformatics and Bioengineering, 576-583, May, 2004 https://doi.org/10.1109/BIBE.2004.1317394
  15. I. Xenarios, E. Fernandez, L. Salwinski, X. J. Duan, M. J. Thompson, E. M. Marcotte and D. Eisenberg, DIP: The Database of Inter acting Proteins: 2001 update. Nucleic Acids Res., 29, 239-241, 2001 https://doi.org/10.1093/nar/29.1.239
  16. R. Apweiler, T. K. Attwood, A. Bairoch, A. Bateman, E. Birney, M. Biswas, P. Bucher, L. Cerutti, F. Corpet, M. D. Croning, R. Durbin, L. Falquet, W. Fleischmann, J. Gouzy, H. Hermjakob, N. Hulo, I. Jonassen, D. Kahn, A. Kanapin, Y. Karavidopoulou, R. Lopez, B. Marx, N. J. Mulder, T. M. Oinn, M. Pagni and F. Servant, The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res., 29, 37-40, 2001 https://doi.org/10.1093/nar/29.1.37
  17. A. J. Enright, I. Iliopoulos, N. C. Kyrpides and C. A. Ouzounis, Protein interaction maps for complete genomes based on gene fusion events. Nature, 402, 86-90, 1999 https://doi.org/10.1038/47056
  18. E. M. Marcotte, M. Pellegrini, H. L. Ng, D. W. Rice, T. O. Yeates and D. Eisenberg, Detecting protein function and protein-protein interactions from genome sequences. Science, 285, 751-753, 1999 https://doi.org/10.1126/science.285.5428.751