DOI QR코드

DOI QR Code

구문관계에 기반한 유전자 상호작용 인식

Detection of Gene Interactions based on Syntactic Relations

  • 김미영 (성신여자대학교 컴퓨터정보학부)
  • 발행 : 2007.10.31

초록

단백질이나 유전자들 간의 상호작용 인식은 생물학적 현상의 기술에 있어서 필수적이고, 이러한 상호작용의 네트웍 파악은 생물학 접근의 시작이라고 할 수 있다. 최근에, 대량의 생물학 관련 문서로부터 자연언어처리 기술을 사용하여 이러한 정보를 추출하려는 연구들이 많이 등장했다. 또한 이전 연구들은 언어학적 정보가 문서로부터 유전자 상호작용을 자동으로 추출하는 데 있어서 유용하다고 주장하고 있다. 하지만 기존의 방법들은 정확률에 비해 재현율이 많이 낮아서 성능이 그다지 좋지 못했다. 정확률의 감소 없이 재현율의 성능향상을 위해, 이 논문은 생물학관련 문서에서 구문관계에 기반하여 유전자 상호작용을 인식하는 방법을 제안한다. 생물학 도메인에 관련된 전문지식 없이, 우리의 방법은 단지 적은 양의 학습데이터를 사용하여 효과적인 성능을 보인다. LLL05(ICML05 Workshop on Learning Language in Logic)에서 제공한 데이터 포맷을 그대로 사용하여, 상호작용하는 두 유전자 중 작용의 주체가 되는 유전자를 에이전트라 하고 상호 작용의 대상이 되는 유전자를 타겟이라 한다. 본 논문에서 제안하는 첫 단계에서, 에이전트와 타겟 유전자에 대한 유전자-전이 구문관계를 인식한다. 두 번째 단계에서, 유전자 간의 상호작용이 있음을 암시하는 용언리스트를 구축한다. 마지막 단계에서, 상호작용하는 것으로 인식된 두 유전자 중 어느 것이 에이전트이고 타겟인지를 판단하기 위해 구문관계의 방향 정보를 학습한다. LLL05 데이터를 사용한 실험결과에서, 본 논문에서 제안한 방법이 학습 데이터에 대해서는 88%의 F-measure 성능을 보였고, 테스트 데이터에 대해서는 70.4%의 F-measure 성능을 보였다. 이 결과는 기존의 방법들보다 훨씬 더 좋은 성능이다. 우리는 성능에 대한 각 단계의 공헌도를 실험하여, 첫 단계는 재현율 향상에 기여를 하고 두 번째와 세 번째 단계는 정확률 향상에 기여했음을 보인다.

Interactions between proteins and genes are often considered essential in the description of biomolecular phenomena and networks of interactions are considered as an entre for a Systems Biology approach. Recently, many works try to extract information by analyzing biomolecular text using natural language processing technology. Previous researches insist that linguistic information is useful to improve the performance in detecting gene interactions. However, previous systems do not show reasonable performance because of low recall. To improve recall without sacrificing precision, this paper proposes a new method for detection of gene interactions based on syntactic relations. Without biomolecular knowledge, our method shows reasonable performance using only small size of training data. Using the format of LLL05(ICML05 Workshop on Learning Language in Logic) data we detect the agent gene and its target gene that interact with each other. In the 1st phase, we detect encapsulation types for each agent and target candidate. In the 2nd phase, we construct verb lists that indicate the interaction information between two genes. In the last phase, to detect which of two genes is an agent or a target, we learn direction information. In the experimental results using LLL05 data, our proposed method showed F-measure of 88% for training data, and 70.4% for test data. This performance significantly outperformed previous methods. We also describe the contribution rate of each phase to the performance, and demonstrate that the first phase contributes to the improvement of recall and the second and last phases contribute to the improvement of precision.

키워드

참고문헌

  1. D. Otasek. K. Brown, I. Jurisica, 'Confirming protein-protein interactions by text mining', SIAM Conference on Text Mining, Bethesda, Maryland, April 2006
  2. J.C.Park, H.S.Kim, J.j.Kim, 'Bidirectional Incremental Parsing for Automatic Pathway Identification with Combinatory Categorial Grammar', Pacific Symposium on Biocornputing (PSB), pp. 396-407, Hawaii, USA, 2001
  3. C.Blaschke, M.A.Andrade, C.Ouzounis, and A.Valencia, 'Automatic extraction of biological information from scientific text: protein-protein interactions', Proceedings of the seventh international conference on Intelligent Systems for Molecular Biology (lSMB 99), pp. 60-67, 1999
  4. J. Hakenberg, C. Plake, U. Leser, H. Kirsch, and D. R-Schuhmann, 'LLL05 Challenge: Genic Interaction Extraction - Identification of Language Patterns Based on Alignment and Finite State Automata', Proceedings of ICML05 workshop on Learning Language in Logic (LLL05), pp.38-45, 2005
  5. M. Huang, X. Zhu, Y. Hao, D. G. Payan, K. Qu, and M. Li, 'Discovering patterns to extract protein-protein interactions from full texts', Bioinformatics, Vol. 20, pp.3604-3612, 2004 https://doi.org/10.1093/bioinformatics/bth451
  6. N. Daraselia, A. Yuryev, S. Egorov, S. Novichkova, A. Nikitin, and I. Mazo, 'Extracting human protein interactions from medline using a full-sentence parser', Bioinformatics, Vol. 20, pp.604-611 https://doi.org/10.1093/bioinformatics/btg452
  7. B. Stapley, L. Kelley, and M. Sternberg, 'Predicting the sub-cellular location of proteins from text using support vector machines', Proceedings of the Pacific Symposium on Biocomputing, pp.374-385, 2002
  8. B. Rosario, and M. Hearst, 'Classifying semantic relations in bioscience texts', Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics(ACL), pp. 430-437, 2004 https://doi.org/10.3115/1218955.1219010
  9. J. Xiao, J. Su, G. Zhou, and C. Tan, 'Protein-Protein Interaction Extraction: A Supervised Learning Approach', Proceeding of the Symposium on Semantic Mining in Biomedicine, pp.51-59, 2005
  10. J. Saric, L. Jensen, R. Ouzounova, I. Rojas, and P. Bork, 'Large-scale Extraction of Protein/Gene Relations for Model Organisms', Proceeding of the Symposium on Semantic Mining in Biomedicine, pp.50, 2005
  11. M. A. Greenwood, M. Stevenson, Y. Guo, H. Harkema, and A. Roberts, 'Automatically Acquiring a Linguistically Motivated Genic Interaction Extraction System', Proceedings of ICML05 workshop on Learning Language in Logic (LLL05), 2005
  12. M. Goadrich, L. Oliphant, J. Shavlik, 'Learning to Extract Genie Interactions Using Gleaner', Proceedings of ICML05 workshop on Learning Language in Logic (LLL05), 2005
  13. L. Popelinsky, J. Blatak, 'Learning genic interactions without expert domain knowledge: Comparison of different ILP algorithms', Proceedings of ICML05 workshop on Learning Language in Logic (LLL05), 2005
  14. S. Katrenko, M. S. Marshall, M. Roos, and P. Adriaans, 'Learning Biological Interactions from Medline Abstracts', Proceedings of ICML05 workshop on Learning Language in Logic (LLL05), 2005
  15. S. Riedel, and E. Klein, 'Genic Interaction Extraction with Semantic and Syntactic Chains', Proceedings of ICML05 workshop on Learning Language in Logic (LLL05), 2005
  16. D. Lin, 'Dependency-based evaluation of MINIPAR', In Workshop on the Evaluation of Parsing Systems, 1998
  17. P. Uetz, R. L. Finley, Jr. 'From protein networks to biological systems', FEBS Lett 579:1821-182, 2005 https://doi.org/10.1016/j.febslet.2005.02.001
  18. Rinaldi F, Schneider G, Kaljurand K, Hess M, Andronis C, Konstanti O, Persidis A: 'Mining of Functional Relations between Genes and Proteins over Biomedical Scientific Literature using a Deep-Linguistic Approach' Artificial Intelligence in Medicine, Vol. 39, Issue 2, pp. 127-136, 2007 https://doi.org/10.1016/j.artmed.2006.08.005