Performance Enhancement of Tree Kernel-based Protein-Protein Interaction Extraction by Parse Tree Pruning and Decay Factor Adjustment

구문 트리 가지치기 및 소멸 인자 조정을 통한 트리 커널 기반 단백질 간 상호작용 추출 성능 향상

  • 최성필 (한국과학기술정보연구원 정보기술연구실) ;
  • 최윤수 (한국과학기술정보연구원 정보기술연구실) ;
  • 정창후 (한국과학기술정보연구원 정보기술연구실) ;
  • 맹성현 (한국과학기술원 전산학과)
  • Published : 2010.02.15

Abstract

This paper introduces a novel way to leverage convolution parse tree kernel to extract the interaction information between two proteins in a sentence without multiple features, clues and complicated kernels. Our approach needs only the parse tree alone of a candidate sentence including pairs of protein names which is potential to have interaction information. The main contribution of this paper is two folds. First, we show that for the PPI, it is imperative to execute parse tree pruning removing unnecessary context information in deciding whether the current sentence imposes interaction information between proteins by comparing with the latest existing approaches' performance. Secondly, this paper presents that tree kernel decay factor can play an pivotal role in improving the extraction performance with the identical learning conditions. Consequently, we could witness that it is not always the case that multiple kernels with multiple parsers perform better than each kernels alone for PPI extraction, which has been argued in the previous research by presenting our out-performed experimental results compared to the two existing methods by 19.8% and 14% respectively.

본 논문에서는 기존의 연구에서 시도되었던 것과는 달리, 복잡하고 추출하기가 어려운 다양한 형태의 자질 및 단서 정보가 필요 없는 합성곱 구문 트리 커널 기반의 단백질 간 상호작용 추출 기법을 소개한다. 이 기법의 특징은 단백질 이름 쌍을 포함한 상호작용 포함 후보 문장에 대한 구문 트리만을 이용하여 추출을 시도한다는 것이며 부가적인 자질이나 커널 함수가 불필요하다는 장점이 있다. 이를 기반으로 본 논문의 연구 성과는 다음과 같다. 첫째, 단백질 간 상호작용 추출에 있어서 구문 트리 커널을 적용할 경우 불필요한 문맥 정보를 효과적으로 제거하는 구문 트리 가지치기 작업이 필수적임을 기존 연구 결과와의 성능 비교로써 증명한다. 둘째, 동일한 학습 조건에서 구문 트리 커널의 소멸 인자(decay factor)는 평활 인자(smoothing factor)로서 중요한 역할을 하며, 성능 변화의 핵심 요소임을 보인다. 특히 학습 집합의 규모에 따라서 소멸인자가 성능에 미치는 영향력이 상이한 패턴으로 나타남을 제시하였다. 결론적으로 기존의 최신 연구결과로서 주장한 "단일 커널보다 혼합 커널의 성능이 더 뛰어나다"라는 가설이 항상 성립하는 것은 아니라는 것을 합성곱 구문 트리 커널 단독으로 적용하여 높은 성능을 나타냄으로써 보여주었다. 동일한 조건으로 수행한 실험에서 기존의 두 연구 결과에 비해 19.8%, 14%의 성능 개선을 나타내었다.

Keywords

References

  1. Miwa M., Sætre R., Miyao Y., Tsujii J., "Proteinprotein interaction extraction by leveraging multiple kernels and parsers," International Journal of Medical Informatics, 2009.
  2. Pyysalo S., Airola A., Heimonen J., Bjorne J., Ginter F., Salakoski T., "Comparative analysis of five protein-protein interaction corpora," BMC Bioinformatics, vol.9, no.S6, 2008.
  3. Airola A., Pyysalo S., Bjorne J., Pahikkala T., Ginter F., Salakoski T., "All-paths graph kernel for protein-protein interaction extraction with evaluation of cross-corpus learning," BMC Bioinformatics, vol.9, no.S2, 2008.
  4. Bunescu R., Ge R., Kate R., Marcotte E., Mooney R., Ramani, A., Wong, Y., "Comparative Experiments on Learning Information Extractors for Proteins and their Interactions," Artif. Intell. Med., Summarization and Information Extraction from Medical Documents, vol.33, pp.139-155, 2005.
  5. Pyysalo S., Ginter F., Heimonen J., Bjorne J., Boberg J., Jarvinen J., Salakoski T., "BioInfer: a corpus for information extraction in the biomedical domain," BMC Bioinformatics, vol.8, no.50, 2007.
  6. Fundel K., Kuffner R., Zimmer R., "RelEx-Relation extraction using dependency parse trees," Bioinformatics, vol.23, pp.365-371, 2007. https://doi.org/10.1093/bioinformatics/btl616
  7. Ding J., Berleant D., Nettleton D., Wurtele E., "Mining MEDLINE: abstracts, sentences, or phrases?" Proceedings of PSB'02, pp.326-337, 2002.
  8. Nedellec C., "Learning language in logic-genic interaction extraction challenge," Proceedings of LLL'05, pp.31-37, 2005.
  9. Pyysalo S., Sætre R., Tsujii J., Salakoski T., "Why Biomedical Relation Extraction Results are Incomparable and What to do about it," Proceedings of SMBM'08, 2008.
  10. Blaschke C., Andrade M., Ouzounis C., Valencia A., "Automatic extraction of biological information from scientific text: protein-protein interactions," Proc. Int. Conf. Intell. Syst. Mol. Biol., pp.60-67, 1999.
  11. Culotta A., Sorensen J., "Dependency tree kernels for relation extraction," ACL '04: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics, 2004.
  12. Bunescu R. C., Mooney R. J., "A shortest path dependency kernel for relation extraction," HLT '05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp.724-731, 2005.
  13. Bunescu R. C., Mooney R. J., "Subsequence Kernels for Relation Extraction," NIPS-2005, 2005.
  14. GuoDong Z., Zhang M., Ji D., QiaoMing Z., "Tree kernel-based relation extraction with context-sensitive structured parse tree information," Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP/ CoNLL-2007), pp.728-736, 2007.
  15. Ono T., Hishigaki H., Tanigam A., Takagi T., "Automated extraction of information on proteinprotein interactions from the biological literature," Bioinformatics, vol.17, no.2, pp.155-161, 2001. https://doi.org/10.1093/bioinformatics/17.2.155
  16. Vishwanathan S. V. N., Smola A. J., "Fast Kernels for String and Tree Matching," Advances in Neural Information Processing Systems, MIT Press, vol.15, pp.569-576, 2003.
  17. Collins M., Duffy N., "Convolution Kernels for Natural Language," NIPS-2001, 2001.
  18. Moschitti A., "Making tree kernels practical for natural language learning," Proceedings of EACL'06, Trento, Italy, 2006.