분산 생물정보 DB 에 대한 GO 기반의 통합 시맨틱 질의 기법

Integrated Semantic Querying on Distributed Bioinformatics Databases Based on GO

  • 박형우 (서울대학교 전기. 컴퓨터공학부) ;
  • 정준원 (서울대학교 전기. 컴퓨터공학부) ;
  • 김형주 (서울대학교 전기. 컴퓨터공학부)
  • 발행 : 2006.08.01

초록

최근 여러 생물학 연구 집단들은 연구의 효율 향상을 위해 그들의 연구 결과를 서로 공유하기 위한 노력을 하고 있다. 뿐만 아니라, 공통의 어휘를 이용하여 유전자의 기능을 기술하기 위해 통제된 어휘들로 이루어진 Gene Ontology(GO) 라는 온툴로지를 구축하였다. 하지만 현재까지도 각 연구 집단들의 데이타는 분산되어 있고, 기존의 시스템들은 이처럼 분산된 데이타들에 대한 통합 질의를 지원하지 않고 있을 뿐 아니라, 각 연구 집단의 독자적인 어휘들과 GO 와의 대응 관계에 대한 의미가 명확하게 기술되어 있지 않아 통합 시맨틱 질의가 근본적으로 불가능한 상태이다. 본 논문에서는 대응 관계의 의미를 결정하는 기법과, 통합 시맨틱 질의를 지원하는 인터페이스를 제안하였다. 먼저, 문자열 규칙과 다중도 분석 등을 통해 이러한 대응 관계의 의미를 반자동으로 결정해 주고 이렇게 결정된 대응 관계의 의미를 GO 와 통합하여 통합 온톨로지를 생성해 주는 AutoGOA 시스템을 제안하였다. 또한, 대표적인 메타데이타 기술 모델인 RDF 모델을 이용하여 여러 데이타들을 통합하고 이렇게 생성된 통합 온툴로지를 이용하여 통합 시맨틱 질의를 지원하는 인터페이스인 GOGuide II 를 제안하였다.

Many biomedical research groups have been trying to share their outputs to increase the efficiency of research. As part of their efforts, a common ontology named Gene Ontology(GO), which comprises controlled vocabulary for the functions of genes, was built. However, data from many research groups are distributed and most systems don't support integrated semantic queries on them. Furthermore, the semantics of the associations between concepts from external classification systems and GO are still not clarified, which makes integrated semantic query infeasible. In this paper we present an ontology matching and integration system, called AutoGOA, which first resolves the semantics of the associations between concepts semi-automatically, and then constructs integrated ontology containing concepts from GO and external classification systems. Also we describe a web-based application, named GOGuide II, which allows the user to browse, query and visualize integrated data.

키워드

참고문헌

  1. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson IE, Ringwald M, Rubin GM, Sherlock G. Gene Ontology: tool for the unification of biology. Nature Genet 25:25-29, 2000 https://doi.org/10.1038/75556
  2. Amos Bairoch, Rolf Apweiler, Cathy H. Wu, Winona C. Barker, Brigitte Boeckmann, Sercnella Ferro, Elisabeth Gasteiger, Hongzhan Huang, Rodrigo Lopez, Michele Magrane, Maria J, Martin, Darren A. Natale, Claire O'Donovan, Nicole Redaschi, Lai-Su L. Yeh. The Universal Protein Resource(UniProt). Nucleic Acids Research 33:D154-D159, 2005 https://doi.org/10.1093/nar/gki070
  3. Joshi-Tooe G, Gillespie M, Vastrik I, D'Eustachio P, Schmidt E, de Bono B, Jassal B, Gopinath GR, Wu GR, Matthews L, Lewis S, Birney E, Stein L. Reactome: a knowledgebase of biological pathways. Nucleic Acids Research 33:D428-432, 2005 https://doi.org/10.1093/nar/gki072
  4. AmiGO. http://www.godatabase.org/cgi-bin/amigo/go.cgi Gene Ontology Consortium, 1998
  5. Elizabeth Shoop, Paulo Casaes, Getiria Onsongo, Lisa Lesnett, Erla Osk Petursdottir, Edward Kofi Yeboah Donkor, Dennis Tkach, Michael Cosimini. Data exploration tools for the Gene Ontology database. Bioinformatics 20(18):3442-3454, 2004 https://doi.org/10.1093/bioinformatics/bth425
  6. J.W. Jung, H.W. Park, D.H. Lim, K.P. Lee, H.J. Kim. GO Guide: Browser for Gene Ontology, KDBC 5:44-51, 2005
  7. Porter MF. An algorithm for suffix stripping. Program 14(3):130-137, 1980 https://doi.org/10.1108/eb046814
  8. Diana Maynard, Sophia Ananiadou. Term extraction using a similarity-based approach. In Recent Advances in Computational Terminology, 1999