DOI QR코드

DOI QR Code

A Study on Development of GenBank-based Prototype System for Linking Heterogeneous Content

GenBank를 활용한 이종의 콘텐트 연계 프로토타입 시스템 개발 연구

  • 안부영 (한국과학기술정보연구원 차세대연구환경개발실) ;
  • 신용주 (한국과학기술정보연구원 지식기반실) ;
  • 김대환 (한국과학기술정보연구원 지식기반실)
  • Published : 2009.12.30

Abstract

Among biological information, GenBank, provided by the National Center for Biotechnology Information (NCBI)of the United States, is a representative database on genetic information and is the most widely used by researchers around the world. Korea Institute of Science and Technology Information (KISTI) visits NCBI on a regular basis and downloads the latest version of GenBank to reorganize the information gathered there into a database. This database is provided for Korean researchers of science and technology through the Bio-KRISTAL search engine, developed by KISTI. This study aims to design a service model that links information on papers, patents, and biodiversity and other contents of NDSL, an integrated service on scientific and technological information run by KISTI, with GenBank's reference and organism fields and to develop a prototype system. For this purpose, this paper explores the possibility of a linkage and convergence service between heterogeneous content by: (a) collecting GenBank data from NCBI's FTP site; (b) dividing GenBank text files into basic and reference genetic information and restructuring them into a database; (c) extracting article and patent information from the GenBank reference fields to generate new tables; and (d) leveraging data mapping technology to implement a prototype system where GenBank and NDSL data are interlinked and provided.

생명정보 중에서 미국의 국립생명공학정보센터(NCBI)에서 제공하는 GenBank는 전 세계적으로 연구자들이 가장 많이 사용하는 대표적인 유전자정보 데이터베이스이다. 한국과학기술정보연구원(KISTI)은 GenBank의 최신 버전을 데이터베이스로 재구축하여 Bio-KRISTAL 검색엔진을 이용하여 국내 생명과학 연구자들에게 제공하고 있다. 본 논문에서는 GenBank 데이터베이스를 활용하여 과학기술정보 통합서비스인 NDSL의 논문정보, 특허정보, 생물다양성정보 등의 콘텐트와 GenBank reference 필드와 organism 필드를 상호 연계하는 서비스 모델을 설계하고 프로토타입 시스템을 개발하였다. 이를 위하여 1) NCBI FTP 사이트에서 GenBank 데이터를 수집하여, 2) GenBank 텍스트 파일을 유전자 기본정보와 참고정보로 나누어 데이터베이스로 재구축하여, 3) GenBank reference 필드에서 논문 및 특허 정보 추출을 통한 새로운 테이블을 생성하여, 4) 데이터 맵핑 기술을 이용하여 GenBank 데이터와 NDSL 데이터가 상호 연계되어 서비스되는 프로토타입 시스템을 구현하여 이종의 콘텐트간 연계 및 융합 서비스의 가능성을 확인하였다.

Keywords

References

  1. 김영기, 정종근, 이수상. 2007. 주제기반 온라인 학술 커뮤니티의 구축 방향. 정보관리학회지, 24(4): 5-31. https://doi.org/10.3743/KOSIM.2007.24.4.005
  2. 안부영, 오충식. 2008. 생명정보 콘텐트 업데이트 가이드 v. 2.0. 대전: 한국과학기술정보연구원.
  3. 안부영, 한정민, 한건, 이상호. 2008. 생명정보 연계검색 인터페이스 설계에 관한 연구. 제29회 한국정보처리학회 춘계학술발표대회 논문집, 15(1): 407-409.
  4. 이상기, 최희윤, 김선태, 이태석, 한희준, 현미환, 예용희. 2008. 이종 학술콘텐트간 연계융합 사례연구-KISTI CLICK 중심. 한국비블리아, 19(1): 5-17.
  5. 이수정,용환 승. 2004. 웹서비스 기반 바이오 서열정보 데이터베이스 및 통합검색시스템개발. 한국정보처리학회논문지, 11D(4): 755-764.
  6. 과학기술정보 통합서비스 웹사이트. [인용 2009. 09.01]. .
  7. 국가생물다양성정보포털 웹사이트. [인용 2009. 09.01]. .
  8. 무기결정구조 DB(ICSD DB) 웹사이트. [인용 2009.09.01]. .
  9. 플라즈마물성 DB(PLASMA DB) 웹사이트. [인용 2009.09.01]. .
  10. 특허청 전통지식포털 웹사이트. [인용 2009. 09.01]. .
  11. 화합물 DB(CHEM DB) 웹사이트. [인용 2009. 09.01]. .
  12. 한국생물다양성정보기구 웹사이트. [인용 2009.09.01]. .
  13. KISTI 바이오인포매틱스 웹사이트. [인용 2009.09.01]. .
  14. KISTI 특허정보 웹사이트. [인용 2009.09.01]. .
  15. KISTI 학술정보 웹사이트. [인용 2009.09.01]. .
  16. NCBI 웹사이트. [인용 2009.09.01]. .