DOI QR코드

DOI QR Code

Genbank 분석을 통한 이종의 콘텐츠 연계 방안 설계

Design of Heterogeneous Content Linkage Method by Analyzing Genbank

  • 안부영 (한국과학기술정보연구원 슈퍼컴퓨팅본부) ;
  • 이명선 (한국과학기술정보연구원 슈퍼컴퓨팅본부) ;
  • 김지영 (한국과학기술정보연구원 정보유통본부) ;
  • 오충식 (한국과학기술정보연구원 정보화전략팀)
  • 투고 : 2010.04.21
  • 심사 : 2010.06.09
  • 발행 : 2010.06.28

초록

유전자 서열정보는 그 양이 방대하고 다양하기에 DB 구축 및 분석을 위하여 고성능 컴퓨터 및 정보기술 기법이 필요하다. 그래서 컴퓨터를 활용하여 생물학적 데이터를 수집, 관리, 저장, 평가, 분석하는 연구분야인 생명정보학이라는 학문이 지속적으로 발전하고 있다. 이런 생명정보학 발전에 발맞추어 한국과학기술정보연구원(KISTI)에서는 정보기술 기반 생명정보 인프라를 구축하여 생명과학 연구자들에게 제공하고 있다. 본 논문에서는 생명정보 DB 중에서 전세계 연구자들이 가장 많이 이용하는 유전자 DB인 Genbank의 reference 필드를 분석하여 한국과학기술정보연구원(KISTI)의 과학기술정보 통합서비스인 NDSL (http://NDSL.kr)과의 연계 방안을 제안하고자 한다. 이를 위하여 NCBI FTP 사이트에서 Genbank 데이터를 수집하여 Genbank 텍스트 파일을 유전자 기본정보와 참고정보로 나누어 DB로 재구축하였으며 Genbank reference 필드에서 논문 및 특허 정보 추출을 통한 새로운 테이블을 생성하였고, KISTI의 논문 DB (http://scholar.ndsl.kr), 특허 DB (http://patent.ndsl.kr)와의 연계 방안을 제시하였다.

As information on gene sequences is not only diverse but also extremely huge in volume, high-performance computer and information technology techniques are required to build and analyze gene sequence databases. This has given rise to the discipline of bioinformatics, a field of research where computers are utilized to collect, to manage, to save, to evaluate, and to analyze biological data. In line with such continued development in bioinformatics, the Korea Institute of Science and Technology Information (KISTI) has built an infrastructure for the biological information, based on the information technology, and provided the information for researchers of bioscience. This paper analyzes the reference fields of Genbank, the most frequently used gene database by the global researchers among the life information databases, and proposes the interface method to NDSL which is the science and technology information integrated service provided by KISTI. For these, after collecting Genbank data from NCBI FTP site, we rebuilt the database by separating Genbank text files into the basic gene data and the reference data. So new tables are generated through extracting the paper and patent information from Genbank reference fields. Then we suggest the method of connection with the paper DB and the patent DB operated by KISTI.

키워드

참고문헌

  1. 안부영, 한정민, 한건, 이상호, “생명정보 연계검색 인터페이스 설계에 관한 연구”, 제29회 한국정보처리학회 춘계학술발표대회 논문집, 제15권, 제1호, pp.407-409, 2008.
  2. 이상기, 최희윤, 이태석, 한희준, 현미환, 예용희, 김선태, “이종 학술콘텐트 간 연계 및 융합 사례 연구 : KISTI CLICK 중심”, 한국비블리아학회 제19권, 제1호, 2008.
  3. 안부영, 오충식, 생명정보 콘텐츠 업데이트가이드 v. 2.0, 한국과학기술정보연구원, 2008.
  4. NCBI(Genbank) FTP 사이트, ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt
  5. KISTI 바이오인포매틱스 웹사이트, http://www.ccbb.re.kr
  6. KISTI 과학기술정보 통합서비스 웹사이트, http://www.ndsl.kr