미생물 유전체 프로젝트 수행을 위한 Base-Calling 오류 감지 프로그램 및 알고리즘 개발

A Base-Calling Error Detection Program for Use in Microbial Genome Projects

  • 이대상 (한국폴리텍 바이오대학 바이오생명정보과) ;
  • 박기정 ((주)스몰소프트 정보기술연구소)
  • Lee, Dae-Sang (Department of Bioinformatics, Korea Bio Polytechnic) ;
  • Park, Kie-Jung (Information Technology Institute, SmallSoft Co. Ltd.)
  • 발행 : 2007.12.30

초록

미생물 유전체 프로젝트를 수행하는 과정에서 발생하는 base-calling 오류를 포함하는 것으로 의심되는 유전자나 염기서열의 리스트를 보여 주는 프로그램을 개발하였다. 이 프로그램의 모듈들은 base-calling 오류로 의심되는 염기들의 후보군을 유전체 프로젝트를 수행하는 주요 단계에서 감지할 수 있도록 하였다. 이들 프로그램들은 초기 단계에서는 Phrap 파일에 존재하는 contig assembly 정보를 이용하여 base-calling 오류를 감지하는 모듈, 중간 단계에서는 상동성 검색 결과물로부터 frame skift 돌연변이의 진위 유무를 분석할 수 있는 모듈, 마지막 단계에서는, 이미 발표된 미생물 유전체와 같은 종으로부터 유래된 균주에 대한 유전체 프로젝트를 수행할 경우, 비교유전체 분석 기법을 활용하여 base-calling 오류 가능성이 높은 서열의 후보군을 추출하여 해당서열의 크로마토그램파일을 유전체 연구자가 볼 수 있는 모듈로 구성되어 있다.

In this paper, we have developed base-calling error detection program and algorithm which show the list of the genes or sequences that are suspected to contain base-calling errors. Those programs detect dubious bases in a few aspects in the process of microbial genome project. The first module detects base-calling error from the Phrap file by using contig assembly information. The second module analyzes frame shift mutation if it is originated from real mutation or artifact. Finally, in the case that there is control microbial genome annotation information, the third module extracts and shows the candidate base-calling error list by comparative genome analysis method.

키워드

참고문헌

  1. 이대상, 태홍석, 박기정. 2003. 유전정보분석시스템. 전자공학회지 30, 68-78
  2. Altschul, S.F., T.L. Madden, A.A. Schaffer, J. Zhang, Z. Zhang, W. Miller, and D.J. Lipman. 1997. Gapped BLAST and PSIBLAST: a new generation of protein database search programs. Nucleic Acids Res. 25, 3389-3402 https://doi.org/10.1093/nar/25.17.3389
  3. Delcher, A.L., D. Harmon, S. Kasif, O. White, and S.L. Salzberg. 1999. Improved microbial gene identification with GLIMMER. Nucleic Acids Res. 27, 4636-4641 https://doi.org/10.1093/nar/27.23.4636
  4. Ewing, B. and P. Green. 1998. Base-calling of automated sequencer traces using phred. Genome Research 8, 186-194 https://doi.org/10.1101/gr.8.3.186
  5. Green, P. Phrap Documentation: Algorithms, http://www.phrap.org
  6. Tatusov, R.L., D.A. Natale, I.V. Garkavtsev, T.A. Tatusova, U.T. Shankavaram, B.S. Rao, B. Kiryutin, M.Y. Galperin, N.D. Fedorova, and E.V. Koonin. 2001. The COG database: new developments in phylogenetic classification of proteins from complete a tool for genome-scale analysis of protein functions and evolution. Nucleic Acids Res. 29, 22-28 https://doi.org/10.1093/nar/29.1.22