Development of an X-window Program, XFAP, for Assembling Contigs from DNA Fragment Data

DNA 염기 서열로부터 contig 구성을 위한 프로그램 XFAP의 개발

  • Lee, Byung-Uk (Genome Center, Korea Research Institute of Bioscience and Biotechnology) ;
  • Park, Kie-Jung (Genome Center, Korea Research Institute of Bioscience and Biotechnology) ;
  • Kim, Seung-Moak (Genome Center, Korea Research Institute of Bioscience and Biotechnology)
  • 이병욱 (생명공학연구소 유전체사업단) ;
  • 박기정 (생명공학연구소 유전체사업단) ;
  • 김승목 (생명공학연구소 유전체사업단)
  • Received : 1998.02.05
  • Accepted : 1998.04.06
  • Published : 1998.06.01

Abstract

Fragment assembly problem is to reconstruct DNA sequence contigs from a collection of fragment sequences. We have developed an efficient X-window program, XFAP, for assembling DNA fragments. In the XFAP, the dimer frequency comparison method is used to quickly eliminate pairs of fragments that can not overlap. This method takes advantage of the difference of dimer frequencies within the minimum acceptable overlap length in each fragment pair. Hirschberg algorithm is applied to compute the maximal-scoring overlapping alignment in linear space. The perfomance of XFAP was tested on a set of DNA fragment sequences extracted from long DNA sequences of GenBank by a fragmentation program and showed a great improvement in execution time, especially as the number of fragments increases.

'Contig 구성문제'는 random sequencing 단편들로부터 DNA 염기 서열의 정보를 밝혀낼 경우 발생하는 문제이다. 본 연구에서는 이러한 contig 구성문제를 해결하기 위한 알고리즘을 구성하였으며, X-window 응용 프로그램인 XFAP을 개발하였다. XFAP에서는 dimer 빈도 비교 방법을 사용하여 중첩 가능성이 없는 단편을 효과적으로 제거하였다. 이 방법은 단편 쌍 중첩에서 최소 수용 중첩 길이 내의 각 단편 사이의 dimer 빈도 차이를 이용하여 단편 쌍을 선별하는 것이다. 또한 단편 쌍 최대치 정렬 과정의 메모리 사용량을 줄이기 위해서, Myers 알고리즘을 적용하여 linear space에서 최대치 정렬을 구하는 방법을 사용하였다. 그리고 본 프로그램은 사용자들에게 편리한 그래픽 환경을 제공하기 위해서 Motif 라이브러리를 사용하여 X-window에서 구현되었다. 본 프로그램의 테스트 데이터를 생성하기 위해서 GenBank 데이터베이스에서 일정 길이의 염기 서열을 추출한 다음, sequencing시 일어날 수 있는 모든 오류들을 고려하여 단편 샘플을 생성하였다. 단편 샘플에 대해서 dimer 빈도 비교 방법의 효과 및 실행 시간을 측정하였다. 특히 dimer 빈도 비교 방법의 효율은 단편의 길이에 비례하여 증가하는 것으로 나타났다.

Keywords