NGS 데이터를 이용한 대용량 게놈의 디노버 어셈블리

De novo assembly of a large volume of genome using NGS data

  • 원정임 (한양대학교 전기정보통신기술연구소) ;
  • 홍상균 (한림대학교 컴퓨터공학부) ;
  • 공진화 (한림대학교 컴퓨터공학부) ;
  • 허선 (한림대학교 의과대학) ;
  • 윤지희 (한림대학교 컴퓨터공학부)
  • Won, Jung-Im (Research Institute of Electrical and Computer Engineering, Hanyang University) ;
  • Hong, Sang-Kyoon (Department of Computer Engineering, Hallym University) ;
  • Kong, Jin-Hwa (Department of Computer Engineering, Hallym University) ;
  • Huh, Sun (Department of Parasitology, College of Medicine, Hallym University) ;
  • Yoon, Jee-Hee (Department of Computer Engineering, Hallym University)
  • 발행 : 2012.06.22

초록

디노버 어셈블리는 레퍼런스 시퀀스 없이 리드의 염기 서열 정보를 이용하여 원래의 전체 시퀀스(original sequence)로 추정되는 시퀀스로 리드들을 재구성하는 방식이다. 최근의 NGS(Next Generation Sequencing) 기술은 대용량 리드를 훨씬 쉽게 저비용으로 생성할 수 있다는 장점이 있어, 이를 이용한 많은 연구가 이루어지고 있다. 그러나 NGS 리드 데이터를 이용한 디노버 어셈블리에 관한 연구는 국내외적으로 매우 미흡한 실정이다. 그 이유는 NGS 리드 데이터를 이용하여 디노버 어셈블리를 수행하는 경우 대용량 데이터, 복잡한 데이터 구조 및 처리 과정 등으로 인하여 매우 많은 시간과 공간이 소요될 뿐만 아니라 아직까지 다양한 분석 툴과 노하우 등이 충분히 개발되어 있지 않기 때문이다. 본 연구에서는 NGS 리드 데이터를 이용한 어셈블리의 실효성과 정확성을 검증한다. 또한 디노버 어셈블리의 처리 시간 및 공간 오버헤드를 해결하기 위하여 유사 종과의 리드 정렬을 활용하는 방안을 제안한다.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단