Algorithm of Clustering-based Multiple Sequence Alignment

클러스터링 기반 다중 서열 정렬 알고리즘

  • Lee, Byung-Il (Dept. of Computer Engineering, Chungbuk National University) ;
  • Lee, Jong-Yun (Dept. of Computer Education, Chungbuk National University) ;
  • Jung, Soon-Key (Dept. of Computer Engineering, Chungbuk National University)
  • 이병일 (충북대학교 컴퓨터공학과) ;
  • 이종연 (충북대학교 컴퓨터교육과) ;
  • 정순기 (충북대학교 컴퓨터공학과)
  • Published : 2005.05.13

Abstract

3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 다중 서열 정렬(multiple sequence alignment, MSA)은 서열들 사이의 진화관계, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 최적화된 다중서열 정렬을 얻기 위해 사용되는 가장 유용한 방법은 동적 프로그래밍이다. 그러나 동적프로그래밍은 정렬하고자 하는 서열의 수가 증가함에 따라 시간도 지수함수($O(n^k)$)로 증가하기 때문에 다중 서열 정렬에는 효율적이지 못하다. 따라서, 본 논문에서는 최적의 MSA 문제를 해결하기 위해 클러스터링 기반의 새로운 다중 서열 정렬 (Clustering-based Multiple Sequence Alignment, CMSA) 알고리즘을 제안한다. 결과적으로 제안한 CMSA 알고리즘의 기여도는 다중 서열 정렬의 질적 향상과 처리 시간 단축($O(n^3L^2)$)이 기대된다.

Keywords