품질 정보를 이용한 서열 배치 알고리즘

Sequence Alignment Algorithm using Quality Information

  • 노강호 (서울대학교 전기 컴퓨터공학부) ;
  • 박근수 (서울대학교 전기 컴퓨터공학부)
  • 발행 : 2002.10.01

초록

서열 배치 문제는 두 개의 서열에서 가장 유사한 부분을 찾는 문제이다. 이 문제를 푸는 알고리즘으로 가장 많이 쓰이는 것은 Smith-Waterman 알고리즘이다. Smith-Waterman 알고리즘은 동적 프로그래밍을 이용하여 두 서열에서 유사한 부분을 찾아낸다. 그러나 Smith-Waterman 알고리즘은 서열을 이루는 문자들의 품질 정보를 사용하지는 않는다. 각 문자가 얼마 정도의 신뢰도를 가지고 있는지를 나타내는 품질 정보는 생물학에서는 중요한 정보이다. 본 논문에서는 각 문자에 주어지는 품질이 서로 다를 때에, 품질 정보를 이용하여 가장 적합한 부분 배치를 찾아내는 알고리즘을 제시한다. 실제로 현재 서열 배치에 가장 많이 사용되고 있는 프로그램 중 하나인, Phred/Phrap에서 사용하는 LLR 값을 이용해서 비교했을 때, 본 논문에서 제시한 알고리즘은 기존의 Smith-Waterman 알고리즘보다 더 좋은 결과를 얻었다.

키워드