A Local Alignment Algorithm using Normalization by Functions

함수에 의한 정규화를 이용한 local alignment 알고리즘

  • 이선호 (서울대학교 컴퓨터공학부) ;
  • 박근수 (서울대학교 컴퓨터공학부)
  • Published : 2007.06.15

Abstract

A local alignment algorithm does comparing two strings and finding a substring pair with size l and similarity s. To find a pair with both sufficient size and high similarity, existing normalization approaches maximize the ratio of the similarity to the size. In this paper, we introduce normalization by functions that maximizes f(s)/g(l), where f and g are non-decreasing functions. These functions, f and g, are determined by experiments comparing DNA sequences. In the experiments, our normalization by functions finds appropriate local alignments. For the previous algorithm, which evaluates the similarity by using the longest common subsequence, we show that the algorithm can also maximize the score normalized by functions, f(s)/g(l) without loss of time.

Local alignment 알고리즘은 두 문자열을 비교하여 크기가 l, 유사도 점수가 s인 부분 문자열쌍을 찾는다. 크기가 충분히 크고 유사도 점수도 높은 부분 문자열 쌍을 찾기 위해 단위 길이당 유사도 점수 s/l을 최대화하는 정규화 방법이 제안되어있다. 본 논문에서는 증가함수 f, g를 도입하여 f(s)/g(l)을 최대화하는, 함수에 의한 정규화 방법을 제시한다. 여기서 함수 f, g는 DNA 서열을 비교하는 실험을 통해 정한다. 이러한 실험에서 함수에 의한 정규화 방법이 좋은 local alignment를 찾는다. 또한 유사도 점수의 기준으로 longest common subsequence를 채택한 경우, 기존의 정규화 알고리즘을 이용하면 별다른 시간 손실 없이 함수에 의해 정규화된 점수 f(s)/g(l)을 최대화 할 수 있음을 보인다.

Keywords

References

  1. A.N. Arslan, O. Egecioglu, and P.A. Pevzner, A new approach to sequence comparison: normalized sequence alignment, Bioinformatics, 17(4), 327-337, 2001 https://doi.org/10.1093/bioinformatics/17.4.327
  2. N. Efraty and G. M. Landau, Sparse normalized local alignment, In Proceedings of the 15th Annual Symposium on Combinatorial Pattern Matching (CPM), 333-346, 2004
  3. D. Eppstein, Z. Galil, R. Giancarlo, and G. F. Italiano, Sparse dynamic programming I: linear cost functions, Journal of ACM, 39(3), 519-545, 1992 https://doi.org/10.1145/146637.146650
  4. D. Gusfield, Algorithms on strings, trees, and sequences, Cambridge University Press, 1997
  5. P. van Emde Boas, R. Kass, and E. Zijlstra, Design and implementation of an efficient priority queue, Math. Systems Theory, 10, 99-127, 1977 https://doi.org/10.1007/BF01683268
  6. D.B. Johnson, A priority queue in which initialization and queue operations take O(loglogD) time, Math. Systems Theory, 15, 295-309, 1982 https://doi.org/10.1007/BF01786986
  7. P. Green, http://www.phrap.org
  8. National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov