A Practical Approximate Sub-Sequence Search Method for DNA Sequence Databases

DNA 시퀀스 데이타베이스를 위한 실용적인 유사 서브 시퀀스 검색 기법

  • 원정임 (한양대학교 정보통신학부) ;
  • 홍상균 (연세대학교 컴퓨터과학과) ;
  • 윤지희 (한림대학교 정보통신공학부) ;
  • 박상현 (연세대학교 컴퓨터과학과) ;
  • 김상욱 (한양대학교 정보통신학부)
  • Published : 2007.04.15

Abstract

In molecular biology, approximate subsequence search is one of the most important operations. In this paper, we propose an accurate and efficient method for approximate subsequence search in large DNA databases. The proposed method basically adopts a binary trie as its primary structure and stores all the window subsequences extracted from a DNA sequence. For approximate subsequence search, it traverses the binary trie in a breadth-first fashion and retrieves all the matched subsequences from the traversed path within the trie by a dynamic programming technique. However, the proposed method stores only window subsequences of the pre-determined length, and thus suffers from large post-processing time in case of long query sequences. To overcome this problem, we divide a query sequence into shorter pieces, perform searching for those subsequences, and then merge their results. To verify the superiority of the proposed method, we conducted performance evaluation via a series of experiments. The results reveal that the proposed method, which requires smaller storage space, achieves 4 to 17 times improvement in performance over the suffix tree based method. Even when the length of a query sequence is large, our method is more than an order of magnitude faster than the suffix tree based method and the Smith-Waterman algorithm.

유사 서브 시퀀스 검색은 분자 생물학 분야에서 사용되는 매우 중요한 연산이다. 본 논문에서는 대규모 DNA 시퀀스 데이타베이스를 처리 대상으로 하여 효율성과 정확도를 보장하는 실용적인 유사 서브 시퀀스 검색 기법을 제안한다. 제안된 기법은 이진 트라이를 인덱스 구조로 채택하여 DNA 시퀀스로부터 추출한 일정 길이의 윈도우 서브 시퀀스를 인덱싱 대상으로 한다. 유사 서브 시퀀스 검색 알고리즘은 기본적으로 다이나믹 프로그래밍 기법에 근거하여 이진 트라이를 루트로부터 너비 우선(breadth-first)방식으로 운행하며, 경로 상에 존재하는 모든 유사 서브 시퀀스를 검색해 낸다. 그러나 질의 길이가 윈도우의 크기보다 큰 일반적인 경우에는 질의를 일정 길이의 서브 시퀀스로 분해하여 각 서브 시퀀스에 대하여 유사 서브 시퀀스 검색을 수행한 후, 후처리 과정에 의하여 정확도에 손상 없이 이들 결과를 결합하는 분할 질의 처리 방식을 채택한다. 제안된 기법의 우수성을 검증하기 위하여, 실험을 통한 성능 평가를 수행한다. 실험 결과에 의하면 제안된 인덱스 기법은 접미어 트리에 비하여 약 40%의 작은 저장 공간을 가지고도 약 4-17배의 검색 성능의 개선 효과를 나타낸다. 또한 분할 질의 처리 방식에 의한 유사 서브 시퀀스 검색 알고리즘은 질의 길이가 긴 경우에도 효율적으로 동작하여 Suffix와 Smith-Waterman 알고리즘에 비하여 각각 수배에서 수십배의 검색 성능의 개선 효과를 나타낸다.

Keywords

References

  1. C. Gibas and P. Jambeck, Developing Bioinformatics Computer Skills, O'Reilly and Associates Inc., 2001
  2. Z. Tan, X. Cao, B. Ooi, and A. Tung, 'The ed-tree: An Index for Large DNA Sequence Databases,' In Proceedings of SSDBM Conference, pp. 1-10, 2003
  3. H. E. Williams and J. Zobel, 'Indexing and Retrieval for Genomic Databases,' IEEE TKDE Vol. 14, No. 1. pp. 63-78, 2002 https://doi.org/10.1109/69.979973
  4. T. Smith and M. Waterman, 'Identification of Common Molecular Subsequences,' Journal of Molecular Biology, 147, pp. 195-197, 1981 https://doi.org/10.1016/0022-2836(81)90087-5
  5. S. Altschul, W. Gish, W. Miller, E. Myers, and D. Lipman, 'Basic local alignment search tool,' Journal of Molecular Biology, Vol. 215, No.3, pp. 403-410, 1990 https://doi.org/10.1006/jmbi.1990.9999
  6. S. Altschul, T. Madden, A. Schaffer, J. Zhang, W. Miller, and D. Lipman, 'Gapped BLAST and PSI-BLAST: A New Generation of Protein Database Search Programs,' Nucleic Acids Research, Vol 25, No. 17, pp. 3389-3402,1997 https://doi.org/10.1093/nar/25.17.3389
  7. G. A. Stephen, String Searching Algorithms, World Scientific Publishing, 1994
  8. A. L. Deicher, S. Kasif, R. D. Fleischmann, and J. Peterson, O. White, and S. L. Salzberg, 'Alignment of whole genomes,' Nucleic Acids Research, 27, pp. 2369-2376, 1999 https://doi.org/10.1093/nar/27.11.2369
  9. E. Hunt, M. P. Atkinson and R. W. Irving, 'Database indexing for large DNA and protein sequence collections,' The VLDB Journal, Vol. 11, No.3, pp. 256-271, 2002 https://doi.org/10.1007/s007780200064
  10. S. Kurtz, J. Choudhuri, E. Ohlebusch, C. Schleiermacher, J. Stoye, and R. Giegerich, 'REPuter: the manifold applications of repeat analysis on a genome scale,' Nucleic Acids Research, Vol. 29, No. 22, pp. 4633-4642, 2001 https://doi.org/10.1093/nar/29.22.4633
  11. C. Meek, J. M. Patel, and S. Kasetty, 'OASIS: An Online and Accurate Technique for Local-Alignment Searches on Biological sequences,' In Proceedings of the 29th VLDB Conference, pp. 920-921, 2003
  12. K. Sadakane and T. Shibuya. 'Indexing huge genome sequences for solving various problems,' In Proceedings of the 12th Genome Informatics, pp. 175-183, 2001
  13. E. Ukkonen, 'Approximate string matching over suffix trees,' In Proceedings of Combinatorial Pattern Matching (CPM93), pp. 228-242, 1993 https://doi.org/10.1007/BFb0029808
  14. R. Giegerich, S. Kurtz, and J. Stoye, 'Efficient Implementation of Lazy Suffix Trees,' Softw. Pract. Exp., Vol 33, pp. 1035-1049, 2003 https://doi.org/10.1002/spe.535
  15. S. Kurtz, 'Reducing the Space Requirement of Suffix Trees,' Softw. Pract. Exp., Vol 29, pp. 1149-1171, 1999 https://doi.org/10.1002/(SICI)1097-024X(199911)29:13<1149::AID-SPE274>3.0.CO;2-O
  16. G. Navarro and R. Baeza-Yates, 'A Hybrid Indexing Method for Approximate String Matching,' J. of Discrete ALgorithms, Vol. 1, No.1, pp. 205-239, 2000
  17. H. Wang et al., 'BLAST++: A Tool for BLASTing Queries in Batches,' In Proceedings First Asia-Pacific Bioinformatics Conference, pp. 71-79, 2003
  18. E. Horowitz, S. Sahni, and S. Anderson-Freed, Fundamentals of Data Structures in C, Computer Science Press, 1993
  19. A. Califano and I. Rigoutso, 'FLASH: A Fast Look-up Algorithm for String Homology,' In Proceedings of Intelligent System Conference for Morecular Biology, pp. 56-64, 1993
  20. C. Fondrat and P. Dessen, 'A Rapid Access Motif database(RAMdb) with a search algorithm for the retrieval patterns in nucleic acids or proteun databanks,' Computer Applications in the Biosciences. Vol. 11, No.3, pp. 273-279, 1995 https://doi.org/10.1093/bioinformatics/11.3.273
  21. T. Kahveci and A. K. Singh, 'An Efficient Index Structure for String Databases,' In Proceedings of the 27th VLDB Conference, pp. 351-360, 2001
  22. S. Tata, R. Hankins, and J. Patel, 'Practical Suffix Tree Construction,' In Proceedings of the 30th VLDB Conference, pp. 36-47, 2004
  23. K. Kelly and P. Labute, 'The A* Search and Applications to Sequence Alignment,' http://www.chemcomp.com/article/astar.htm, 1996
  24. U. Manber and G. Myers, 'Suffix arrays: A new method for on-line string searches,' SIAM J. Comput. 22, pp. 935-948, 1993 https://doi.org/10.1137/0222058
  25. V. Makinen, 'Compact Suffix Array: A Space efficient Full-text Index,' Fundamenta Informaticae, 56(1-2), pp. 191-210, 2003
  26. V. Makinen and G. Navarro, 'Compressed Compact Suffix Arrays,' CPM 2004, Springer-Verlag LNCS 3109, pp. 420-433
  27. H. Shang and T. H. Merrett, 'Tries for approximate string matching,' IEEE Trans. on Knowlege and Data Engineering, Vol. 8, No.4, pp. 540-547, 1996 https://doi.org/10.1109/69.536247
  28. http://www.ncbi.nlm.nih.gov