Abstract
Oligonucleotide design is known as a time-consuming work in Bioinformatics. In order to accelerate the oligonucleotide design process, one of the most widely used approaches is the prescreening unreliable regions using hashing(or seeding) method represented by BLAST. Since the seeding is originally proposed to increase the sensitivity for local alignment, the specificity should be considered as well as the sensitivity for the oligonucleotide design problem. However, a measure of evaluating the seeds regarding how adequate and efficient they are in the oligo design is not yet proposed. we propose a novel measure of evaluating the seeding algorithms based on the discriminability and the efficiency. By the proposed measure, five well-known seeding algorithms are examined. The spaced seed is recorded as the best efficient discriminative seed for oligo design.
생물정보분야에서 올리고뉴클레오타이드(oligonucleotide)를 제작하는 문제는 시간을 많이 소모하는 문제이다. 이 문제를 해결하기 위하여 해시를 이용한 가속계산이 주로 쓰이고 있고 BLAST란 프로그램이 대표적으로 생물정보분야에서 사용되고 있다. BLAST류의 프로그램들은 DNA서열의 특성에 따라 시드를 변형하여 해시를 개선하는 알고리즘을 적응하여 서열간의 유사도가 높은 부분을 찾는다. 그러나 이 프로그램들은 원래 올리고뉴클레오타이드 제작을 위해서가 아닌 지역정렬 문제를 해결하기 위한 방법들로써 발전하여 왔으므로 본 문제에 효율적인가에 대한 검증이 아직까지 이루어지지 않았다. 우리는 BLAST류의 프로그램에서 사용된 시드(seed)들이 올리고뉴클레오타이드 제작에 효과적인가를 판단할 수 있는 효율적이고 차별적인 잣대를 제시하고 이에 따라 다섯 종류의 대표적인 시드를 평가하였다. 평가에서 spaced seed라는 시드가 가장 좋은 결과를 보임을 정량적으로 계산할 수 있었다.