• Title/Summary/Keyword: 서열 배치 알고리즘

Search Result 6, Processing Time 0.018 seconds

Sequence Alignment Algorithm using Quality Information (품질 정보를 이용한 서열 배치 알고리즘)

  • Na, Joong-Chae;Roh, Kang-Ho;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.32 no.11_12
    • /
    • pp.578-586
    • /
    • 2005
  • In this Paper we consider the problem of sequence alignment with quality scores. DNA sequences produced by a base-calling program (as part of sequencing) have quality scores which represent the confidence level for individual bases. However, previous sequence alignment algorithms do not consider such quality scores. To solve sequence alignment with quality scores, we propose a measure of an alignment of two sequences with orality scores. We show that an optimal alignment in this measure can be found by dynamic programming.

개선된 다이나믹 프로그래밍과 품질 정보 및 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘

  • Lee, Seung-Hwan;Park, Choong-Shik;Kim, Kwang-Baek
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.05a
    • /
    • pp.341-350
    • /
    • 2007
  • DNA 염기 서열 배치 알고리즘은 분자 생물학 분야에서 단백질과 핵산 서열들의 분석에서 중요한 방법이다. 생물학적인 염기 서열들은 그들 사이의 유사성과 차이점을 나타내기 위해 정렬된다. 본 논문에서는 기존의 DNA 염기 서열 배치 방법을 개선하기 위하여 DP(Dynamic Programming) 알고리즘의 비용증가( O (nm) ) 문제를 해결하는 Quadrant 방법과 품질 정보 및 퍼지 추론시스템(fuzzy inference system)을 적용한 DNA 염기 서열 배치 알고리즘을 제안한다. 본 논문에서 제안한 DNA 염기 서열 배치 알고리즘은 Quadrant 방법을 적용하여 Needleman-Wunsch의 DP 기반 알고리즘에서의 행렬 생성 단계에서 발생하는 불필요한 정렬 계산을 제거하여 전체 수행 시간을 단축하고, 각 DNA 염기 서열 단편 각각의 길이 차이와 낮은 품질의 DNA 염기 빈도를 퍼지 추론 시스템에 적용하여 지능적으로 갭 비용(gap cost)을 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI (National Center for Biotechnology Information)의 실제 유전체 데이터로 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질정보만을 이용한 알고리즘보다 개선된 것을 확인하였다.

  • PDF

Sequence Alignment Algorithm using Quality Information (품질 정보를 이용한 서열 배치 알고리즘)

  • 노강호;박근수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.730-732
    • /
    • 2002
  • 서열 배치 문제는 두 개의 서열에서 가장 유사한 부분을 찾는 문제이다. 이 문제를 푸는 알고리즘으로 가장 많이 쓰이는 것은 Smith-Waterman 알고리즘이다. Smith-Waterman 알고리즘은 동적 프로그래밍을 이용하여 두 서열에서 유사한 부분을 찾아낸다. 그러나 Smith-Waterman 알고리즘은 서열을 이루는 문자들의 품질 정보를 사용하지는 않는다. 각 문자가 얼마 정도의 신뢰도를 가지고 있는지를 나타내는 품질 정보는 생물학에서는 중요한 정보이다. 본 논문에서는 각 문자에 주어지는 품질이 서로 다를 때에, 품질 정보를 이용하여 가장 적합한 부분 배치를 찾아내는 알고리즘을 제시한다. 실제로 현재 서열 배치에 가장 많이 사용되고 있는 프로그램 중 하나인, Phred/Phrap에서 사용하는 LLR 값을 이용해서 비교했을 때, 본 논문에서 제시한 알고리즘은 기존의 Smith-Waterman 알고리즘보다 더 좋은 결과를 얻었다.

  • PDF

A DNA Sequence Alignment Algorithm Using Quality Information and a Fuzzy Inference Method (품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘)

  • Kim, Kwang-Baek
    • Journal of Intelligence and Information Systems
    • /
    • v.13 no.2
    • /
    • pp.55-68
    • /
    • 2007
  • DNA sequence alignment algorithms in computational molecular biology have been improved by diverse methods. In this paper, we proposed a DNA sequence alignment algorithm utilizing quality information and a fuzzy inference method utilizing characteristics of DNA sequence fragments and a fuzzy logic system in order to improve conventional DNA sequence alignment methods using DNA sequence quality information. In conventional algorithms, DNA sequence alignment scores were calculated by the global sequence alignment algorithm proposed by Needleman-Wunsch applying quality information of each DNA fragment. However, there may be errors in the process for calculating DNA sequence alignment scores in case of low quality of DNA fragment tips, because overall DNA sequence quality information are used. In the proposed method, exact DNA sequence alignment can be achieved in spite of low quality of DNA fragment tips by improvement of conventional algorithms using quality information. And also, mapping score parameters used to calculate DNA sequence alignment scores, are dynamically adjusted by the fuzzy logic system utilizing lengths of DNA fragments and frequencies of low quality DNA bases in the fragments. From the experiments by applying real genome data of NCBI (National Center for Biotechnology Information), we could see that the proposed method was more efficient than conventional algorithms using quality information in DNA sequence alignment.

  • PDF

A Constraint-based Three-Dimensional Visualization Method of Operational Taxonomic Units for Phylogenetic Analysis (계통발생학적 분석을 위한 분류 단위의 제약조건 기반의 3차원 시각화 기법)

  • Lee Sun-a;Lee Keon Myung
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2005.11a
    • /
    • pp.523-526
    • /
    • 2005
  • 계통발생학적 분석기법은 서열의 유사성을 비교하여 이들의 유연관계를 알아내는 것으로, 각각의 관계를 시각적으로 표현하는 것이 매우 중요하다. 일반적으로 2차원 계통수를 사용한다. 그러나 2차원으로 시각화했을 때 서로 유사성이 높은 OTU(Operational Taxonomic Unit)들을 서로 멀리 떨어뜨려 놓는 경우도 생기게 된다. 이 논문에서는 이러한 점을 보완하고자 3차원 공간에 OTU들을 배치시키기 위한 2단계 좌표 배치 기법을 제안한다. 단계는 유클리디안 거리를 3차원 좌표로 변환하는 것이다. 1단계 방법은 서열의 비교 순서에 영향을 받기 때문에 2단계를 통해 유전자 알고리즘 기법을 적용하여 보다 적절한 좌표를 찾는다.

  • PDF

Parallel Algorithms for Finding Consensus of Circular Strings (환형문자열에 대한 대표문자열을 찾는 병렬 알고리즘)

  • Kim, Dong Hee;Sim, Jeong Seop
    • Journal of KIISE
    • /
    • v.42 no.3
    • /
    • pp.289-294
    • /
    • 2015
  • The consensus problem is finding a representative string, called a consensus, of a given set S of k strings. Circular strings are different from linear strings in that the last symbol precedes the first symbol. Given a set S of circular strings of length n over an alphabet ${\Sigma}$, we first present an $O({\mid}{\Sigma}{\mid}nlogn)$ time parallel algorithm for finding a consensus of S minimizing both radius and distance sum when k=3 using O(n) threads. Then we present an $O({\mid}{\Sigma}{\mid}n^2logn)$ time parallel algorithm for finding a consensus of S minimizing distance sum when k=4 using O(n) threads. Finally, we compare execution times of our algorithms implemented using CUDA with corresponding sequential algorithms.