• 제목/요약/키워드: 서열 배치 알고리즘

검색결과 6건 처리시간 0.018초

품질 정보를 이용한 서열 배치 알고리즘 (Sequence Alignment Algorithm using Quality Information)

  • 나중채;노강호;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.578-586
    • /
    • 2005
  • 본 논문에서 다루는 문제는 품질 정보를 가지는 서열을 배치(alignment)하는 알고리즘이다. 시퀀싱(sequencing) 작업의 일부인 염기 결정 프로그램(base-calling program)에 의해서 생성되는 DNA 서열은 각 염기가 어느 정도 신뢰할 수 있는 가를 나타내는 품질 정보를 가진다. 그러나 지금까지 개발된 서열 배치 알고리즘들은 이러한 품질 정보를 고려하지 않았다. 본 논문에서는 품질 정보를 가지는 두 서열의 배치를 평가하는 기준을 제시한다. 이 평가 기준에 의한 최적의 서열 배치는 동적 프로그래밍(dynamic programming) 기법에 의해서 찾을 수 있다.

개선된 다이나믹 프로그래밍과 품질 정보 및 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘

  • Lee, Seung-Hwan;Park, Choong-Shik;Kim, Kwang-Baek
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 한국지능정보시스템학회
    • /
    • pp.341-350
    • /
    • 2007
  • DNA 염기 서열 배치 알고리즘은 분자 생물학 분야에서 단백질과 핵산 서열들의 분석에서 중요한 방법이다. 생물학적인 염기 서열들은 그들 사이의 유사성과 차이점을 나타내기 위해 정렬된다. 본 논문에서는 기존의 DNA 염기 서열 배치 방법을 개선하기 위하여 DP(Dynamic Programming) 알고리즘의 비용증가( O (nm) ) 문제를 해결하는 Quadrant 방법과 품질 정보 및 퍼지 추론시스템(fuzzy inference system)을 적용한 DNA 염기 서열 배치 알고리즘을 제안한다. 본 논문에서 제안한 DNA 염기 서열 배치 알고리즘은 Quadrant 방법을 적용하여 Needleman-Wunsch의 DP 기반 알고리즘에서의 행렬 생성 단계에서 발생하는 불필요한 정렬 계산을 제거하여 전체 수행 시간을 단축하고, 각 DNA 염기 서열 단편 각각의 길이 차이와 낮은 품질의 DNA 염기 빈도를 퍼지 추론 시스템에 적용하여 지능적으로 갭 비용(gap cost)을 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI (National Center for Biotechnology Information)의 실제 유전체 데이터로 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질정보만을 이용한 알고리즘보다 개선된 것을 확인하였다.

  • PDF

품질 정보를 이용한 서열 배치 알고리즘 (Sequence Alignment Algorithm using Quality Information)

  • 노강호;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.730-732
    • /
    • 2002
  • 서열 배치 문제는 두 개의 서열에서 가장 유사한 부분을 찾는 문제이다. 이 문제를 푸는 알고리즘으로 가장 많이 쓰이는 것은 Smith-Waterman 알고리즘이다. Smith-Waterman 알고리즘은 동적 프로그래밍을 이용하여 두 서열에서 유사한 부분을 찾아낸다. 그러나 Smith-Waterman 알고리즘은 서열을 이루는 문자들의 품질 정보를 사용하지는 않는다. 각 문자가 얼마 정도의 신뢰도를 가지고 있는지를 나타내는 품질 정보는 생물학에서는 중요한 정보이다. 본 논문에서는 각 문자에 주어지는 품질이 서로 다를 때에, 품질 정보를 이용하여 가장 적합한 부분 배치를 찾아내는 알고리즘을 제시한다. 실제로 현재 서열 배치에 가장 많이 사용되고 있는 프로그램 중 하나인, Phred/Phrap에서 사용하는 LLR 값을 이용해서 비교했을 때, 본 논문에서 제시한 알고리즘은 기존의 Smith-Waterman 알고리즘보다 더 좋은 결과를 얻었다.

  • PDF

품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘 (A DNA Sequence Alignment Algorithm Using Quality Information and a Fuzzy Inference Method)

  • 김광백
    • 지능정보연구
    • /
    • 제13권2호
    • /
    • pp.55-68
    • /
    • 2007
  • 분자 생물학(computational molecular biology) 분야에서 DNA 염기 서열 배치 알고리즘은 다양한 방법으로 개선되어 왔다. 본 논문에서는 기존의 DNA 염기의 품질 정보(quality information)를 이용한 DNA 염기 서열 배치 방법을 개선하기 위하여 퍼지 논리 시스템(fuzzy logic system)과 DNA 염기 서열 단편의 특징을 적용한 품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘을 제안한다. 기존의 알고리즘은 Needleman-Wunsch가 제안한 전역 배치 알고리즘에 각 DNA 염기의 품질 정보를 적용하여 DNA 염기 서열 배치 점수를 계산하였다. 그러나 전체 DNA 염기의 품질 정보를 이용하여 계산하기 때문에 DNA 염기 말단 부분의 품질이 낮은 경우에는 DNA 염기 서열 배치 점수를 계산하는 과정에서 오차가 발생한다. 본 논문에서는 기존의 품질 정보를 이용한 알고리즘을 개선하여 DNA 염기 서열의 말단 부위의 품질이 낮은 경우에도 정확히 서열을 배치할 수 있도록 한다. 또한 DNA 염기 서열 단편의 길이와 낮은 품질의 DNA 염기 빈도를 퍼지 논리 시스템에 적용하여 DNA 염기 서열 배치 점수를 계산하는데 적용되는 매핑 점수 인자(parameter)를 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI(National Center for Biotechnology Information)의 실체 유전체 데이터를 받아 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질 정보만을 이용한 알고리즘 보다 DNA 염기 서열 배치에 있어서 효율적임을 확인하였다.

  • PDF

계통발생학적 분석을 위한 분류 단위의 제약조건 기반의 3차원 시각화 기법 (A Constraint-based Three-Dimensional Visualization Method of Operational Taxonomic Units for Phylogenetic Analysis)

  • 이선아;이건명
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.523-526
    • /
    • 2005
  • 계통발생학적 분석기법은 서열의 유사성을 비교하여 이들의 유연관계를 알아내는 것으로, 각각의 관계를 시각적으로 표현하는 것이 매우 중요하다. 일반적으로 2차원 계통수를 사용한다. 그러나 2차원으로 시각화했을 때 서로 유사성이 높은 OTU(Operational Taxonomic Unit)들을 서로 멀리 떨어뜨려 놓는 경우도 생기게 된다. 이 논문에서는 이러한 점을 보완하고자 3차원 공간에 OTU들을 배치시키기 위한 2단계 좌표 배치 기법을 제안한다. 단계는 유클리디안 거리를 3차원 좌표로 변환하는 것이다. 1단계 방법은 서열의 비교 순서에 영향을 받기 때문에 2단계를 통해 유전자 알고리즘 기법을 적용하여 보다 적절한 좌표를 찾는다.

  • PDF

환형문자열에 대한 대표문자열을 찾는 병렬 알고리즘 (Parallel Algorithms for Finding Consensus of Circular Strings)

  • 김동희;심정섭
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.289-294
    • /
    • 2015
  • 대표문자열 문제는 k개의 문자열로 구성된 집합 S가 주어졌을 때 S를 대표하는 한 문자열인 대표문자열을 찾는 문제이다. 환형문자열은 일반적인 문자열과는 달리 문자열의 첫 글자와 마지막 글자가 연결되어 원 모양을 이루는 문자열이다. 본 논문에서는 먼저 k=3이고 길이 n인 환형문자열들로 구성된 S에 대해, 거리반경과 거리합을 동시에 고려한 대표문자열 문제를 O(n)개의 쓰레드를 사용하여 $O({\mid}{\Sigma}{\mid}nlogn)$ 시간에 병렬적으로 해결하는 알고리즘을 제시한다. 이때, ${\Sigma}$는 각 문자열을 구성하는 문자집합이다. 다음으로 k=4이고 길이 n인 환형문자열들로 구성된 S에 대해 거리합 기반 대표문자열 문제를 O(n)개의 쓰레드를 사용하여 $O({\mid}{\Sigma}{\mid}n^2logn)$ 시간에 병렬적으로 해결하는 알고리즘을 제시한다. 이후 두 문제에 대한 병렬 알고리즘들을 CUDA를 이용하여 구현하고 순차 알고리즘들과의 실행 속도를 비교한 결과를 제시한다.