• 제목/요약/키워드: DNA 서열 비교

검색결과 513건 처리시간 0.027초

DNA 서열을 위한 빠른 매칭 기법 (Fast Matching Method for DNA Sequences)

  • 김진욱;김은상;안융기;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권4호
    • /
    • pp.231-238
    • /
    • 2009
  • DNA 서열은 각 종을 나타내는 근본적인 정보이며, 다른 종 간의 DNA 서열 비교는 중요한 작업이다. DNA 서열은 길이가 매우 길며 또 종의 종류도 다양하기 때문에, DNA 서열 비교에서는 빠른 매칭 뿐만 아니라 효율적인 저장도 중요한 요소이다. 즉, 인코딩 된 DNA 서열에 적합한 빠른 문자열 매칭 방법이 필요하다. 본 논문에서는 매칭 시 디코딩이 필요하지 않은 인코딩 된 DNA 서열을 위한 빠른 매칭 알고리즘을 제시한다. 제시하는 알고리즘은 네 문자 한 바이트 인코딩을 이용하며 서픽스 기법과 다중 패턴 매칭 기법을 접목하고 있다. 실험 결과로는 본 논문에서 제시하는 방법이 AGREP보다 약 다섯배 빠름을 보이는데, 이는 알려진 알고리즘들 중에서 가장 빠른 결과이다.

미토콘드리아 16S rDNA와 COI유전자에 근거한 한국산 굴류 4종의 유연관계 (Phylogenetic Relationship Among Four Species of Korean Oysters Based on Mitochondrial 16S rDNA and COI Gene)

  • 이상엽;박두원;안혜숙;김상해
    • Animal Systematics, Evolution and Diversity
    • /
    • 제16권2호
    • /
    • pp.203-211
    • /
    • 2000
  • 한국에서 양식되어지고 있는 한국산 굴류 4종, 굴(Crassostrea gigas Thunberg), 바위굴(C. nippona Seki), 강굴(C. ariakensis Fujita et Wakiya), 토굴(Ostrea denselamellosa Lischke)의 유전적 근연관계를 조사하고자 미토콘드리아 DNA의 16S rDNA와 cytochrome c oxidase I (COI) 유전자 일부분의 염기서열을 분석하였다. 16S rDNA의 319 bp와 COI유전자의 710 bp를 PCR 증폭하여 염기서열을 결정하였으며, 염기서열과 아미노산서열을 자료로 하여 UPGMA와 neighbor-joining 방법으로 계통수를 작성하고, 종간 유연관계를 확인하였다. Crassostrea 속과 Ostrea 속간 비교에서는 뚜렷한 유전적 분화를 나타내었으며 계통분석 결과, neighbor-joining 방법에 의한 COI의 아미노산 서열분석에서는 굴과 강굴이 자매군을 형성하는 양상을 보였으나 두 유전자의 염기서열과 A+T 비율 비교에서는 굴과 바위굴이 자매군을 형성하는 것으로 나타났다.

  • PDF

DNA 컴퓨팅과 진화 모델을 이용하여 Traveling Salesman Problem를 해결하기 위한 DNA 서열 생성 알고리즘 (A DNA Sequence Generation Algorithm for Traveling Salesman Problem using DNA Computing with Evolution Model)

  • 김은경;이상용
    • 한국지능시스템학회논문지
    • /
    • 제16권2호
    • /
    • pp.222-227
    • /
    • 2006
  • 현재 막대한 병렬성을 갖는 DNA 컴퓨팅을 이용하여 Traveling Salesman Problem (TSP)를 해결하기 위한 연구가 진행되고 있다. 하지만 기존의 방법은 그래프 문제의 표현에서 DNA의 특성을 고려하지 않아, 실제 생물학적 실험 결과와의 차이가 발생하고 있다. 따라서 DNA의 특성을 반영하고 생물학적 실험 오류를 줄일 수 있는 DNA 서열 생성 알고리즘이 필요하다. 본 논문에서는 DNA 컴퓨팅에 진화 모델의 하나인 DNA 코딩 방법을 적용한 DNA 서열 생성 알고리즘을 제안한다. 제안한 알고리즘은 TSP에 적용하여 기존에 단순 유전자 알고리즘과 비교하였다. 그 결과 제안한 알고리즘은 오류를 최소화한 우수한 서열을 생성하고 생물학적 실험 오류율도 줄일 수 있었다.

대용량 DNA서열 처리를 위한 서픽스 트리 생성 알고리즘의 개발 (Suffix Tree Constructing Algorithm for Large DNA Sequences Analysis)

  • 최해원
    • 한국산업정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.37-46
    • /
    • 2010
  • 서픽스 트리는 데이터의 내부구조를 자세히 나타내고 선형시간 탐색이 가능한 효과적인 자료구조로서 DNA 서열분석 등에 유용하다. 그러나 서열을 서픽스 트리로 구축하는 경우 트리의 크기가 원본의 최소 30배 이상으로 커지므로 테라바이트(TB)급의 대용량 DNA 서열의 경우에 메모리상의 응용은 매우 어려운 문제점이 있다. 이에 본 논문에서는 디스크를 이용한 대용량 DNA의 서픽스 트리 응용기법을 제시한다. 이때 DNA 서열구조를 고려한 서픽스 트리 선형 탐색 특성 유지를 보장한다. 이를 검증하기 위하여 9G Byte의 유전자 단편 서열을 이용해 424G Byte의 서픽스 트리를 디스크에 구축한 다음, 임의의 질의 서열에 대해 KMP알고리즘과 비교한 결과 질의 응답시간에서 우수한 성능을 보였다.

품질 정보를 이용한 서열 배치 알고리즘 (Sequence Alignment Algorithm using Quality Information)

  • 나중채;노강호;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.578-586
    • /
    • 2005
  • 본 논문에서 다루는 문제는 품질 정보를 가지는 서열을 배치(alignment)하는 알고리즘이다. 시퀀싱(sequencing) 작업의 일부인 염기 결정 프로그램(base-calling program)에 의해서 생성되는 DNA 서열은 각 염기가 어느 정도 신뢰할 수 있는 가를 나타내는 품질 정보를 가진다. 그러나 지금까지 개발된 서열 배치 알고리즘들은 이러한 품질 정보를 고려하지 않았다. 본 논문에서는 품질 정보를 가지는 두 서열의 배치를 평가하는 기준을 제시한다. 이 평가 기준에 의한 최적의 서열 배치는 동적 프로그래밍(dynamic programming) 기법에 의해서 찾을 수 있다.

$\varepsilon$-다중목적함수 진화 알고리즘을 이용한 DNA 서열 디자인 (DNA Sequence Design using $\varepsilon$ -Multiobjective Evolutionary Algorithm)

  • 신수용;이인희;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권12호
    • /
    • pp.1217-1228
    • /
    • 2005
  • 최근 들어 DNA 컴퓨팅이 활발하게 연구되면서, DNA 컴퓨팅에서 가장 기본적이고도 중요한 DNA 서열 디자인 문제가 부각되고 있다. 기존의 연구에서 DNA 서열 디자인 문제를 다중목적 최적화 문제로 정의하고, elitist non-dominated sorting genetic algorithm(NSGA-II)를 이용하여 성공적으로 DNA 서열을 디자인하였다. 그런데, NSGA-II는 계산속도가 느리다는 단점이 있어서, 이를 극복하기 위해 본 논문에서는 $\varepsilon$-다중목적함수 진화알고리즘(r-Multiobjective evolutionary algorithm, $\varepsilon$-MOEA)을 DNA 서열 디자인에 이용하였다. 우선, 두 알고리즘의 성능을 보다 자세히 비교하기 위해서 DTLZ2 벤치 마크 문제에 대해서 적용한 결과, 목적함수의 개수가 작은 경우에는 큰 차이가 없으나, 목적함수의 개수가 많을 경우에는 $\varepsilon$-MOEA가 NSGA-II에 대해서 최적해를 찾는 정도(Convergence)와 다양한 해를 찾는 정도 (diversity)에 있어서 각각 $70\%,\;73\%$ 향상된 성능을 보여주었고, 또한 최적해를 찾는 속도도 비약적으로 개선되었다. 이러한 결과를 바탕으로 기존의 DNA 서열 디자인 방법론으로 디자인된 DNA 서열들과 7-순환외판원 문제 해결에 필요한 DNA 서열을 NSGA-II와 $\varepsilon$-MOEA로 재디자인하였다. 대부분의 경우 $\varepsilon$-MOEA가 우수한 결과를 보였고, 특히 7-순환외판원 문제에 대해서 NSGA-II와 비교하여 convergence와 diversity의 측면에서 유사한 결과를 2배 이상 빨리 발견하였고, 동일한 계산 시간을 이용해서는 $22\%$ 정도 보다 다양하게 해를 발견하였으며, $92\%$ 우수한 최적해를 발견하는 것을 확인하였다.

벼 엽록체 DNA내의 151 bp 반복염기서열에 의한 유전자 재배열 (Gene Reangement through 151 bp Repeated Sequence in Rice Chloroplast DNA)

  • 남백희;김한집
    • Applied Biological Chemistry
    • /
    • 제36권3호
    • /
    • pp.208-214
    • /
    • 1993
  • 엽록체 DNA 내에서 반복 염기서열의 존재와 이들에 의한 유전자 재배열 현상을 고찰하기 위하여 151bp Repeated Sequence 갖는 이질적인 유전인자군의 존재를 여러가지 품종의 벼 엽록체 DNA에서 관찰 하였다. 또한 쌀 DNA를 벼의 생장과 조직부위에 따라 분리하고, rp12 probe를 이용하여 Southern blot 분석하여 엽록체의 발달에 따르는 엽록체 DNA의 재배열 현상을 관찰하였다. 아울러 유전자 재배열 현상을 유발하는 반복염기서열을 database로부터 검색하여 유전자의 상호 비교 분석하였다. 그 결과 151bp Repeated Sequence와 유사한 염기 서열을 같는 rp123유전자를 포함하는 이질적인 유전인자군은 어느 특정한 품종의 벼에 국한되는것이 아니고 본 실험에 사용된 다양한 품종의 벼에 일반적으로 나타나는 현상임이 확인되었으며 또한 이들의 양상은 벼의 조직 부위에 따라 다르게 나타나고 있음을 확인하였다. 이러한 실험적 결과와 함께 엽록체 유전자 database의 검색과 유전자의 상호비교분석을 통하여 151bp 반복 염기 저열에 의한 벼 엽록체 DNA의 유전자 재배열현상은 식물 특히 단자엽 식물의 진화와 함께 발달된 현상으로 특히 151bp반복 염기 서열은 매우 다양한 유전자 재배열을 유발하는 변이유발 위치로 발달되어 왔음을 확인할 수 있었다. 따라서 이러한 반복염기서열에 의한 유전자 재배열 현상은 특히 벼에 있어서 plastid의 발달에 밀접하게 관여하고 있음을 제시하고 있다.

  • PDF

한국산 송이버섯에서의 18s ribosomal DNA 서열 (The 18s rDNA Sequences of the Basidiocarps of Tricholoma matsutake in Korea)

  • 이상선;홍성운
    • 한국균학회지
    • /
    • 제26권2호통권85호
    • /
    • pp.256-264
    • /
    • 1998
  • 한국에서 자생하고 소나무와 외생균근을 갖는 송이에 대한 18S ribosmal DNA의 DNA 서열을 조사하였다. 4개의 지역에서 채집된 송이의 514 bp 분석결과 18S rDNA의 서열는 모두 동일하였고, 경북대학교 미생물연구실의 연구 결과와는 4 bp가 차이가 나타났다. NCBI의 BLAST search결과, T. matstake와 제일 유사한 것으로 나타났다. 분석된 514 bp의 서열비교에서는 다른 버섯균과 차이가 있는 서얼 부분을 파악하였다. 또한, 이러한 자료를 이용하여 유사도 분석에서 각각의 속에 속하는 균들은 같은 묶음을 나타내고 있으나, 과 혹은 그 이상의 단위에서의 비교는 좋은 결과가 나오지 않았다. 본 연구를 통해 외생균근의 확인 작업에 필요한 primer 제작을 위한 사전 자료를 얻었으며, 또한 조사된 염기서열도 분석할 수 있었다.

  • PDF

서열의 길이에 무관한 유사도 측정 알고리즘 (A Sequence Similarity Algorithm Irrelevant to Sequence Length)

  • 김재광;이지형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.13-16
    • /
    • 2008
  • Dynamic Programming (DP)을 이용한 서열 비교 알고리즘은 DNA, RNA, 단백질 서열의 비교와 프로그래밍 소스 코드 유사도를 측정하는 곳 등에 널리 사용되어 왔다. 이 알고리즘은 DP를 이용하여 행렬을 구성한 후, 행렬의 가장 마지막 생성 값을 이용해 두 서열의 유사도를 측정하는 방법이다. 그러나 이 알고리즘에서 사용하는 마지막 생성 값은 비교 서열이 길이에 따라 크게 좌우되기 때문에 다양한 서열들의 유사도를 알아내기에는 부적합하다. 본 논문에서는 서열의 길이에 무관한 유사도 측정 (S2) 알고리즘을 제안한다. 제안된 알고리즘을 이용하면 비교 서열의 길이에 영향을 받지 않고 정당한 서열 비교를 할 수 있다. 제안된 알고리즘의 검증을 위해 본 논문에서는 프로그램 소스 코드의 유사도 측정을 수행한다.

  • PDF

As계의 오이 모자이크 바이러스 RNA4의 염기서열 결정 (Determination of Nucleotide Sequences of cDNA from Cucumber Mosaic Virus-As RNA4)

  • 김상현;박원목;이세영;박영인
    • 한국식물병리학회지
    • /
    • 제12권2호
    • /
    • pp.176-181
    • /
    • 1996
  • Aster yomena로부터 분리한 오이 모자이크 바이러스(cucumber mosaic virus) (CMV-As)의 RNA4로부터 완전한 길이의 cDNA를 합성하고 그 전체적인 염기서열(1,043 nt`s)을 결정하였다. CMV-As RNA4는 73개의 염기로 구성된 5`말단의 leader 부위, 657개의 염기로 구성된 외피단백질(coat protein) 유전자 부위 및 312개의 염기로 구성된 3` 말단의 비번역 부위로 구성되어 있음을 확인하였다. 외피단백질 유전자 부위의 염기서열을 다른 계통의 CMV와 비교해 볼 때 그 염기서열이 보전적으로 존재하고 있으나 그 외의 부분은 다양함을 확인하였다. 특히 3` 말단부위의 61개의 염기로 구성된 부위(959-1019)는 다른 계통의 CMV에서는 상당히 유사하지만 CMV-As도 다른 CMV처럼 tRNA와 유사한 구조를 역시 형성함을 확인하였다. CMV-As의 RNA4 염기서열을 다른 계통의 CMV와 비교할 때 CMV-I17F와 가장 유사하였으며(91.9%) S형의 CMV-M과는 가장 낮은 동일성을 보였다(71.1%). 외와 같은 염기성열의 비교 결과와 EcoRI 제한효소 인식부위의 존재로 미루어 CMV-As는 WT형으로 분류된다.

  • PDF