• Title/Summary/Keyword: DNA 서열

Search Result 1,836, Processing Time 0.026 seconds

Fast Matching Method for DNA Sequences (DNA 서열을 위한 빠른 매칭 기법)

  • Kim, Jin-Wook;Kim, Eun-Sang;Ahn, Yoong-Ki;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.36 no.4
    • /
    • pp.231-238
    • /
    • 2009
  • DNA sequences are the fundamental information for each species and a comparison between DNA sequences of different species is an important task. Since DNA sequences are very long and there exist many species, not only fast matching but also efficient storage is an important factor for DNA sequences. Thus, a fast string matching method suitable for encoded DNA sequences is needed. In this paper, we present a fast string matching method for encoded DNA sequences which does not decode DNA sequences while matching. We use four-characters-to-one-byte encoding and combine a suffix approach and a multi-pattern matching approach. Experimental results show that our method is about 5 times faster than AGREP and the fastest among known algorithms.

A DNA Sequence Alignment Algorithm Using Quality Information and a Fuzzy Inference Method (품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘)

  • Kim, Kwang-Baek
    • Journal of Intelligence and Information Systems
    • /
    • v.13 no.2
    • /
    • pp.55-68
    • /
    • 2007
  • DNA sequence alignment algorithms in computational molecular biology have been improved by diverse methods. In this paper, we proposed a DNA sequence alignment algorithm utilizing quality information and a fuzzy inference method utilizing characteristics of DNA sequence fragments and a fuzzy logic system in order to improve conventional DNA sequence alignment methods using DNA sequence quality information. In conventional algorithms, DNA sequence alignment scores were calculated by the global sequence alignment algorithm proposed by Needleman-Wunsch applying quality information of each DNA fragment. However, there may be errors in the process for calculating DNA sequence alignment scores in case of low quality of DNA fragment tips, because overall DNA sequence quality information are used. In the proposed method, exact DNA sequence alignment can be achieved in spite of low quality of DNA fragment tips by improvement of conventional algorithms using quality information. And also, mapping score parameters used to calculate DNA sequence alignment scores, are dynamically adjusted by the fuzzy logic system utilizing lengths of DNA fragments and frequencies of low quality DNA bases in the fragments. From the experiments by applying real genome data of NCBI (National Center for Biotechnology Information), we could see that the proposed method was more efficient than conventional algorithms using quality information in DNA sequence alignment.

  • PDF

Probe Selection of DNA Microarrays Using Genetic Algorithms (유전 알고리즘을 이용한 DNA Microarray의 Probe 선택)

  • Kim, Sun;Zhang, Byoung-Tak
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.05a
    • /
    • pp.183-187
    • /
    • 2002
  • DNA microarray는 분자생물학 및 DNA 컴퓨팅 분야에 널리 사용되고 있는 실험 도구이다. DNA microarray를 이용하는 한 예는 알려진 유전자 집합을 바탕으로 하여 hybridization을 통해 새로운 DNA 서열을 분석하는 것이다. 이를 위한 가장 간단한 방법은 알려진 유전자의 모든 서열을 DNA microarray 상에 올려놓는 것이지만 이는 결과의 정확도 및 칩 제작비용 면에서 비효율적이다. 따라서 일반적으로는 유전자 서열 정보를 파악한 후 일련의 DNA 서열을 선택하는 probe 디자인 과정을 거친다. 그러나 현재 유전자 서열을 바탕으로 최적의 probe 집합을 찾는 결정적인 방법이 존재하고 있지 않다. 이에 본 논문은 oligo DNA microarray을 이용한 DNA 서열 분석 문제에 있어서 가능한 많은 유전자를 인식하면서 최소의 probe 개수를 갖는 집합을 찾는 방법을 제안한다. 제시된 방법은 가능한 probe 집합들로 해집합을 구성한 후, 유전알고리즘을 이용한 진화 과정을 통해 목적하는 probe 집합을 찾는다. 본 논문에서는 GenBank로부터 얻은 일련의 유전자 집합을 대상으로 실험하였으며 그 결과를 분석하였다.

  • PDF

Effective Sequence Generation for Molecular Computing (분자 컴퓨팅을 위한 효율적인 DNA 서열 생성 시스템)

  • 김동민;신수용;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.73-75
    • /
    • 2001
  • 최근 DNA 분자의 병렬성을 이용한 DNA 컴퓨팅 기법들이 활발히 개발되고 있다. 그러나, DNA 컴퓨팅은 실제 생체 분자인 DNA를 사용하기 때문에 생체분자의 화학적 성질에 의한 오류의 가능성을 항상 내포하고 있다. 이러한 문제를 극복하고자 오류의 가능성을 최소화시키는 방법들이 연구되고 있고, 특히 DNA 서열을 만들 때 오류의 가능성을 최소화시키는 방법들이 많이 연구되고 있다. 본 논문에는 현재 개발하고 있는 시스템인 NACST를 간단히 소개한 후, DNA 컴퓨팅에 사용할 DNA 서열을 생성하기 위해서 유전자 알고리즘을 사용하는 방법을 제안하며, 유전자 알고리즘을 이용하여 DNA 서열을 효율적으로 생성하기 위한 적합도 함수들에 대해서 구체적으로 살펴보았다.

  • PDF

A DNA Sequence Generation Algorithm for Traveling Salesman Problem using DNA Computing with Evolution Model (DNA 컴퓨팅과 진화 모델을 이용하여 Traveling Salesman Problem를 해결하기 위한 DNA 서열 생성 알고리즘)

  • Kim, Eun-Gyeong;Lee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.16 no.2
    • /
    • pp.222-227
    • /
    • 2006
  • Recently the research for Traveling Salesman Problem (TSP) using DNA computing with massive parallelism has been. However, there were difficulties in real biological experiments because the conventional method didn't reflect the precise characteristics of DNA when it express graph. Therefore, we need DNA sequence generation algorithm which can reflect DNA features and reduce biological experiment error. In this paper we proposed a DNA sequence generation algorithm that applied DNA coding method of evolution model to DNA computing. The algorithm was applied to TSP, and compared with a simple genetic algorithm. As a result, the algorithm could generate good sequences which minimize error and reduce the biologic experiment error rate.

Suffix Tree Constructing Algorithm for Large DNA Sequences Analysis (대용량 DNA서열 처리를 위한 서픽스 트리 생성 알고리즘의 개발)

  • Choi, Hae-Won
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.15 no.1
    • /
    • pp.37-46
    • /
    • 2010
  • A Suffix Tree is an efficient data structure that exposes the internal structure of a string and allows efficient solutions to a wide range of complex string problems, in particular, in the area of computational biology. However, as the biological information explodes, it is impossible to construct the suffix trees in main memory. We should find an efficient technique to construct the trees in a secondary storage. In this paper, we present a method for constructing a suffix tree in a disk for large set of DNA strings using new index scheme. We also show a typical application example with a suffix tree in the disk.

개선된 다이나믹 프로그래밍과 품질 정보 및 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘

  • Lee, Seung-Hwan;Park, Choong-Shik;Kim, Kwang-Baek
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.05a
    • /
    • pp.341-350
    • /
    • 2007
  • DNA 염기 서열 배치 알고리즘은 분자 생물학 분야에서 단백질과 핵산 서열들의 분석에서 중요한 방법이다. 생물학적인 염기 서열들은 그들 사이의 유사성과 차이점을 나타내기 위해 정렬된다. 본 논문에서는 기존의 DNA 염기 서열 배치 방법을 개선하기 위하여 DP(Dynamic Programming) 알고리즘의 비용증가( O (nm) ) 문제를 해결하는 Quadrant 방법과 품질 정보 및 퍼지 추론시스템(fuzzy inference system)을 적용한 DNA 염기 서열 배치 알고리즘을 제안한다. 본 논문에서 제안한 DNA 염기 서열 배치 알고리즘은 Quadrant 방법을 적용하여 Needleman-Wunsch의 DP 기반 알고리즘에서의 행렬 생성 단계에서 발생하는 불필요한 정렬 계산을 제거하여 전체 수행 시간을 단축하고, 각 DNA 염기 서열 단편 각각의 길이 차이와 낮은 품질의 DNA 염기 빈도를 퍼지 추론 시스템에 적용하여 지능적으로 갭 비용(gap cost)을 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI (National Center for Biotechnology Information)의 실제 유전체 데이터로 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질정보만을 이용한 알고리즘보다 개선된 것을 확인하였다.

  • PDF

Oligonucleotide Probe Selection using Evolutionary Computation in Large Target Genes (다수의 목표 유전자에서 진화연산을 이용한 Oligonucleotide Probe 선택)

  • Shin, Ki-Roo;Kim, Sun;Zhang, Byung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.455-457
    • /
    • 2003
  • DNA microarray는 분자생물학에서 널리 사용되고 있는 실험 도구로써 크게 cDNA와 oligonucleotide microarray로 나뉘어진다. DNA microarray는 일련의 DNA 서열로 이루어진 probe들의 집합으로 구성되며 알려지지 않은 서열과의 hybridization 과정을 통해 특정 서열을 인식할 수 있게 된다. O1igonucieotide microarray는 cDNA 방법과는 다르게 probe를 구성하는 서열을 제작자가 임의로 구성할 수 있기 때문에 목표 서열이 가지는 고유한 부분만을 probe 서열로 사용함으로써 비용절감과 실험의 정확도를 높일 수 있다는 장점이 있다. 그러나 현재 목표 유전자 서열에 대해 probe 집합을 생성하는 결정적인 방법은 존재하지 않으며, 따라서 넓은 해 공간에서 효과적으로 최적 해를 찾아 주는 진화 연산이 probe 선택을 위한 좋은 대안으로 사용될 수 있다[1.2]. 그러나 진화연산을 이용한 probe 선택방법에 있어서 인식하고자 하는 목표 서열의 개수가 많아질 경우, 해 공간의 크기가 커짐으로 인해 문제점이 발생할 수 있다. 따라서 본 논문에서는 다수의 목표 유전자 서열을 대상으로 한 probe 선택 방법에 일어서 보다 효율적인 진화연산 접근 방법을 소개한다. 제시된 방법은 인식하고자 하는 목표 서얼의 일부를 선택해 이를 probe 집합의 후보로 사용하며. 유전 연산자를 이용한 진화과정을 통해 최적에 가까운 probe 집합을 찾는다. 본 논문은 GenBank로부터 유전자 서열을 대상으로 제안된 방법을 실험하였으며, 축소된 목표 서열만을 이용해 probe 집합을 선택하더라도 적합한 probe 집합을 찾을 수 있었다.

  • PDF

A Paternity Testing Method Using DNA Repetive Sequences (DNA의 반복염기 서열 데이터베이스를 활용한 친자확인 방법)

  • Lee, Un;Lim, Jong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1729-1732
    • /
    • 2002
  • DNA의 염기서열이 밝혀지면서 인간 생체에 대한 다양한 연구가 활발히 진행되고 있다. 응용분야 중 친자확인에 DNA 염기서열을 이용하려는 시도가 최근에 연구되고 있다. 본 연구는 DNA의 반복 염기서열을 이용하여 수작업으로 이루어지고 있는 친자 찬인 방법을 데이터베이스 기술을 이용하여 수행하는 최초의 연구이다. 방대한 양의 자료에서 친자확률을 계산하는데 걸리는 시간은 DB를 구축하는 방법에 크게 좌우된다. 본 논문에서는 친자확률을 계산하는 시간을 최소화할 수 있는 DB를 설계하고 또한 최소 시간내에 질의 결과를 획득하는 질의 구성하는 방법을 제안한다.

  • PDF

Sequence Alignment Algorithm using Quality Information (품질 정보를 이용한 서열 배치 알고리즘)

  • Na, Joong-Chae;Roh, Kang-Ho;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.32 no.11_12
    • /
    • pp.578-586
    • /
    • 2005
  • In this Paper we consider the problem of sequence alignment with quality scores. DNA sequences produced by a base-calling program (as part of sequencing) have quality scores which represent the confidence level for individual bases. However, previous sequence alignment algorithms do not consider such quality scores. To solve sequence alignment with quality scores, we propose a measure of an alignment of two sequences with orality scores. We show that an optimal alignment in this measure can be found by dynamic programming.