• 제목/요약/키워드: DNA strings

검색결과 14건 처리시간 0.043초

DNA 스트링에 대하여 써픽스 배열을 구축하는 빠른 알고리즘 (Fast Construction of Suffix Arrays for DNA Strings)

  • 조준하;김남희;권기룡;김동규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권8호
    • /
    • pp.319-326
    • /
    • 2007
  • DNA 스트링과 같은 대용량의 데이타에 대한 빠른 검색을 수행하기 위해서는 전체 텍스트 인덱스 자료구조를 구축하여 검색하는 방법이 효율적이다. 가장 일반적인 인덱스 자료구조는 써픽스 트리와 써픽스 배열이다. 써픽스 배열은 써픽스 트리보다 적은 공간을 사용하기 때문에 DNA 스트링과 같은 대용량의 데이타에 적합한 자료구조이다. 기존의 써픽스 배열 구축 알고리즘들은 정수 문자집합에 적합한 알고리즘들이어서 DNA 스트링에 적합하지 않았다. 본 논문에서는 DNA 스트링의 문자집합이 4로 고정되어 있는 사실을 이용하여 DNA 스트링에 대한 써픽스 배열을 마르게 구축하는 방법을 제안한다. 고정길이 문자집합에 효율적인 Kim et. al.[1]의 알고리즘의 인코딩 과정과 합병 과정 개선으로 전체 구축 시간을 향상시켰다. 실험 결과 1.3배에서 1.6배 정도 구축 속도가 향상되었으며, 기존의 다른 써픽스 배열 구축 알고리즘들과 비교한 결과에서도 대부분 가장 빠르게 써픽스 배열을 구축하였다.

A GENERALIZED 4-STRING SOLUTION TANGLE OF DNA-PROTEIN COMPLEXES

  • Kim, Soo-Jeong
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제15권3호
    • /
    • pp.161-175
    • /
    • 2011
  • An n-string tangle is a three dimensional ball with n strings properly embedded in it. A tangle model of a DNA-protein complex is first introduced by C. Ernst and D. Sumners in 1980's. They assumed the protein bound DNA as strings and the protein as a three dimensional ball. By using a tangle analysis, one can predict the topology of DNA within the complex. S.Kim and I. Darcy developed the biologically reasonable 4-string tangle equations and decided a solution tangle, called R-standard tangle. The author discussed more about the simple solution tangles of the equations and found a generalized R-standard tangle solution.

DNA 서열분석을 위한 거리합기반 문자열의 근사주기 (Approximate Periods of Strings based on Distance Sum for DNA Sequence Analysis)

  • 정주희;김영호;나중채;심정섭
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.119-122
    • /
    • 2013
  • 주기와 같은 반복문자열에 대한 연구는 데이터압축, 컴퓨터활용 음악분석, 바이오인포매틱스 등 다양한 분야에서 진행되고 있다. 바이오인포매틱스 분야에서 주기는 유전자 서열이 반복적으로 나타나는 종렬중복과 밀접한 관련이 있으며 이는 근사문자열매칭을 이용한 근사주기 연구와 관련이 있다. 본 논문에서는 기존의 근사주기에 대한 정의를 보완하는 거리합기반 근사주기를 정의하고 이에 대한 연구 결과를 제시한다. 길이가 각각 m과 n인 문자열 p와 x가 주어졌을 때, p의 x에 대한 거리합기반 최소 근사주기거리를 가중편집거리에 대해 $O(mn^2)$ 시간, 편집거리에 대해 O)(mn) 시간, 해밍거리에 대해 O(n) 시간에 계산하는 알고리즘을 제시한다.

DNA 코딩 기반 카오스 시스템의 퍼지 모델링 (DNA coding-Based Fuzzy System Modeling for Chaotic Systems)

  • 김장현;주영훈;박진배
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 추계학술대회 논문집 학회본부 B
    • /
    • pp.524-526
    • /
    • 1999
  • In the construction of successful fuzzy models and/or controllers for nonlinear systems, the identification of a good fuzzy inference system is an important yet difficult problem, which is traditionally accomplished by a time-consuming trial-and-error process. In this paper, we propose a systematic identification procedure for complex multi-input single-output nonlinear systems with DNA coding method. A DNA coding method is optimization algorithm based on biological DNA as conventional genetic algorithms(GAs) are. The strings in the DNA coding method are variable-length strings, while standard GAs work with a fixed-length coding scheme. the DNA coding method is well suited to learning because it allows a flexible representation of a fuzzy inference system. We also propose a new coding method fur applying the DNA coding method to the identification of fuzzy models. This coding scheme can effectively represent the zero-order Takagi-Sugeno(TS) fuzzy model. To acquire optimal TS fuzzy model with higher accuracy and economical size, we use the DNA coding method to optimize the parameters and the number of fuzzy inference system. In order to demonstrate the superiority and efficiency of the proposed scheme, we finally show its application to a Duffing-forced oscillation system.

  • PDF

Automatic Reading System for On-off Type DNA Chip

  • Ryu, Mun-Ho;Kim, Jong-Dae;Kim, Jong-Won
    • Journal of Information Processing Systems
    • /
    • 제2권3호
    • /
    • pp.189-193
    • /
    • 2006
  • In this study we propose an automatic reading system for diagnostic DNA chips. We define a general specification for an automatic reading system and propose a possible implementation method. The proposed system performs the whole reading process automatically without any user intervention, covering image acquisition, image analysis, and report generation. We applied the system for the automatic report generation of a commercialized DNA chip for cervical cancer detection. The fluorescence image of the hybridization result was acquired with a $GenePix^{TM}$ scanner using its library running in HTML pages. The processing of the acquired image and the report generation were executed by a component object module programmed with Microsoft Visual C++ 6.0. To generate the report document, we made an HWP 2002 document template with marker strings that were supposed to be searched and replaced with the corresponding information such as patient information and diagnosis results. The proposed system generates the report document by reading the template and changing the marker strings with the resultant contents. The system is expected to facilitate the usage of a diagnostic DNA chip for mass screening by the automation of a conventional manual reading process, shortening its processing time, and quantifying the reading criteria.

DNA 코딩을 이용한 multi-modal 함수의 최적점 탐색방법 (Global Optimum Searching Technique of Multi-Modal Function Using DNA Coding Method)

  • 백동화;강환일;김갑일;한승수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.225-228
    • /
    • 2001
  • DNA computing has been applied to the problem of getting an optimal solution since Adleman's experiment. DNA computing uses strings with various length and four-type bases that makes more useful for finding a global optimal solutions of the complex multi-modal problems. This paper presents DNA coding method for finding optimal solution of the multi-modal function and compares the efficiency of this method with the genetic algorithms (GA). GA searches effectively an optimal solution via the artificial evolution of individual group of binary string and DNA coding method uses a tool of calculation or Information store with DNA molecules and four-type bases denoted by the symbols of A(Ademine), C(Cytosine), G(Guanine) and T(Thymine). The same operators, selection, crossover, mutation, are applied to the both DNA coding algorithm and genetic algorithms. The results show that the DNA based algorithm performs better than GA.

  • PDF

TOPOLOGICAL ANALYSIS OF MU-TRANSPOSITION

  • Kim, Soojeong
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제17권2호
    • /
    • pp.87-102
    • /
    • 2013
  • An n-string tangle is a three dimensional ball with n-strings which are properly embedded in the ball. In early 90's, C. Ernst and D. Sumners first used a tangle to describe a DNA-protein complex. In this model, DNA is represented by a string and protein is represented by a ball. Mu is a protein which binds to DNA at three sites and a DNA-Mu complex is called Mu-transpososome. Knowing the DNA topology within Mu-transpososome is very important to understand DNA transposition by Mu protein. In 2002, Pathania et al. determined that the DNA configuration within the Mu transpososome is three branched and five noded [12]. In 2007, Darcy et al. analyzed this by using mathematical tangle and concluded that the three branched and five noded DNA configuration is the only biologically reasonable solution [4]. In this paper, based on the result of Pathania et al. and Darcy et al., the author determines the DNA topology within the DNA-Mu complex after the whole Mu transposition process. Furthermore, a new experiment is designed which can support the Pathania et al.'s result. The result of this new experiment is predicted through mathematical knot thory.

대용량 DNA서열 처리를 위한 서픽스 트리 생성 알고리즘의 개발 (Suffix Tree Constructing Algorithm for Large DNA Sequences Analysis)

  • 최해원
    • 한국산업정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.37-46
    • /
    • 2010
  • 서픽스 트리는 데이터의 내부구조를 자세히 나타내고 선형시간 탐색이 가능한 효과적인 자료구조로서 DNA 서열분석 등에 유용하다. 그러나 서열을 서픽스 트리로 구축하는 경우 트리의 크기가 원본의 최소 30배 이상으로 커지므로 테라바이트(TB)급의 대용량 DNA 서열의 경우에 메모리상의 응용은 매우 어려운 문제점이 있다. 이에 본 논문에서는 디스크를 이용한 대용량 DNA의 서픽스 트리 응용기법을 제시한다. 이때 DNA 서열구조를 고려한 서픽스 트리 선형 탐색 특성 유지를 보장한다. 이를 검증하기 위하여 9G Byte의 유전자 단편 서열을 이용해 424G Byte의 서픽스 트리를 디스크에 구축한 다음, 임의의 질의 서열에 대해 KMP알고리즘과 비교한 결과 질의 응답시간에서 우수한 성능을 보였다.

N과 X를 포함하는 DNA 서열을 위한 효율적인 지역정렬 알고리즘 (An Efficient Local Alignment Algorithm for DNA Sequences including N and X)

  • 김진욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.275-280
    • /
    • 2010
  • 지역정렬(local alignment) 알고리즘은 주어진 두 서열에서 서로 유사한 부분 문자열을 찾아내는 알고리즘이다. DNA 서열은 A, C, G, T 외에 N과 X도 가질 수 있는데, N과 X는 DNA로부터 염기배열 정보를 뽑아낼 때 실험적인 이유로 혹은 다른 이유로 일부 배열 정보를 잃어버린 경우에 사용된다. 본 논문에서는 A, C, G, T 이외에 N과 X를 모두 갖는 DNA 서열의 affine gap penalty metric에 대한 지역정렬을 찾는 효율적인 알고리즘을 제시한다. 이는 N만 처리할 수 있는 Kim-Park 알고리즘을 N과 X를 모두 처리할 수 있도록 성공적으로 확장한 결과이며, 더불어 새로운 문자가 추가되더라도 바로 적용이 가능한 일반화된 결과이다.

DNA 코딩과 진화연산을 이용한 함수의 최적점 탐색방법 (Global Optimum Searching Technique Using DNA Coding and Evolutionary Computing)

  • 백동화;강환일;김갑일;한승수
    • 한국지능시스템학회논문지
    • /
    • 제11권6호
    • /
    • pp.538-542
    • /
    • 2001
  • DNA computing 은 Adleman 실험 이후에 많은 여러 가지 최적화 문제에 적용되어 왔다. DNA computing의 장점은 스트링의 길이가 가변적이고 4가지 염기를 이용하기 때문에 복잡한 문제에 전역 최적점을 찾는데 기존의 다른 방법보다는 효율적이라는것이다. 본 논문에서는 이진 스트링의 개체 지단 위에서 모의진화를 일으켜 효율적으로 최적 해를 탐색하는 GA(Genetic Algorithms)와 생체 분자와 DNA를 계산의 도구 및 정보 저장도구로 사용하여 A(Adenine). C(Cytosine), G(Guanine), T(Thymine)등의 4가지 염기를 사용하는 DNA 코딩방법을 이용하여multi-modal 함수의 전역 최적점을 탐색하는 문제에서의 각각의 성능을 조사하였다. Selection, crossover, mutation등의 GA연산자를 DNA를 코딩에 동일하게 적용하였으며 최적의 해를 탐색하는데 걸리는 시간과 찾아낸 최적해의 값을 평가한다.을 평가한다.

  • PDF