• 제목/요약/키워드: 염기 서열

검색결과 2,656건 처리시간 0.025초

다염기변이 및 메타유전체 염기서열 생성도구에 관한 연구 (A Study on a tool to generate polymorphic genome and metagenome sequences)

  • 김종현;김우철;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.262-263
    • /
    • 2007
  • 유전체학 (genomics)의 가장 기초적인 기반이 되는 것은 염기서열을 정확하게 결정해 내는 것이다. 많은 진핵생물들 (eukaryotes)은 두개의 상동염색체를 가지며 두개의 염색체의 염기서열에는 차이가 존재한다. 현재의 유전체 염기서열 결정방법으로는 염기변이가 많이 존재할 경우 유전체의 염기서열을 결정하기 어렵다. 특정한 장소에 서식하는 무수히 많은 미생물들의 유전체의 염기서열을 동시에 결정하는 문제도 미생물학에서 중요성을 인정받는 문제이지만, 미생물들간의 염기변이의 정도는 단일개체의 경우보다 복잡하며 염기서열을 효과적으로 결정하기 힘들다. 따라서 염기변이가 많은 생물들과 미생물들 집합의 염기서열을 결정할 수 있는 방법론의 개발이 시급한 실정이다. 본 논문에서는 조립된 다염기변이 유전체및 메타유전체의 염기서열의 정확성을 평가하기 위한 유전체 서열과 시뮬레이션에 기반한 read 들을 생성하는 도구를 개발하는 것을 목표로 한다.

복수 염기서열 정렬을 위한 한 유용성 알고리즘 (An effcient algorithm for multiple sequence alignment)

  • 김진;송민동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.51-53
    • /
    • 1998
  • 3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 복수 염기서열 정렬(multiple sequence alignment)방법은 염기서열들 사이의 진화관계, gene regulation, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 복수 염기서열 정렬문제는 NP-complete 문제군에 속하며, 이 문제를 해결하기 위하여 가장 유용하게 사용되는 알고리즘으로는 dynamic programming이 있다. Dynamic programming은 주어진 입력 염기서열 군들에 대한 최적의 정렬을 생산할 수 있다. 그러나 dynamic programming의 단점은 오랜 실행시간이 요구되며, 때로는 dynamic programming의 속성 때문에 이 알고리즘을 사용하여도 주어진 입력 염기서열 군들에 대한 최적의 정렬을 얻어내지 못하는 경우가 있다. 본 연구에서는 이러한 dynamic programming의 문제를 해결하기 위하여 genetic algorithm을 복수 염기서열 정렬문제에 적용하였다. 본 논문에서는 genetic algorithm의 design과 적용방법을 기술하였다. 본 연구에서 제안된 genetic algorithm을 사용하여 dynamic programming의 단점이었던 오랜 실행시간을 줄일 수 있었으며, dynamic programming이 제공하지 못하는 최적의 염기서열 정렬을 제공할 수 있었다.

  • PDF

이배체 유전체들의 서열비교를 위한 유전체 염기서열 생성도구 개발 (Development of a tool to generate diploid genome sequences for whole-genome alignments.)

  • 김종현;박치현;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.272-273
    • /
    • 2007
  • 현대 유전체학 기술의 진보는 생물학적으로 중요한 의미를 갖는 생물들의 유전체 서열의 규명 genome sequencing)에 힘입은 바 크다. 기존의 유전체 서열결정법은 주로 염기변이율이 낮은 생물들에 초점을 맞추어 왔다. 하지만 염기변이율이 높은 생물들의 유전체 염기서열을 결정할 필요가 높아짐에 따라 이를 위한 방법론에 대한 연구가 활발히 진행되고 있다. 염기변이율이 높은 생물들의 이배체 (diploid) 유전체 서열이 효과적으로 결정될 수 있을 경우 기존의 유전체 서열비교의 방법론에도 변화가 요청되고 있는 실정이다. 기존의 유전체 서열비교 (whole-genome alignment) 방법론은 반수체 (haploid) 유전체들의 서열비교을 위해 개발되었지만, 염기변이율이 높은 생물들의 유전체 서열비교에는 반수체 유전체들 비교에 특화된 도구들이 필요하다. 또한 현재 서열비교를 시각화하는 소프트웨어들도 반수체 유전체 비교를 위해 개발된 실정이다. 본 논문의 목표는 이배체 유전체 서열을 비교하는 방법론을 개발을 용이하기위해 이배체 유전체의 서열을 생성하는 도구를 개발하는 것이다. 개발된 도구는 실제 일어날 수 있는 염기변이와 genomic rearrangement를 사용자의 입력을 받아 다수의 생물들의 유전체 서열을 생성해 낸다. 이를 통해 이배체 유전체 서열을 비교하는 도구의 개발을 용이하게 하는데 초첨을 맞추고 있다.

진화 알고리즘을 사용한 복수 염기서열 정렬 (Multiple Sequence Aligmnent Genetic Algorithm)

  • 김진;송민동;최홍식;장연아
    • 미생물학회지
    • /
    • 제35권2호
    • /
    • pp.115-120
    • /
    • 1999
  • 3개 이상의 DNA 혹은 단백질의 염기서열을 정렬하는 복수 염기서열 정렬은 염기서열들 사이의 진화관계, gene regulation, 단백질의 구조와 기능에 관한 연구에 필수적인 도구이다. 복수 염기서열 정렬을 얻기 위한 기존의 방법은 progressive pairwise alignment 와같이 빠른 실행시간 내에 만족할 만한 복수 염기서열 정렬을 제공하는 방법과, 최적의 복수 여기서열 정렬을 제공하나 실행시간이 상대적으로 긴 dynamic programming 과 같은 방법 등이 있다. 본 논문에서는 진화 알고리즘을 사용하여 기존의 방법에서 제공하는 복수 염기서열 정렬을 짧은 시간내에보다 개선된 복수 염기서열 정렬을 획득하게 하는 방법을 제시하였으며, 진화 알고리즘의 구성내용을 설명하였으며, 실제의 염기서열을 사용하여 이 방법의 장점을 보였다.

  • PDF

해녀콩 Uricase II의 cDNA 염기서열과 발현 (Nucleotide Sequences and Expression of cDNA Clones Encoding Uricase II in Canavalia lineata)

  • 김호방
    • Journal of Plant Biology
    • /
    • 제36권4호
    • /
    • pp.415-423
    • /
    • 1993
  • 대두의 uricase II cDNA를 탐침으로 plaque 혼성화 방법에 의해 해녀콩의 뿌리를 cDNA library로부터의 두 개의 phage 클론(λCINUO-01, λCINUO-02)을 선별하였다. 두 phage 클론은 약 1.6 kb와 1.0 kb의 insert를 갖고 있었으며 이들의 염기서열을 결정하기 위하여 pUC19과 pBSKS vector에 subcloing(pcCLNUO-01, pcCLNUO-02)하였다. Sanger법에 의해 염기서열을 결정한 결과, 두 클론은 각각 1,611 bp와 1,024 bp로 이루어져 있었으며 pcCINUO-01은 308개의 아미노산, pcCINUO-02는 301개의 아미노산을 암호화하는 open reading frame(ORF)을 갖고 있었다. 두 클론의 ORF의 염기서열은 대두의 uricase II와 각각 88.9%, 89.3%의 상동성을 보여주었으며, 아미노산 서열은 84.1%, 85.4%의 상동성을 보여주었다. pcCINUO-01의 경우, 종결코돈으로부터 313 NT 하류쪽에 진핵생물의 poly(A) 첨가신호인 AATAAA 서열이 존재하였으며 이로부터 21 NT 하류쪽에 17 잔기의 poly(A)가 존재하였다. 두 클론의 염기서열에서 추정된 아미노산 서열의 카르복시 말단에는 세포질에서 합성된 몇몇 단백질들이 peroxisome으로 수송되는데 필요한 신호서열인 Ser-Lys-Leu-COOH 서열이 존재하고 있었다. 두 클론의 염기서열을 토대로 아미노산 조성을 살펴본 결과, 염기성 아미노산(Arg, His, Lys)과 산성 아미노산(Asp, Glu)이 각각 46 대 35, 47 대 35의 비를 보여주었는데 이는 uricase II 단백질의 염기성 성질을 보여주는 결과로 추정된다. Northern 혼성화 결과 해녀콩에서 uricase II는 뿌리혹에서만 특이적으로 발현됨을 알 수 있었고 게놈 혼성화 반응 결과는 uricase II 유전자가 해녀콩 게놈상에 유전자 가족으로는 존재할 수 있음을 보여주었다.

  • PDF

데이터 베이스를 이용한 웹 기반 계통수 추론 시스템 설계 (Design of Web-based Phylogentic Tree Inference System Using DataBase)

  • 김신석;황부현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.121-124
    • /
    • 2001
  • 계통수는 특정 객체의 분류 즉 특정 객체로부터 추출한 염기서열을 이용하여 그 객체의 소속 분류 집단을 결정하기 위해서 사용될 수 있다. 만약 특정지역에서 획득한 토끼의 종을 구분하기 위해서 이미 분류된 토끼의 염기서열들을 가지고 염기서열들과의 관계를 표현하는 계통수를 제작함으로써, 객체를 분류 할 수 있다. 계통수 제작은 기존의 계통수 제작 도구들(MEGA등)이 사용되지만, 이러한 계통수 제작 도구는 객체의 어떤 특성에 의해서 종이 나뉘어지는 가는 예측 할 수 없다. 계통수 제작에 이용되는 염기서열 데이터는 기존의 염기서열 데이터 베이스들(EMBL, GenBank, DDBJ)에서 인터넷을 이용하여 찾을 수 있지만, 계통생물학을 위해 누적된 데이터가 아니므로, 계통수 제작을 위해서는 사용이 제한적이다. 또 계통수 제작 도구을 사용하기 위해서는 자신이 관련 염기서열 데이터를 수집하여야 한다. 본 논문은 웹기반 계통수 추론 시스템을 제시한다. 본 시스템은 염기서열 데이터를 검색하여, 계통 분류 즉 계통수 제작을 위한 데이터로 저장하고, 이를 이용하여 계통수를 그릴 수 있다. 또한 이렇게 저장된 데이터는 데이터 마이닝 분류 기법을 사용하여, 각 객체 분류 집단을 모델링하며, 분류 속성을 예측할 수 있다.

  • PDF

스트링 B-트리를 이용한 염기 서열의 k-mer 분석 시스템 구현 (Implementation of k-mer Analysis System for DNA Sequence Using String B-Tree)

  • 최정현;진희정;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.748-750
    • /
    • 2001
  • 최근 Human Genome Project(HGP)에서 사람의 염기 서열의 초안이 발표되었다. 생물체의 염기 서열을 분석하는 방법은 매우 많은데, 그 중 하나가 k-mer 분석이다. k-mer는 유전자의 염기 서열내의 길이가 k인 연속된 염기 서열이다. k-mer 분석은 염기서열이 가진 k-mer들의 빈도의 분포나 대칭성 등을 탐색하는 것이다. 그런데 유전자의 염기 서열은 대용량 텍스트이고 k가 줄 때 기존의 온메모리 알고리즘으로는 처리가 불가능하므로 효율적인 자료구조와 알고리즘이 필요하다. 본 논문에서는 패턴 일치(pattern matching)에 적합하고 외부 메모리를 지원하는 스트링 B-트리(string B-tree)를 이용한 k-mer 분석 방법을 제시하고, 그것을 구현하였으며 몇 가지 실험 결과에 대하여 기술한다.

  • PDF

염기분포와 대치 비교를 이용한 염기서열 집단의 고유 시그너쳐 추출 (Characteristic Signature Extraction using the Base Distribution Substitution Comparison)

  • 황경순;이혜리;이건명;김성수;이찬희;이성덕;윤형우
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.419-422
    • /
    • 2007
  • 유전자 변이가 쉽게 일어나는 바이러스 등은 변이 계통에 따라 집단을 형성하게 된다. 이러한 집단들에 대한 분석은 해당 바이러스 집단에 대한 추적, 백신 및 치료약 개발에서 필수적이다. 어떤 집단의 염기 서열의 특성을 효과적으로 표현하는 패턴을 시그너쳐라 하며, 이러한 시그너쳐는 특정 염기서열 집단의 고유한 특성을 나타내면서 다른 집단과 구별되는 정보를 포함하는 것이 바람직하다. 이 논문에서는 가능한 후보 시그너쳐들을 염기분포를 이용하여 생성해가면서, 시그너쳐 해당부위의 염기를 상대 서열집단의 공통 서열의 염기로 변환하여 집단간의 상대거리를 측정함으로써, 후보 시그너쳐에 의한 집단의 고유성질 표현능력과 집단간 차별화 능력을 고려하여 시그너쳐를 추출하는 방법을 제안한다.

  • PDF

지능적 다중염기서열 변환 도구의 설계 및 구현 (Design and Implementation of an Intelligent Multiple DNA Sequence Translation Tool)

  • 이혜리;이건명;이찬희;이성덕;김성수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.37-40
    • /
    • 2006
  • 계통분석을 하는 생물학자들은 관련된 분석대상에 대한 정보를 확보하여 비교분석하기 위해 NCBI 등으로부터 염기서열을 확보하여 아미노산 서열로 변환하는 작업을 수행하게 된다. 많은 서열 데이터에 대해서 데이터베이스로부터 데이터를 검색하고 이를 변환하는 작업을 순차적으로 분석자가 관여하여 작업하는 것이 현재 분석환경이다. 따라서 본 논문에서는 분석의 효율성을 향상시키기 위해, 관심서열의 등록번호(Accession Number) 리스트를 입력하면 해당 서열에 대항 정보를 NCBI로부터 웹로봇을 통해 자동으로 확보한 다음, 확보된 염기서열 전체를 아미노산 서열로 자동 변환하여 가장 긴 ORF(Open Reading Frame)을 추천해주기 위해 설계된 지능형 다중 염기서열 변환 도구에 대해서 소개한다.

  • PDF

As계의 오이 모자이크 바이러스 RNA4의 염기서열 결정 (Determination of Nucleotide Sequences of cDNA from Cucumber Mosaic Virus-As RNA4)

  • 김상현;박원목;이세영;박영인
    • 한국식물병리학회지
    • /
    • 제12권2호
    • /
    • pp.176-181
    • /
    • 1996
  • Aster yomena로부터 분리한 오이 모자이크 바이러스(cucumber mosaic virus) (CMV-As)의 RNA4로부터 완전한 길이의 cDNA를 합성하고 그 전체적인 염기서열(1,043 nt`s)을 결정하였다. CMV-As RNA4는 73개의 염기로 구성된 5`말단의 leader 부위, 657개의 염기로 구성된 외피단백질(coat protein) 유전자 부위 및 312개의 염기로 구성된 3` 말단의 비번역 부위로 구성되어 있음을 확인하였다. 외피단백질 유전자 부위의 염기서열을 다른 계통의 CMV와 비교해 볼 때 그 염기서열이 보전적으로 존재하고 있으나 그 외의 부분은 다양함을 확인하였다. 특히 3` 말단부위의 61개의 염기로 구성된 부위(959-1019)는 다른 계통의 CMV에서는 상당히 유사하지만 CMV-As도 다른 CMV처럼 tRNA와 유사한 구조를 역시 형성함을 확인하였다. CMV-As의 RNA4 염기서열을 다른 계통의 CMV와 비교할 때 CMV-I17F와 가장 유사하였으며(91.9%) S형의 CMV-M과는 가장 낮은 동일성을 보였다(71.1%). 외와 같은 염기성열의 비교 결과와 EcoRI 제한효소 인식부위의 존재로 미루어 CMV-As는 WT형으로 분류된다.

  • PDF