• 제목/요약/키워드: contig

검색결과 64건 처리시간 0.028초

히알우론산 유도하에 히알우로네이트 라이아제를 생산하는 Vibrio splendidus KCTC 11899BP균주의 유전체 서열 분석 (Draft genome sequences of Vibrio splendidus KCTC 11899BP, which produces hyaluronate lyase in the presence of hyaluronic acid)

  • 박주웅;이상은;신운섭;김경진;김연욱
    • 미생물학회지
    • /
    • 제54권3호
    • /
    • pp.302-304
    • /
    • 2018
  • 우리는 처음으로 바닷물에서 히알우론산 분해효소를 생산하는 균주인 Vibrio splendidus KCTC 11899BP를 분리하고 동정했다. KCTC 11899BP는 히알우론산(HA)이 기초 배지에 첨가 될 때에만 Hyaluronate lyase를 생산하며, 이 효소는 HA의 ${\beta}$-(1, 4) 결합을 분해하여 이당(disaccharide)을 생성시키는 효소로서 미생물에 의해 생산된다. 게놈 염기서열분석을 통해, KCTC 11899BP의 게놈은 2개의 염색체를 보유하는 다른 Vibrio sp.와 유사하게 각각 3,522 kb (contig 1)와 1,986 kb (contig 2)인 두 개의 원형 contig로 구성되어 있다는 것을 확인하였다. 또한 4,700개의 예측 오픈 리딩 프레임, G + C 함량 44.12%, 137개의 tRNA 유전자 및 46개의 rRNA 유전자를 포함하고 있다는 것을 확인했다.

DNA 염기 서열로부터 contig 구성을 위한 프로그램 XFAP의 개발 (Development of an X-window Program, XFAP, for Assembling Contigs from DNA Fragment Data)

  • 이병욱;박기정;김승목
    • 미생물학회지
    • /
    • 제34권1_2호
    • /
    • pp.58-63
    • /
    • 1998
  • 'Contig 구성문제'는 random sequencing 단편들로부터 DNA 염기 서열의 정보를 밝혀낼 경우 발생하는 문제이다. 본 연구에서는 이러한 contig 구성문제를 해결하기 위한 알고리즘을 구성하였으며, X-window 응용 프로그램인 XFAP을 개발하였다. XFAP에서는 dimer 빈도 비교 방법을 사용하여 중첩 가능성이 없는 단편을 효과적으로 제거하였다. 이 방법은 단편 쌍 중첩에서 최소 수용 중첩 길이 내의 각 단편 사이의 dimer 빈도 차이를 이용하여 단편 쌍을 선별하는 것이다. 또한 단편 쌍 최대치 정렬 과정의 메모리 사용량을 줄이기 위해서, Myers 알고리즘을 적용하여 linear space에서 최대치 정렬을 구하는 방법을 사용하였다. 그리고 본 프로그램은 사용자들에게 편리한 그래픽 환경을 제공하기 위해서 Motif 라이브러리를 사용하여 X-window에서 구현되었다. 본 프로그램의 테스트 데이터를 생성하기 위해서 GenBank 데이터베이스에서 일정 길이의 염기 서열을 추출한 다음, sequencing시 일어날 수 있는 모든 오류들을 고려하여 단편 샘플을 생성하였다. 단편 샘플에 대해서 dimer 빈도 비교 방법의 효과 및 실행 시간을 측정하였다. 특히 dimer 빈도 비교 방법의 효율은 단편의 길이에 비례하여 증가하는 것으로 나타났다.

  • PDF

미생물 유전체 프로젝트 수행을 위한 Base-Calling 오류 감지 프로그램 및 알고리즘 개발 (A Base-Calling Error Detection Program for Use in Microbial Genome Projects)

  • 이대상;박기정
    • 미생물학회지
    • /
    • 제43권4호
    • /
    • pp.317-320
    • /
    • 2007
  • 미생물 유전체 프로젝트를 수행하는 과정에서 발생하는 base-calling 오류를 포함하는 것으로 의심되는 유전자나 염기서열의 리스트를 보여 주는 프로그램을 개발하였다. 이 프로그램의 모듈들은 base-calling 오류로 의심되는 염기들의 후보군을 유전체 프로젝트를 수행하는 주요 단계에서 감지할 수 있도록 하였다. 이들 프로그램들은 초기 단계에서는 Phrap 파일에 존재하는 contig assembly 정보를 이용하여 base-calling 오류를 감지하는 모듈, 중간 단계에서는 상동성 검색 결과물로부터 frame skift 돌연변이의 진위 유무를 분석할 수 있는 모듈, 마지막 단계에서는, 이미 발표된 미생물 유전체와 같은 종으로부터 유래된 균주에 대한 유전체 프로젝트를 수행할 경우, 비교유전체 분석 기법을 활용하여 base-calling 오류 가능성이 높은 서열의 후보군을 추출하여 해당서열의 크로마토그램파일을 유전체 연구자가 볼 수 있는 모듈로 구성되어 있다.

염기서열 해독작업을 위한 핵산 단편 조립 프로그램의 개발 (Development of Contig Assembly Program for Nucleotide Sequencing)

  • 이동훈
    • 미생물학회지
    • /
    • 제35권2호
    • /
    • pp.121-127
    • /
    • 1999
  • 염기서열 해독작업에서 각 핵산 단편을 조립하는 contig 구성문제에 활용이 가능한 computer program을 개발하였다. 본 프로그램은 국내에서 광범위하게 사용되고 있는 MS-Windows 운영체제의 개인용 컴퓨터에서 작동이 가능하며, GenBank, FASTA, ASCII 등과 같은 다양한 형태의 염기서열 자료를 입력할 수 있다. 두 단편에서 최대 유사도를 나타내는 부분을 정렬하는 작업에는 염기서열의 국부적 상동성을 계산하고 dynamic programming 알고리즘을 적용하는 방법을 이용하였다. 또한 사용하기 편리한 그래픽 방식의 인터페이스를 제공하여 초보자라도 손쉽게 조작할 수 있다는 장점을 갖는다. 본 프로그램의 성능을 검증하기 위하여 세균과 곰팡이로부터 해독된 16S rRNA 와 18S rRNA 유전자의 단편 염기서열을 재구성하는 작업에 프로그램을 사용하였을 때에 효율적인 작업이 가능하였다.

  • PDF

Seed기반의 short read aligner 구현에 관한 연구

  • 지민근;김정규;이강만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1107-1109
    • /
    • 2019
  • 차세대 게놈 시퀀싱(NGS) 기술이 발전하면서 방대하게 축적된 유전체 데이터를 분석하기 위해 다양한 시퀀스 정렬 연구가 진행되고 있다. 시퀀스 정렬 중 잘 알려진 BLAST에서는 휴리스틱 기반의 시퀀스 정렬을 수행하여 긴 리드 시퀀스에 대해 속도와 안정성이 보장되지만 짧은 리드 시퀀스에 대해서는 성능이 저하되는 문제가 있다. 이 문제를 해결하기 위해 본 논문에서는 레퍼런스 시퀀스와 쿼리 시퀀스를 Seed 기반으로 분리하여 정렬을 수행한다. 최종적으로는 contig를 추출하고 레퍼런스-쿼리간 유효한 contig만 선별하여 빠르게 짧은 리드 시퀀스들의 정렬을 수행할 수 있는 정렬기를 구현하고자 한다.

의존성 반영 분해모델에 의한 유전자의 핵심 프로모터 영역 예측 (Prediction of Core Promoter Region with Dependency - Reflecting Decomposition Model)

  • 김기봉;박기정;공은배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.379-387
    • /
    • 2003
  • 다수의 미생물 유전체 프로젝트들이 완료되면서 엄청난 양의 유전체 핵산 염기서열 데이터들이 양산되고 있다. 이러한 상황에서 전산 기법을 이용하여 유전체 DNA 염기서열 상에서 유전자의 프로모터 영역을 규명하는 문제는 최근에 상당한 연구의 관심대상으로 떠오르고 있다. 본 논문에서는 전사조절의 핵심 역할을 하는 -10 영역과 전사개시 부위를 포함한 원핵생물의 핵심 프로모터 영역에 대한 의존성 반영 분해모델 (Dependency-Reflecting Decomposition Model)을 제안한다. 이 모델은 인접한 위치에 존재하는 핵산 염기들 사이의 의존성뿐만 아니라 인접하지 않은 위치의 핵산 염기들간의 의존성까지 고려함으로써 핵산 염기서열 상에 내포되어있는 중요한 생물학적 의존성들을 함축하고 있다. DRDM 모델은 우수한 성능평가 결과를 보였으며. 미생물 유전체 Contig들 상에서 임의의 유전자 프로모터를 예측하는데 효과적으로 이용될 수 있다.

A data management system for microbial genome projects

  • Ki-Bong Kim;Hyeweon Nam;Hwajung Seo and Kiejung Park
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2000년도 International Symposium on Bioinformatics
    • /
    • pp.83-85
    • /
    • 2000
  • A lot of microbial genome sequencing projects is being done in many genome centers around the world, since the first genome, Haemophilus influenzae, was sequenced in 1995. The deluge of microbial genome sequence data demands new and highly automatic data flow system in order for genome researchers to manage and analyze their own bulky sequence data from low-level to high-level. In such an aspect, we developed the automatic data management system for microbial genome projects, which consists mainly of local database, analysis programs, and user-friendly interface. We designed and implemented the local database for large-scale sequencing projects, which makes systematic and consistent data management and retrieval possible and is tightly coupled with analysis programs and web-based user interface, That is, parsing and storage of the results of analysis programs in local database is possible and user can retrieve the data in any level of data process by means of web-based graphical user interface. Contig assembly, homology search, and ORF prediction, which are essential in genome projects, make analysis programs in our system. All but Contig assembly program are open as public domain. These programs are connected with each other by means of a lot of utility programs. As a result, this system will maximize the efficiency in cost and time in genome research.

  • PDF

K-mer Based RNA-seq Read Distribution Method For Accelerating De Novo Transcriptome Assembly

  • Kwon, Hwijun;Jung, Inuk
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.1-8
    • /
    • 2020
  • 본 논문에서는 드노보 전사체 어셈블리의 수행시간을 단축하기 위해 RNA-seq 서열을 유전자계 정보를 활용하여 여러 노드로 분산이 가능한 방법을 제시한다. 제안하는 전사체 서열 데이터 분산기법의 성능을 측정하기 위해 애기장대의 리드를 4개의 데이터 셋(전체 비분류 리드, 완전 분류 리드, 모델 분류 리드, 무작위 분류 리드)으로 구성하여 실험을 수행하였다. 전체 비분류 데이터와 비교하여 생성된 유전자 콘티그(Contig)는 95% 일치하였고 동일한 리소스들을 사용하는 단일 노드에 비해 본 연구에서 제시하는 분산환경분산 환경 기반의 어셈블리 수행시간은 4.2배 단축되었다.

퍼지 추론기법을 이용한 DNA 염기 서열의 단편결합 (Fragment Combination From DNA Sequence Data Using Fuzzy Reasoning Method)

  • 김광백;박현정
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2329-2334
    • /
    • 2006
  • 본 논문에서는 기존의 conting 구성 프로그램의 단점인 단편들 간의 결합 실패를 보완하는 알고리즘을 제안하였다. 제안된 방법은 매우 긴 DNA의 염기 서열을 자동 서열 분석기로 한번에 분석 가능한 약 700개의 단편들을 한 주형으로 만들어 PCR 방법으로 클론 3을 생성 후, $600\sim700$개의 길이로 단편화하여 기준 주형과 비교하여 일치율을 계산한다. 이때 Compute Agreement 알고리즘을 이용하여 일치율을 계산하는 시간을 단축시킨다. 계산된 단편 쌍들의 중첩 정도를 기준으로 주형마다 2개의 결합 후보 단편을 추출하여 추출된 각 단편들의 일치율과 각 DNA 염기의 A,G,C,T 소속도 및 각 A,G,C,T 이 전 빈도수를 퍼지 추론 규칙을 이용하여 결합 여부를 판단한다. 본 논문에서는 결정된 최 적의 비교 단편을 결합하고, 더 이상 단편이 없을 때까지 반복하여 서열 결합을 완성한다. 실험을 위해 완성된 단백질 지놈인 'Synechocystis PCC6803'을 각각 1만개, 10만개씩 추출하여 $600{\sim}700$개의 길이를 가진 단편을 생성하였으며, 이 단편을 임 의의 mutation을 유발하여 실험한 결과, FAP 프로그램보다 속도가 줄어들었으며, conting 구성 프로그램의 단점 인 결합 실패가 발생하지 않았다.

차세대 염기서열 분석을 이용한 굴참나무(Quercus variabilis)의 microsatellite 마커 개발 및 특성 분석 (Identification and Characterization of Polymorphic Microsatellite Loci using Next Generation Sequencing in Quercus variabilis)

  • 백승훈;이제완;홍경낙;이석우;안지영;이민우
    • 한국산림과학회지
    • /
    • 제105권2호
    • /
    • pp.186-192
    • /
    • 2016
  • 본 연구는 차세대 염기서열 분석방법을 이용하여 굴참나무의 microsatellite 마커를 개발하고 특성을 분석하기 위해 수행되었다. GS-FLX Titanium 차세대 염기서열 분석 장비를 이용하여 305,771개의 read를 얻었고, 117 Mbp의 데이터를 생산하였다. De novo assembly를 통하여 7,326개의 contig를 확보하였다. 크기가 500 bp 이상이 되는 contig는 2,921개로 나타났다. 그 중 microsatellite 영역을 포함하는 contig는 606개(20.75%)로 나타났으며, 총 microsatellite의 수는 911개로 확인되었다. 그 중 13개의 microsatellite 유전자좌에서 굴참나무 개체 간 다형성이 관찰되었다. 이들 microsatellite 유전자좌에 대하여 주왕산 집단에서 관찰된 유효 대립유전자수($A_e$)는 평균 4.966(2.439~7.515)로 나타났다. 평균 이형접합도 관측치($H_o$)와 평균 이형접합도 기대치($H_e$)는 각각 0.873(0.731~1.000)과 0.766(0.590~0.867)으로 나타났다. 다형성이 관찰된 모든 microsatellite 유전자좌에서 null 대립유전자는 관찰되지 않았으며, 마커 간 연관불평형은 나타나지 않았다. 따라서 본 연구에서 개발된 13개의 microsatellite 마커는 굴참나무 집단의 유전변이 분석에 유용할 것으로 사료된다.