• 제목/요약/키워드: contig assembly

검색결과 25건 처리시간 0.03초

미생물 유전체 프로젝트 수행을 위한 Base-Calling 오류 감지 프로그램 및 알고리즘 개발 (A Base-Calling Error Detection Program for Use in Microbial Genome Projects)

  • 이대상;박기정
    • 미생물학회지
    • /
    • 제43권4호
    • /
    • pp.317-320
    • /
    • 2007
  • 미생물 유전체 프로젝트를 수행하는 과정에서 발생하는 base-calling 오류를 포함하는 것으로 의심되는 유전자나 염기서열의 리스트를 보여 주는 프로그램을 개발하였다. 이 프로그램의 모듈들은 base-calling 오류로 의심되는 염기들의 후보군을 유전체 프로젝트를 수행하는 주요 단계에서 감지할 수 있도록 하였다. 이들 프로그램들은 초기 단계에서는 Phrap 파일에 존재하는 contig assembly 정보를 이용하여 base-calling 오류를 감지하는 모듈, 중간 단계에서는 상동성 검색 결과물로부터 frame skift 돌연변이의 진위 유무를 분석할 수 있는 모듈, 마지막 단계에서는, 이미 발표된 미생물 유전체와 같은 종으로부터 유래된 균주에 대한 유전체 프로젝트를 수행할 경우, 비교유전체 분석 기법을 활용하여 base-calling 오류 가능성이 높은 서열의 후보군을 추출하여 해당서열의 크로마토그램파일을 유전체 연구자가 볼 수 있는 모듈로 구성되어 있다.

염기서열 해독작업을 위한 핵산 단편 조립 프로그램의 개발 (Development of Contig Assembly Program for Nucleotide Sequencing)

  • 이동훈
    • 미생물학회지
    • /
    • 제35권2호
    • /
    • pp.121-127
    • /
    • 1999
  • 염기서열 해독작업에서 각 핵산 단편을 조립하는 contig 구성문제에 활용이 가능한 computer program을 개발하였다. 본 프로그램은 국내에서 광범위하게 사용되고 있는 MS-Windows 운영체제의 개인용 컴퓨터에서 작동이 가능하며, GenBank, FASTA, ASCII 등과 같은 다양한 형태의 염기서열 자료를 입력할 수 있다. 두 단편에서 최대 유사도를 나타내는 부분을 정렬하는 작업에는 염기서열의 국부적 상동성을 계산하고 dynamic programming 알고리즘을 적용하는 방법을 이용하였다. 또한 사용하기 편리한 그래픽 방식의 인터페이스를 제공하여 초보자라도 손쉽게 조작할 수 있다는 장점을 갖는다. 본 프로그램의 성능을 검증하기 위하여 세균과 곰팡이로부터 해독된 16S rRNA 와 18S rRNA 유전자의 단편 염기서열을 재구성하는 작업에 프로그램을 사용하였을 때에 효율적인 작업이 가능하였다.

  • PDF

K-mer Based RNA-seq Read Distribution Method For Accelerating De Novo Transcriptome Assembly

  • Kwon, Hwijun;Jung, Inuk
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.1-8
    • /
    • 2020
  • 본 논문에서는 드노보 전사체 어셈블리의 수행시간을 단축하기 위해 RNA-seq 서열을 유전자계 정보를 활용하여 여러 노드로 분산이 가능한 방법을 제시한다. 제안하는 전사체 서열 데이터 분산기법의 성능을 측정하기 위해 애기장대의 리드를 4개의 데이터 셋(전체 비분류 리드, 완전 분류 리드, 모델 분류 리드, 무작위 분류 리드)으로 구성하여 실험을 수행하였다. 전체 비분류 데이터와 비교하여 생성된 유전자 콘티그(Contig)는 95% 일치하였고 동일한 리소스들을 사용하는 단일 노드에 비해 본 연구에서 제시하는 분산환경분산 환경 기반의 어셈블리 수행시간은 4.2배 단축되었다.

DNA 염기 서열로부터 contig 구성을 위한 프로그램 XFAP의 개발 (Development of an X-window Program, XFAP, for Assembling Contigs from DNA Fragment Data)

  • 이병욱;박기정;김승목
    • 미생물학회지
    • /
    • 제34권1_2호
    • /
    • pp.58-63
    • /
    • 1998
  • 'Contig 구성문제'는 random sequencing 단편들로부터 DNA 염기 서열의 정보를 밝혀낼 경우 발생하는 문제이다. 본 연구에서는 이러한 contig 구성문제를 해결하기 위한 알고리즘을 구성하였으며, X-window 응용 프로그램인 XFAP을 개발하였다. XFAP에서는 dimer 빈도 비교 방법을 사용하여 중첩 가능성이 없는 단편을 효과적으로 제거하였다. 이 방법은 단편 쌍 중첩에서 최소 수용 중첩 길이 내의 각 단편 사이의 dimer 빈도 차이를 이용하여 단편 쌍을 선별하는 것이다. 또한 단편 쌍 최대치 정렬 과정의 메모리 사용량을 줄이기 위해서, Myers 알고리즘을 적용하여 linear space에서 최대치 정렬을 구하는 방법을 사용하였다. 그리고 본 프로그램은 사용자들에게 편리한 그래픽 환경을 제공하기 위해서 Motif 라이브러리를 사용하여 X-window에서 구현되었다. 본 프로그램의 테스트 데이터를 생성하기 위해서 GenBank 데이터베이스에서 일정 길이의 염기 서열을 추출한 다음, sequencing시 일어날 수 있는 모든 오류들을 고려하여 단편 샘플을 생성하였다. 단편 샘플에 대해서 dimer 빈도 비교 방법의 효과 및 실행 시간을 측정하였다. 특히 dimer 빈도 비교 방법의 효율은 단편의 길이에 비례하여 증가하는 것으로 나타났다.

  • PDF

Status of Philippine Mango Genomics: Enriching Molecular Genomics Towards a Globally Competitive Philippine Mango Industry

  • Eureka Teresa M. Ocampo;Cris Q. Cortaga;Jhun Laurence S. Rasco;John Albert P. Lachica;Darlon V. Lantican
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2022년도 추계학술대회
    • /
    • pp.28-28
    • /
    • 2022
  • This paper presents the first genome assemblies of Philippine mangoes that provide valuable reference for varietal improvement and genomic studies on mango and related fruit crops. WE sequenced whole genomes of3 species, Mangifera odorata (Huani), Mangifera altissima (Paho), and Mangifera indica 'Carabao' (Sweet Elena). 'Carabao' is the major export variety of the Philippines; Paho is identified as vulnerable by the IUCN Red List of Threatened Species; Huani has fruit sap acrid which is the primary defense mechanism against insects and birds. We used Falcon, a diploid aware -de novo assembler to assemble SMRT generated long-read sequences. Falcon-unzip was employed to phase the output assembly producing larger contig sets (primary contigs) and shorter contigs corresponding to haplotypes (haplotigs). Assembly statistics were generated by comparing the assembly to a reference genome, Tommy Atkins, using Quality Assessment Tool (QUAST). Moreover, the extent of duplication and completeness of gene content was measured using Benchmarking Universal Single-Copy Orthologs (BUSCO). Draft assemblies with high duplications were processed using Purge Haplotigs and Purge Dups to lessen duplications with minimal impact on genome completeness. De novo assemblies of Huani, Paho and 'Carabao' were then generated with primary contig sizes of 463.64 Mb, 508.95 Mb and 401.51 Mb respectively. These draft assemblies of Huani, Paho and 'Carabao' showed 96.90%, 95.17% and 99.07% complete BUSCOs respectively which is comparable to 'Tommy Atkins' genome (98.6%). Using two mango transcriptome data (pooled RNA-seq from different mango varieties and tissues), 91-96% or 24-30 million reads were successfully mapped back for each generated assembly indicating high degree of completeness. The results obtained demonstrated the highly contiguous, phased, and near complete genome assembly of three Philippine mango species for structural and functional annotation of gene units, especially those with economic importance.

  • PDF

A data management system for microbial genome projects

  • Ki-Bong Kim;Hyeweon Nam;Hwajung Seo and Kiejung Park
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2000년도 International Symposium on Bioinformatics
    • /
    • pp.83-85
    • /
    • 2000
  • A lot of microbial genome sequencing projects is being done in many genome centers around the world, since the first genome, Haemophilus influenzae, was sequenced in 1995. The deluge of microbial genome sequence data demands new and highly automatic data flow system in order for genome researchers to manage and analyze their own bulky sequence data from low-level to high-level. In such an aspect, we developed the automatic data management system for microbial genome projects, which consists mainly of local database, analysis programs, and user-friendly interface. We designed and implemented the local database for large-scale sequencing projects, which makes systematic and consistent data management and retrieval possible and is tightly coupled with analysis programs and web-based user interface, That is, parsing and storage of the results of analysis programs in local database is possible and user can retrieve the data in any level of data process by means of web-based graphical user interface. Contig assembly, homology search, and ORF prediction, which are essential in genome projects, make analysis programs in our system. All but Contig assembly program are open as public domain. These programs are connected with each other by means of a lot of utility programs. As a result, this system will maximize the efficiency in cost and time in genome research.

  • PDF

차세대 염기서열 분석을 이용한 굴참나무(Quercus variabilis)의 microsatellite 마커 개발 및 특성 분석 (Identification and Characterization of Polymorphic Microsatellite Loci using Next Generation Sequencing in Quercus variabilis)

  • 백승훈;이제완;홍경낙;이석우;안지영;이민우
    • 한국산림과학회지
    • /
    • 제105권2호
    • /
    • pp.186-192
    • /
    • 2016
  • 본 연구는 차세대 염기서열 분석방법을 이용하여 굴참나무의 microsatellite 마커를 개발하고 특성을 분석하기 위해 수행되었다. GS-FLX Titanium 차세대 염기서열 분석 장비를 이용하여 305,771개의 read를 얻었고, 117 Mbp의 데이터를 생산하였다. De novo assembly를 통하여 7,326개의 contig를 확보하였다. 크기가 500 bp 이상이 되는 contig는 2,921개로 나타났다. 그 중 microsatellite 영역을 포함하는 contig는 606개(20.75%)로 나타났으며, 총 microsatellite의 수는 911개로 확인되었다. 그 중 13개의 microsatellite 유전자좌에서 굴참나무 개체 간 다형성이 관찰되었다. 이들 microsatellite 유전자좌에 대하여 주왕산 집단에서 관찰된 유효 대립유전자수($A_e$)는 평균 4.966(2.439~7.515)로 나타났다. 평균 이형접합도 관측치($H_o$)와 평균 이형접합도 기대치($H_e$)는 각각 0.873(0.731~1.000)과 0.766(0.590~0.867)으로 나타났다. 다형성이 관찰된 모든 microsatellite 유전자좌에서 null 대립유전자는 관찰되지 않았으며, 마커 간 연관불평형은 나타나지 않았다. 따라서 본 연구에서 개발된 13개의 microsatellite 마커는 굴참나무 집단의 유전변이 분석에 유용할 것으로 사료된다.

EST기법을 이용한 고추와 고추역병균간의 상호작용에서 발현되는 유전자들의 분석 (Analysis of Genes Expressed during Pepper-Phytophthora capsici Interaction using EST Technology)

  • 김동영;이종환;최우봉
    • 생명과학회지
    • /
    • 제24권11호
    • /
    • pp.1187-1192
    • /
    • 2014
  • 고추는 한국, 중국, 멕시코를 포함한 온대 및 아열대 지역을 중심으로 전세계적으로 전형적인 향신료로 식용되고 있으며 그 생산량 및 사용량은 해마다 증가하는 추세에 있다. 고추역병균인 Phytophthora capsici는 고추의 생산에 있어, 질적, 양적으로 많은 피해를 야기하는 식물병원균으로 알려져 있다. 난균강에 속하는 이 병원균은 기주식물의 뿌리, 줄기, 잎과 함께 과실에 이르기까지 식물체 전체를 가해한다. 고추역병의 발병을 분자수중에서 이해하기 위해서는, 발병과정에서 발현되는 유전자에 대한 연구분석이 필수적이며, 이를 위해 최근 개발되어 응용되고 있는 발현서열표지(expressed sequence tags, ESTs)의 분석을 시도하였다. 고추역병균을 접종한후 3일째 발병초기의 고추잎으로부터 추출한 total RNA를 이용하여 고추-고추역병균 발병초기 cDNA library를 구축하였다. 이 cDNA library에서 무작위로 선발된 5,760 clone에 대하여 말단 염기서열 분석을 수행하여 5,148개의 양질의 염기서열을 확보하고 contig assembly에 적용한 결과, 2,990개의 unigenes을 확보하였다. 이들 2,990개의 unigenes에 대한 BLASTX를 이용한 상동성 분석결과, 2,409개가 기존에 알려진 서열과 matching을 보였으며, 이중 606개가 기능적으로 구분되었다.

퍼지 추론기법을 이용한 DNA 염기 서열의 단편결합 (Fragment Combination From DNA Sequence Data Using Fuzzy Reasoning Method)

  • 김광백;박현정
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2329-2334
    • /
    • 2006
  • 본 논문에서는 기존의 conting 구성 프로그램의 단점인 단편들 간의 결합 실패를 보완하는 알고리즘을 제안하였다. 제안된 방법은 매우 긴 DNA의 염기 서열을 자동 서열 분석기로 한번에 분석 가능한 약 700개의 단편들을 한 주형으로 만들어 PCR 방법으로 클론 3을 생성 후, $600\sim700$개의 길이로 단편화하여 기준 주형과 비교하여 일치율을 계산한다. 이때 Compute Agreement 알고리즘을 이용하여 일치율을 계산하는 시간을 단축시킨다. 계산된 단편 쌍들의 중첩 정도를 기준으로 주형마다 2개의 결합 후보 단편을 추출하여 추출된 각 단편들의 일치율과 각 DNA 염기의 A,G,C,T 소속도 및 각 A,G,C,T 이 전 빈도수를 퍼지 추론 규칙을 이용하여 결합 여부를 판단한다. 본 논문에서는 결정된 최 적의 비교 단편을 결합하고, 더 이상 단편이 없을 때까지 반복하여 서열 결합을 완성한다. 실험을 위해 완성된 단백질 지놈인 'Synechocystis PCC6803'을 각각 1만개, 10만개씩 추출하여 $600{\sim}700$개의 길이를 가진 단편을 생성하였으며, 이 단편을 임 의의 mutation을 유발하여 실험한 결과, FAP 프로그램보다 속도가 줄어들었으며, conting 구성 프로그램의 단점 인 결합 실패가 발생하지 않았다.