• 제목/요약/키워드: de novo sequence assembly

검색결과 18건 처리시간 0.023초

De novo 시퀀스 어셈블리의 overlap 단계의 최근 연구 실험 분석 (Experimental Analysis of Recent Works on the Overlap Phase of De Novo Sequence Assembly)

  • 임지혁;김선;박근수
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.200-210
    • /
    • 2018
  • 여러 DNA 리드 시퀀스가 주어졌을 때, de novo 시퀀스 어셈블리는 레퍼런스 시퀀스 없이 하나의 시퀀스를 재조립한다. 재조립을 위해 de novo 시퀀스 어셈블리는 리드 사이의 모든 겹침을 계산하는 overlap 단계가 필요하다. Overlap 단계는 전체 연산 중 비용이 가장 많이 들기 때문에 어셈블리의 계산 성능을 좌우한다. 여러 분야에서 overlap 단계를 위한 연구가 많이 발표되고 있는데, 그 중 가장 최신의 세 연구 결과는 Readjoiner, SOF, Lim-Park 알고리즘이다. 최근 염기 분석기술의 큰 발전으로 DNA 리드 데이터 셋을 기존보다 저비용으로 대량 생산하는 것이 가능해져 DNA 리드 데이터 셋을 생성하는 여러 플랫폼들이 개발되었다. 각 플랫폼마다 생성하는 데이터 셋의 통계적 특성이 다르기 때문에 overlap 단계의 성능 평가 시 다양한 통계적 특성의 데이터 셋이 반영되어야 한다. 본 논문은 여러 통계적 특성을 가진 DNA 리드 데이터 셋을 이용하여 위의 세 알고리즘의 성능을 비교 분석한다.

Survey of the Applications of NGS to Whole-Genome Sequencing and Expression Profiling

  • Lim, Jong-Sung;Choi, Beom-Soon;Lee, Jeong-Soo;Shin, Chan-Seok;Yang, Tae-Jin;Rhee, Jae-Sung;Lee, Jae-Seong;Choi, Ik-Young
    • Genomics & Informatics
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2012
  • Recently, the technologies of DNA sequence variation and gene expression profiling have been used widely as approaches in the expertise of genome biology and genetics. The application to genome study has been particularly developed with the introduction of the nextgeneration DNA sequencer (NGS) Roche/454 and Illumina/ Solexa systems, along with bioinformation analysis technologies of whole-genome $de$ $novo$ assembly, expression profiling, DNA variation discovery, and genotyping. Both massive whole-genome shotgun paired-end sequencing and mate paired-end sequencing data are important steps for constructing $de$ $novo$ assembly of novel genome sequencing data. It is necessary to have DNA sequence information from a multiplatform NGS with at least $2{\times}$ and $30{\times}$ depth sequence of genome coverage using Roche/454 and Illumina/Solexa, respectively, for effective an way of de novo assembly. Massive shortlength reading data from the Illumina/Solexa system is enough to discover DNA variation, resulting in reducing the cost of DNA sequencing. Whole-genome expression profile data are useful to approach genome system biology with quantification of expressed RNAs from a wholegenome transcriptome, depending on the tissue samples. The hybrid mRNA sequences from Rohce/454 and Illumina/Solexa are more powerful to find novel genes through $de$ $novo$ assembly in any whole-genome sequenced species. The $20{\times}$ and $50{\times}$ coverage of the estimated transcriptome sequences using Roche/454 and Illumina/Solexa, respectively, is effective to create novel expressed reference sequences. However, only an average $30{\times}$ coverage of a transcriptome with short read sequences of Illumina/Solexa is enough to check expression quantification, compared to the reference expressed sequence tag sequence.

K-mer Based RNA-seq Read Distribution Method For Accelerating De Novo Transcriptome Assembly

  • Kwon, Hwijun;Jung, Inuk
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.1-8
    • /
    • 2020
  • 본 논문에서는 드노보 전사체 어셈블리의 수행시간을 단축하기 위해 RNA-seq 서열을 유전자계 정보를 활용하여 여러 노드로 분산이 가능한 방법을 제시한다. 제안하는 전사체 서열 데이터 분산기법의 성능을 측정하기 위해 애기장대의 리드를 4개의 데이터 셋(전체 비분류 리드, 완전 분류 리드, 모델 분류 리드, 무작위 분류 리드)으로 구성하여 실험을 수행하였다. 전체 비분류 데이터와 비교하여 생성된 유전자 콘티그(Contig)는 95% 일치하였고 동일한 리소스들을 사용하는 단일 노드에 비해 본 연구에서 제시하는 분산환경분산 환경 기반의 어셈블리 수행시간은 4.2배 단축되었다.

개 회충 게놈 응용 사례에서 공개용 분석 툴을 사용한 드래프트 게놈 어셈블리 생성 (Workflow for Building a Draft Genome Assembly using Public-domain Tools: Toxocara canis as a Case Study)

  • 원정임;공진화;허선;윤지희
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.513-518
    • /
    • 2014
  • NGS 기술의 발달로 시퀀싱 비용이 급격히 하락됨에 따라 대규모 크기의 유전체 염기 서열해독을 소규모의 실험실에서 수행할 수 있게 되었다. 디노버 어셈블리는 표준 유전체가 없는 새로운 종을 시퀀싱하는 경우 리드들의 염기 서열 정보를 이용하여 재구성함으로써 원래의 전체 시퀀스를 복원하는 것이다. 최근 이와 관련된 많은 연구 결과가 보고되고 있으나, 충분한 분석 노하우와 명확한 가이드라인 등이 공개되어 있지 않기 때문에 이들 연구에서 제시하는 동일한 어셈블리 수행 과정 및 분석 툴들을 사용하더라도 만족할만한 수준의 어셈블리 결과를 얻지 못하는 경우가 발생한다. 본 연구에서는 이러한 문제점을 해결하기 위하여 NGS 기술과 디노버 어셈블리 기술을 이용하여 아직 밝혀지지 않은 생물체의 전체 DNA의 염기 서열을 밝히기 위한 일련의 과정들을 단계별로 소개하고, 각 단계에서 필요로 하는 공개용 분석 툴의 장단점을 분석하여 제시한다. 이러한 과정별 단계를 구체적으로 설명하기 위하여 본 연구에서는 350Mbp 크기의 개 회충 게놈을 응용 사례로 사용한다. 또한 디노버 어셈블리 과정을 통해 새롭게 어셈블리된 시퀀스와 다른 유사 종과의 상동성 분석을 수행하여 어셈블리된 시퀀스에서의 유전자 영역 추출과 추출된 유전자의 기능을 예측한다.

A Study on Transcriptome Analysis Using de novo RNA-sequencing to Compare Ginseng Roots Cultivated in Different Environments

  • Yang, Byung Wook
    • 한국자원식물학회:학술대회논문집
    • /
    • 한국자원식물학회 2018년도 춘계학술발표회
    • /
    • pp.5-5
    • /
    • 2018
  • Ginseng (Panax ginseng C.A. Meyer), one of the most widely used medicinal plants in traditional oriental medicine, is used for the treatment of various diseases. It has been classified according to its cultivation environment, such as field cultivated ginseng (FCG) and mountain cultivated ginseng (MCG). However, little is known about differences in gene expression in ginseng roots between field cultivated and mountain cultivated ginseng. In order to investigate the whole transcriptome landscape of ginseng, we employed High-Throughput sequencing technologies using the Illumina HiSeqTM2500 system, and generated a large amount of sequenced transcriptome from ginseng roots. Approximately 77 million and 87 million high-quality reads were produced in the FCG and MCG roots transcriptome analyses, respectively, and we obtained 256,032 assembled unigenes with an average length of 1,171 bp by de novo assembly methods. Functional annotations of the unigenes were performed using sequence similarity comparisons against the following databases: the non-redundant nucleotide database, the InterPro domains database, the Gene Ontology Consortium database, and the Kyoto Encyclopedia of Genes and Genomes pathway database. A total of 4,207 unigenes were assigned to specific metabolic pathways, and all of the known enzymes involved in starch and sucrose metabolism pathways were also identified in the KEGG library. This study indicated that alpha-glucan phosphorylase 1, putative pectinesterase/pectinesterase inhibitor 17, beta-amylase, and alpha-glucan phosphorylase isozyme H might be important factors involved in starch and sucrose metabolism between FCG and MCG in different environments.

  • PDF

De novo Genome Assembly and Single Nucleotide Variations for Soybean Mosaic Virus Using Soybean Seed Transcriptome Data

  • Jo, Yeonhwa;Choi, Hoseong;Bae, Miah;Kim, Sang-Min;Kim, Sun-Lim;Lee, Bong Choon;Cho, Won Kyong;Kim, Kook-Hyung
    • The Plant Pathology Journal
    • /
    • 제33권5호
    • /
    • pp.478-487
    • /
    • 2017
  • Soybean is the most important legume crop in the world. Several diseases in soybean lead to serious yield losses in major soybean-producing countries. Moreover, soybean can be infected by diverse viruses. Recently, we carried out a large-scale screening to identify viruses infecting soybean using available soybean transcriptome data. Of the screened transcriptomes, a soybean transcriptome for soybean seed development analysis contains several virus-associated sequences. In this study, we identified five viruses, including soybean mosaic virus (SMV), infecting soybean by de novo transcriptome assembly followed by blast search. We assembled a nearly complete consensus genome sequence of SMV China using transcriptome data. Based on phylogenetic analysis, the consensus genome sequence of SMV China was closely related to SMV isolates from South Korea. We examined single nucleotide variations (SNVs) for SMVs in the soybean seed transcriptome revealing 780 SNVs, which were evenly distributed on the SMV genome. Four SNVs, C-U, U-C, A-G, and G-A, were frequently identified. This result demonstrated the quasispecies variation of the SMV genome. Taken together, this study carried out bioinformatics analyses to identify viruses using soybean transcriptome data. In addition, we demonstrated the application of soybean transcriptome data for virus genome assembly and SNV analysis.

차세대 염기서열 분석기법과 생물정보학 (Next Generation Sequencing and Bioinformatics)

  • 김기봉
    • 생명과학회지
    • /
    • 제25권3호
    • /
    • pp.357-367
    • /
    • 2015
  • 매우 빠른 속도로 발전하고 있는 차세대 염기서열 분석 플랫폼과 최신 생물정보학적 분석도구들로 말미암아, 1,000달러 이하의 가격으로 인간 유전체 염기서열을 해독하고자 하는 궁극적인 목표가 조만간 곧 실현될 수 있을 것 같다. 차세대 염기서열 분석 분야의 급속한 기술적 진전은 NGS 데이터의 분석과 관리를 위한 통계적 방법과 생물정보학적 분석도구들에 대한 수요를 꾸준히 증대시키고 있다. NGS 플랫폼이 상용화되어 쓰이기 시작한 초창기부터, NGS 데이터를 분석하고 해석하거나, 가시화 해주는 다수의 응용프로그램이나 도구들이 개발되어 활용되어 왔다. 그러나, NGS 데이터의 엄청난 범람으로 데이터 저장, 데이터 분석 및 관리 등에 있어서 해결해야 할 많은 문제들이 부각되고 있다. NGS 데이터 분석은 단편서열과 참조서열간의 서열정렬, 염기식별, 다형성 발견, 쌍단편 서열이나 비쌍단편 서열 등을 이용한 어셈블리 작업, 구조변이 발견, 유전체 브라우징 등을 본질적으로 포함한다. 본 논문은 주요 차세대 염기서열 결정기술과 NGS 데이터 분석을 위한 생물정보학적 분석도구들에 대해 개관적으로 소개하고자 한다.

Single Nucleotide Polymorphism Marker Discovery from Transcriptome Sequencing for Marker-assisted Backcrossing in Capsicum

  • Kang, Jin-Ho;Yang, Hee-Bum;Jeong, Hyeon-Seok;Choe, Phillip;Kwon, Jin-Kyung;Kang, Byoung-Cheorl
    • 원예과학기술지
    • /
    • 제32권4호
    • /
    • pp.535-543
    • /
    • 2014
  • Backcross breeding is the method most commonly used to introgress new traits into elite lines. Conventional backcross breeding requires at least 4-5 generations to recover the genomic background of the recurrent parent. Marker-assisted backcrossing (MABC) represents a new breeding approach that can substantially reduce breeding time and cost. For successful MABC, highly polymorphic markers with known positions in each chromosome are essential. Single nucleotide polymorphism (SNP) markers have many advantages over other marker systems for MABC due to their high abundance and amenability to genotyping automation. To facilitate MABC in hot pepper (Capsicum annuum), we utilized expressed sequence tags (ESTs) to develop SNP markers in this study. For SNP identification, we used Bukang $F_1$-hybrid pepper ESTs to prepare a reference sequence through de novo assembly. We performed large-scale transcriptome sequencing of eight accessions using the Illumina Genome Analyzer (IGA) IIx platform by Solexa, which generated small sequence fragments of about 90-100 bp. By aligning each contig to the reference sequence, 58,151 SNPs were identified. After filtering for polymorphism, segregation ratio, and lack of proximity to other SNPS or exon/intron boundaries, a total of 1,910 putative SNPs were chosen and positioned to a pepper linkage map. We further selected 412 SNPs evenly distributed on each chromosome and primers were designed for high throughput SNP assays and tested using a genetic diversity panel of 27 Capsicum accessions. The SNP markers clearly distinguished each accession. These results suggest that the SNP marker set developed in this study will be valuable for MABC, genetic mapping, and comparative genome analysis.

한국 토종닭의 전장 유전체 복제수변이(CNV) 발굴 (Genome-wide Copy Number Variation in a Korean Native Chicken Breed)

  • 조은석;정원형;최정우;장현준;박미나;김남신;김태헌;이경태
    • 한국가금학회지
    • /
    • 제41권4호
    • /
    • pp.305-311
    • /
    • 2014
  • 복제수변이(Copy number variation, CNV)는 DNA 다양한 구조적 변화의 한 형태이다. 복제수변이는 인간의 질병 및 농업의 생산성에 영향을 미치는 것으로 알려져 있다. 이전 우리나라의 닭의 품종은 유럽에서 유입되어진 품종을 기반으로 구축되어져 있었다. 따라서 농촌진흥청 국립축산과학원에서는 20년 동안 재래품종을 복원하려고 노력하였고, 5품종 12계통으로 복원하였다. 최근 염기서열분석 기술의 발달로, 해상도가 좋은 게놈 전체의 복제수변이를 발굴할 수 있게 되었다. 그러나 한국 재래닭 품종에 대해서는 체계적인 연구가 이루어지지 않고 있다. 본 연구에서는 한국 재래 닭(계통 L)에 대해서 게놈 전체의 염기서열을 분석하고 닭의 참고서열과 비교하여 재래닭에서 확인된 복제수 변이를 보고하였다. 닭의 28개 염색체에서 총 501개의 복제수 변이를 확인하였고, 이를 Gain과 Loss로 나누어서 표시하였다. 또한 우리는 501개의 복제수 변이를 포함하고 있는 유전자의 기능을 분류하였다. 그 결과, 전사 및 유전자 조절에 관련된 유전자들이 많이 분류되었다. 본 연구의 결과는 복제수 변이와 한국 재래닭의 경제형질 간의 연관성을 설명할 수 있는 기초자료로 활용될 것으로 사료된다.

PAIVS: prediction of avian influenza virus subtype

  • Park, Hyeon-Chun;Shin, Juyoun;Cho, Sung-Min;Kang, Shinseok;Chung, Yeun-Jun;Jung, Seung-Hyun
    • Genomics & Informatics
    • /
    • 제18권1호
    • /
    • pp.5.1-5.5
    • /
    • 2020
  • Highly pathogenic avian influenza (HPAI) viruses have caused severe respiratory disease and death in poultry and human beings. Although most of the avian influenza viruses (AIVs) are of low pathogenicity and cause mild infections in birds, some subtypes including hemagglutinin H5 and H7 subtype cause HPAI. Therefore, sensitive and accurate subtyping of AIV is important to prepare and prevent for the spread of HPAI. Next-generation sequencing (NGS) can analyze the full-length sequence information of entire AIV genome at once, so this technology is becoming a more common in detecting AIVs and predicting subtypes. However, an analysis pipeline of NGS-based AIV sequencing data, including AIV subtyping, has not yet been established. Here, in order to support the pre-processing of NGS data and its interpretation, we developed a user-friendly tool, named prediction of avian influenza virus subtype (PAIVS). PAIVS has multiple functions that support the pre-processing of NGS data, reference-guided AIV subtyping, de novo assembly, variant calling and identifying the closest full-length sequences by BLAST, and provide the graphical summary to the end users.