• 제목/요약/키워드: NGS data analysis

검색결과 57건 처리시간 0.036초

차세대 염기서열 분석기법과 생물정보학 (Next Generation Sequencing and Bioinformatics)

  • 김기봉
    • 생명과학회지
    • /
    • 제25권3호
    • /
    • pp.357-367
    • /
    • 2015
  • 매우 빠른 속도로 발전하고 있는 차세대 염기서열 분석 플랫폼과 최신 생물정보학적 분석도구들로 말미암아, 1,000달러 이하의 가격으로 인간 유전체 염기서열을 해독하고자 하는 궁극적인 목표가 조만간 곧 실현될 수 있을 것 같다. 차세대 염기서열 분석 분야의 급속한 기술적 진전은 NGS 데이터의 분석과 관리를 위한 통계적 방법과 생물정보학적 분석도구들에 대한 수요를 꾸준히 증대시키고 있다. NGS 플랫폼이 상용화되어 쓰이기 시작한 초창기부터, NGS 데이터를 분석하고 해석하거나, 가시화 해주는 다수의 응용프로그램이나 도구들이 개발되어 활용되어 왔다. 그러나, NGS 데이터의 엄청난 범람으로 데이터 저장, 데이터 분석 및 관리 등에 있어서 해결해야 할 많은 문제들이 부각되고 있다. NGS 데이터 분석은 단편서열과 참조서열간의 서열정렬, 염기식별, 다형성 발견, 쌍단편 서열이나 비쌍단편 서열 등을 이용한 어셈블리 작업, 구조변이 발견, 유전체 브라우징 등을 본질적으로 포함한다. 본 논문은 주요 차세대 염기서열 결정기술과 NGS 데이터 분석을 위한 생물정보학적 분석도구들에 대해 개관적으로 소개하고자 한다.

ChIP-seq 라이브러리 제작 및 Galaxy 플랫폼을 이용한 NGS 데이터 분석 (ChIP-seq Library Preparation and NGS Data Analysis Using the Galaxy Platform)

  • 강유진;강진;김예운;김애리
    • 생명과학회지
    • /
    • 제31권4호
    • /
    • pp.410-417
    • /
    • 2021
  • NGS (Next-generation sequencing), 즉 차세대염기서열분석은 유전체 수준의 방대한 DNA를 작은 절편으로 만들어서 그 절편들의 염기서열들을 동시에 읽어내는 기법이다. 현재 다양한 생명체의 유전체 염기서열 분석부터 cDNA (complementary DNA)나 ChIPed DNA (chromatin immunoprecipitated DNA)를 분석하는데 이 NGS 기법을 사용하고 있으며, 이 때 얻어진 데이터를 적절히 처리하고 분석하는 일은 생물학적으로 유의미한 결과를 얻기 위하여 중요하다. 하지만 대용량 데이터의 저장 및 활용, 그리고 컴퓨터 프로그래밍 바탕의 데이터 분석은 실험을 수행하는 일반 생물학자들에게 어려운 일이다. Galaxy 플랫폼은 다양한 NGS 데이터 분석 tool을 무료로 제공하는 웹 서비스이며, 생물정보학이나 프로그래밍에 대한 전문지식이 없는 연구자들에게 웹 브라우저만을 이용하여 데이터를 분석할 수 있는 환경을 제공한다. 본 논문에서는 ChIP-seq (chromatin immunoprecipitation-sequencing) 수행을 위한 라이브러리 제작 과정 및 Galaxy 플랫폼을 이용한 ChIP-seq 데이터 분석 과정을 설명하고, K562 세포주에서 수행한 히스톤 H3K4me1 ChIP-seq 결과가 public 데이터와 일치함을 보여준다. 따라서 Galaxy 플랫폼을 활용한 NGS 데이터 분석은 생물정보학에 대한 손쉬운 접근 방법을 제공할 것으로 기대된다.

HPC 환경의 대용량 유전체 분석을 위한 염기서열정렬 성능평가 (Evaluation of Alignment Methods for Genomic Analysis in HPC Environment)

  • 임명은;정호열;김민호;최재훈;박수준;최완;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.107-112
    • /
    • 2013
  • 인간 유전체 지도 완성 후 NGS 기술의 발달로 대용량 유전체 데이터 분석에 대한 요구가 증대하였다. NGS 데이터는 대용량의 단편서열로 구성되므로 효과적인 분석을 위해 고성능 컴퓨팅 기술의 지원이 요구된다. 본 연구에서는 HPC 환경에서 NGS 데이터로부터 SNP를 탐색하는 유전체 분석 파이프라인을 구축하였다. 각 분석 단계의 CPU 이용률 분석을 통해 분석 단계 중 서열 정렬 단계가 연산 작업의 비율이 가장 높은 것을 확인하고, 공개된 병렬화 서열 정렬 도구들의 성능을 분석하여 유전체 분석를 위한 매니코어 프로세서의 활용 가능성을 확인하였다.

A novice’s guide to analyzing NGS-derived organelle and metagenome data

  • Song, Hae Jung;Lee, JunMo;Graf, Louis;Rho, Mina;Qiu, Huan;Bhattacharya, Debashish;Yoon, Hwan Su
    • ALGAE
    • /
    • 제31권2호
    • /
    • pp.137-154
    • /
    • 2016
  • Next generation sequencing (NGS) technologies have revolutionized many areas of biological research due to the sharp reduction in costs that has led to the generation of massive amounts of sequence information. Analysis of large genome data sets is however still a challenging task because it often requires significant computer resources and knowledge of bioinformatics. Here, we provide a guide for an uninitiated who wish to analyze high-throughput NGS data. We focus specifically on the analysis of organelle genome and metagenome data and describe the current bioinformatic pipelines suited for this purpose.

Comparison of Distributed and Parallel NGS Data Analysis Methods based on Cloud Computing

  • Kang, Hyungil;Kim, Sangsoo
    • International Journal of Contents
    • /
    • 제14권1호
    • /
    • pp.34-38
    • /
    • 2018
  • With the rapid growth of genomic data, new requirements have emerged that are difficult to handle with big data storage and analysis techniques. Regardless of the size of an organization performing genomic data analysis, it is becoming increasingly difficult for an institution to build a computing environment for storing and analyzing genomic data. Recently, cloud computing has emerged as a computing environment that meets these new requirements. In this paper, we analyze and compare existing distributed and parallel NGS (Next Generation Sequencing) analysis based on cloud computing environment for future research.

A Primer for Disease Gene Prioritization Using Next-Generation Sequencing Data

  • Wang, Shuoguo;Xing, Jinchuan
    • Genomics & Informatics
    • /
    • 제11권4호
    • /
    • pp.191-199
    • /
    • 2013
  • High-throughput next-generation sequencing (NGS) technology produces a tremendous amount of raw sequence data. The challenges for researchers are to process the raw data, to map the sequences to genome, to discover variants that are different from the reference genome, and to prioritize/rank the variants for the question of interest. The recent development of many computational algorithms and programs has vastly improved the ability to translate sequence data into valuable information for disease gene identification. However, the NGS data analysis is complex and could be overwhelming for researchers who are not familiar with the process. Here, we outline the analysis pipeline and describe some of the most commonly used principles and tools for analyzing NGS data for disease gene identification.

PAIVS: prediction of avian influenza virus subtype

  • Park, Hyeon-Chun;Shin, Juyoun;Cho, Sung-Min;Kang, Shinseok;Chung, Yeun-Jun;Jung, Seung-Hyun
    • Genomics & Informatics
    • /
    • 제18권1호
    • /
    • pp.5.1-5.5
    • /
    • 2020
  • Highly pathogenic avian influenza (HPAI) viruses have caused severe respiratory disease and death in poultry and human beings. Although most of the avian influenza viruses (AIVs) are of low pathogenicity and cause mild infections in birds, some subtypes including hemagglutinin H5 and H7 subtype cause HPAI. Therefore, sensitive and accurate subtyping of AIV is important to prepare and prevent for the spread of HPAI. Next-generation sequencing (NGS) can analyze the full-length sequence information of entire AIV genome at once, so this technology is becoming a more common in detecting AIVs and predicting subtypes. However, an analysis pipeline of NGS-based AIV sequencing data, including AIV subtyping, has not yet been established. Here, in order to support the pre-processing of NGS data and its interpretation, we developed a user-friendly tool, named prediction of avian influenza virus subtype (PAIVS). PAIVS has multiple functions that support the pre-processing of NGS data, reference-guided AIV subtyping, de novo assembly, variant calling and identifying the closest full-length sequences by BLAST, and provide the graphical summary to the end users.

차세대염기서열분석법을 이용한 HLA-A, -B 그리고 -DR 형별 분석법 개발 (Development of HLA-A, -B and -DR Typing Method Using Next-Generation Sequencing)

  • 서동희;이정민;박미옥;이현주;문서윤;오미진;김소영;이상헌;형기은;허혜진;조대연
    • 대한수혈학회지
    • /
    • 제29권3호
    • /
    • pp.310-319
    • /
    • 2018
  • 배경: 최근 차세대염기서열분석법(Next Generation Sequencing: NGS)을 이용한 HLA 형별 분석에 대한 연구가 활발히 진행되고 있다. 이에 HLA 고해상도 분석법의 내재적 한계인 위상 모호성의 문제를 해결하고, 대량 검체 처리가 가능한 NGS 기반 고해상도 HLA 형별 검사법을, 자체 기술로 개발하고자 본 연구를 실시하였다. 방법: HLA NGS를 위한 핵산 추출 조건, 라이브러리 제작 및 PCR 체계 확립, 그리고 생물정보학을 이용한 HLA 형별 분석법을 개발하였다. 본 기관에서 개발한 NGS 기반 HLA 형별 검사의 정확성을 알아보기 위해 SSOP법으로 HLA 형별을 알고 있는 192개 검체와 SBT법으로 HLA 형별을 알고 있는 28개 검체에 대해 NGS 기반으로 검사한 HLA-A, -B 그리고 -DR 형별 결과를 비교해 보았다. 결과: 두 단계의 PCR을 통한 DNA 라이브러리 제작과 MiSeq (Illumina Inc., San Diego, USA) 기기를 이용한 NGS 시퀸싱 그리고 데이터 분석 시스템을 구축하였다. 기존에 HLA 형별을 알고 있는 220개 혈액 검체에 대해 NGS 기반 HLA 형별검사 결과가 모두 일치함을 확인하였다. 결론: NSG 기반 HLA 형별 검사법은 많은 검체를 효율적인 시간 내에 처리가 가능하여 조혈모세포기증 희망자 HLA 검사 등에 유용할 것으로 기대된다.

Whole genome sequencing of foot-and-mouth disease virus using benchtop next generation sequencing (NGS) system

  • Moon, Sung-Hyun;Oh, Yeonsu;Tark, Dongseob;Cho, Ho-Seong
    • 한국동물위생학회지
    • /
    • 제42권4호
    • /
    • pp.297-300
    • /
    • 2019
  • In countries with FMD vaccination, as in Korea, typical clinical signs do not appear, and even in FMD positive cases, it is difficult to isolate the FMDV or obtain whole genome sequence. To overcome this problem, more rapid and simple NGS system is required to control FMD in Korea. FMDV (O/Boeun/ SKR/2017) RNA was extracted and sequenced using Ion Torrent's bench-top sequencer with amplicon panel with optimized bioinformatics pipelines. The whole genome sequencing of raw data generated data of 1,839,864 (mean read length 283 bp) reads comprising a total of 521,641,058 (≥Q20 475,327,721). Compared with FMDV (GenBank accession No. MG983730), the FMDV sequences in this study showed 99.83% nucleotide identity. Further study is needed to identify these differences. In this study, fast and robust methods for benchtop next generation sequencing (NGS) system was developed for analysis of Foot-and-mouth disease virus (FMDV) whole genome sequences.

MAP: Mutation Arranger for Defining Phenotype-Related Single-Nucleotide Variant

  • Baek, In-Pyo;Jeong, Yong-Bok;Jung, Seung-Hyun;Chung, Yeun-Jun
    • Genomics & Informatics
    • /
    • 제12권4호
    • /
    • pp.289-292
    • /
    • 2014
  • Next-generation sequencing (NGS) is widely used to identify the causative mutations underlying diverse human diseases, including cancers, which can be useful for discovering the diagnostic and therapeutic targets. Currently, a number of single-nucleotide variant (SNV)-calling algorithms are available; however, there is no tool for visualizing the recurrent and phenotype-specific mutations for general researchers. In this study, in order to support defining the recurrent mutations or phenotype-specific mutations from NGS data of a group of cancers with diverse phenotypes, we aimed to develop a user-friendly tool, named mutation arranger for defining phenotype-related SNV (MAP). MAP is a user-friendly program with multiple functions that supports the determination of recurrent or phenotype-specific mutations and provides graphic illustration images to the users. Its operation environment, the Microsoft Windows environment, enables more researchers who cannot operate Linux to define clinically meaningful mutations with NGS data from cancer cohorts.