CNVDAT: A Copy Number Variation Detection and Analysis Tool for Next-generation Sequencing Data

CNVDAT : 차세대 시퀀싱 데이터를 위한 유전체 단위 반복 변이 검출 및 분석 도구

  • 강인호 (한림대학교 컴퓨터공학과) ;
  • 공진화 (한림대학교 컴퓨터공학과) ;
  • 신재문 (한림대학교 컴퓨터공학과) ;
  • 이은주 (한림대학교 전자공학과) ;
  • 윤지희 (한림대학교 컴퓨터공학과)
  • Received : 2014.03.05
  • Accepted : 2014.04.17
  • Published : 2014.08.15

Abstract

Copy number variations(CNVs) are a recently recognized class of human structural variations and are associated with a variety of human diseases, including cancer. To find important cancer genes, researchers identify novel CNVs in patients with a particular cancer and analyze large amounts of genomic and clinical data. We present a tool called CNVDAT which is able to detect CNVs from NGS data and systematically analyze the genomic and clinical data associated with variations. CNVDAT consists of two modules, CNV Detection Engine and Sequence Analyser. CNV Detection Engine extracts CNVs by using the multi-resolution system of scale-space filtering, enabling the detection of the types and the exact locations of CNVs of all sizes even when the coverage level of read data is low. Sequence Analyser is a user-friendly program to view and compare variation regions between tumor and matched normal samples. It also provides a complete analysis function of refGene and OMIM data and makes it possible to discover CNV-gene-phenotype relationships. CNVDAT source code is freely available from http://dblab.hallym.ac.kr/CNVDAT/.

유전체 단위 반복 변이(CNV)는 유전적 구조변이의 하나로서, 암을 포함하는 인간의 질병과 밀접한 연관성이 있는 것으로 알려져 있다. 암 유전자를 규명하기 위하여, 연구자는 특정 암 환자의 대규모 유전체 데이터를 분석하여 CNV를 찾아내야하며, 동시에 대규모 유전/임상 데이터를 연계 분석하여야 한다. 본 연구는 NGS 데이터로부터 CNV를 추출하고, 추출된 CNV와 관련된 유전/임상 정보를 체계적으로 연계 분석하는 기능을 제공하는 새로운 분석 툴 CNVDAT를 제안한다. CNV 추출 모듈은 스케일 스페이스 필터링 기법을 이용하여 CNV를 추출하며, 리드 데이터에 잡음이 포함된 경우에도 CNV의 타입/위치를 정확히 추출해낸다. 또한 시퀀스 분석 모듈은 변이 영역의 브라우징 및 상호 비교를 지원하는 사용자 친화적 프로그램으로서, 암/정상 샘플의 변이 영역의 동시 분석 기능과 refGene, OMIM DB를 기반으로 하는 CNV-유전자-표현형 매핑의 연관성 분석 기능을 제공한다. 본 프로그램의 소스 코드와 샘플프로그램은 http://dblab.hallym.ac.kr/CNVDAT/에서 다운 받을 수 있다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. J. Kim et al., "A highly annotated whole-genome sequence of a Korean individual," Nature, vol.460, no.7258, pp.1011-1015, 2009.
  2. E. D. Pleasance et al., "A comprehensive catalogue of somatic mutations from a human cancer genome," Nature, vol.463, no.7278, pp.191-196, 2010. https://doi.org/10.1038/nature08658
  3. S. Yoon et al., "Sensitive and accurate detecion of copy number variants using read depth of coverage," Genome Research, vol.19, no.9, pp.1586-1592, 2009. https://doi.org/10.1101/gr.092981.109
  4. J. O. Korbel et al., "PEMer:a computational framework with simulation-based error models for inferring genomics structural variants from massive paired-end sequencing data," Genome Biology, vol.10, no.2. 2009.
  5. J. Lee et al., "A Computational Method for Detecting Copy Number Variations using Scale-space Filtering," BMC Bioinformatics, vol.14(57), 2013.
  6. J. Shin et al., "Detection of Cancer-specific Copy Number Variation Regions with MapReduce," Journal of KIISE : Databases, vol.40, no.5, pp.305-318, 2013. (in Korean)
  7. Milne I et al., "Tablet-next generation sequence assembly visualization," Bioinformatics, vol.26, no.3, pp.401-402, 2010. https://doi.org/10.1093/bioinformatics/btp666
  8. T. Carver, et al., "BamView: visualizing and interpretation of next-generation sequencing read alignments," Briefings in Bioinformatics, vol.14, no.2, pp. 203-212, 2013. https://doi.org/10.1093/bib/bbr073
  9. Fiume M. et al., "Savant: genome browser for high-throughput sequencing data," Bioinformatics, vol.26, no.16, pp.1938-1944, 2010. https://doi.org/10.1093/bioinformatics/btq332
  10. H. Thorvaldsdottir et al., "Integrative Genomics Viewer(IGV): high-performance genomics data visualization and exploration," Bioinformatics, vol.14, no.2, pp.178-192, 2013.
  11. M. Krzywinski, et al., "Circos: an information aesthetic for comparative genomics," Genome Res., vol.29, no.9, pp.1639-1645, 2009.
  12. P. Stephan, et al., "A survey of tools for variant analysis of next-generation genome sequencing data," Briefings in Bioinformatics, vol.15, no.2, pp.256-278, 2014. https://doi.org/10.1093/bib/bbs086
  13. J. Kim, et al., "CNVRuler: a copy number variationbased case-control association analysis tool," Bioinformatics, vol.28, p.1790, 2012. https://doi.org/10.1093/bioinformatics/bts239
  14. F. Lukas, et al., "CONAN: copy number variation analysis software for genome-wide association studies," Bioinformatics, vol.11, no.1, 2010.