CNVR Detection Reflecting the Properties of the Reference Sequence in HLA Region

레퍼런스 시퀀스의 특성을 고려한 HLA 영역에서의 CNVR 탐지

  • 이종근 (한림대학교 컴퓨터공학과) ;
  • 홍동완 (한림대학교 컴퓨터공학과) ;
  • 윤지희 (한림대학교 컴퓨터공학과)
  • Received : 2009.12.23
  • Accepted : 2010.03.05
  • Published : 2010.06.15

Abstract

In this paper, we propose a novel shape-based approach to detect CNV regions (CNVR) by analyzing the coverage graph obtained by aligning the giga-sequencing data onto the human reference sequence. The proposed algorithm proceeds in two steps: a filtering step and a post-processing step. In the filtering step, it takes several shape parameters as input and extracts candidate CNVRs having various depth and width. In the post-processing step, it revises the candidate regions to make up for errors potentially included in the reference sequence and giga-sequencing data, and filters out regions with high ratio of GC-contents, and returns the final result set from those candidate CNVRs. To verify the superiority of our approach, we performed extensive experiments using giga-sequencing data publicly opened by "1000 genome project" and verified the accuracy by comparing our results with those registered in DGV database. The result revealed that our approach successfully finds the CNVR having various shapes (gains or losses) in HLA (Human Leukocyte Antigen) region.

본 논문에서는 레퍼런스 시퀀스에 기가 시퀀싱데이터를 매핑하여 얻어지는 커버리지 데이터를 이용한 모양 기반의 단위반복변이 영역 (CNVR) 추출 방식을 제안한다. 제안하는 CNVR 검색 알고리즘은 후보 영역 추출 단계와 후처리 단계로 이루어진다. 후보 영역 추출 단계에서는 추출하고자 하는 CNV의 모양을 입력 변수로 조절하여 다양한 높이 및 크기를 갖는 CNV 후보 영역을 추출한다. 다음, 후처리 단계에서는 레퍼런스 시퀀스와 기가 시퀀싱 데이터에 포함되어 있는 시퀀싱 에러 문제를 보완하기 위하여, 레퍼런스 시퀀스의 에러 영역 보정, GC-content 영역 보정 등의 정제 과정을 거친 후, 최종 CNVR을 추출한다. 제안된 방식의 유용성을 보이기 위하여 "1000 게놈 프로젝트"에 의하여 공개된 실 데이터를 이용한 다양한 실험을 수행하였으며, DGV를 이용하여 추출된 CNVR의 정확도를 검증하였다. 실험 결과에 의하면 제안된 방식은 HLA 영역에 존재하는 반복되거나 결실되는 다양한 모양의 CNV를 효율적으로 검출하였다.

Keywords

References

  1. Redon et al., "Global variation in copy number in the human genome," Nature, vol.444, pp.444-454, 2006. https://doi.org/10.1038/nature05329
  2. Smith et al., "Rapid whole-genome mutational profiling using next-generation sequencing technologies," Genome Research, vol.18, no.10, pp.1638-1642, 2008. https://doi.org/10.1101/gr.077776.108
  3. http://projects.tcag.ca/variation/
  4. http://www.1000genomes.org/
  5. http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/
  6. 서을주, "Copy number variants (CNV)의 분석 방법," Korean Society of Medical Biochemistry and Molecular Biology, vol.15, no.3, pp.28-39, 2008.
  7. 홍상균, 홍동완, 윤지희, 김종일, "짧은 리드의 서열 정렬에 의한 CNV 영역 추출", 데이터베이스연구, vol.24, no.3, pp.1-13, 2008.
  8. Lai et al., "Comparative analysis of algorithms for identifying amplifications and deletions in array CGH data," Bioinformatics, vol.21, no.19, pp.3763-3770, 2005. https://doi.org/10.1093/bioinformatics/bti611
  9. Scherer et al., "Challenges and standards in integrating surveys of structural variation," Nature Genetics, vol.39, no.7, pp.S7-S15, 2007. https://doi.org/10.1038/ng2093
  10. Chiang et al., "High-resolution mapping of copynumber alterations with massively parallel sequencing," Nature Methods, vol.6, no.1, pp.99-103, 2009. https://doi.org/10.1038/nmeth.1276
  11. C. Xie and M. T. Tammi, "CNV-seq, a new method to detect copy number variation using highthroughput sequencing," BioMed Central Bioinformatics, vol.10, no.1, 2009.
  12. 박종화, "Bioinformatics Tools for Variome Study," Medical Postgraduates, vol.37, no.3, pp.131-133, 2009.
  13. Li et al., "SOAP2: an improved ultrafast tool for short read alignment," Bioinformatics, vol.25, no.15, pp.1966-1967, 2009. https://doi.org/10.1093/bioinformatics/btp336