DOI QR코드

DOI QR Code

Genotype-Calling System for Somatic Mutation Discovery in Cancer Genome Sequence

암 유전자 배열에서 체세포 돌연변이 발견을 위한 유전자형 조사 시스템

  • Park, Su-Young (Department of Computer Science & Statistics, Chosun University) ;
  • Jung, Chai-Yeoung (Department of Computer Science & Statistics, Chosun University)
  • Received : 2013.08.19
  • Accepted : 2013.11.18
  • Published : 2013.12.31

Abstract

Next-generation sequencing (NGS) has enabled whole genome and transcriptome single nucleotide variant (SNV) discovery in cancer and method of the most fundamental being determining an individual's genotype from multiple aligned short read sequences at a position. Bayesian algorithm estimate parameter using posterior genotype probabilities and other method, EM algorithm, estimate parameter using maximum likelihood estimate method in observed data. Here, we propose a novel genotype-calling system and compare and analyze the effect of sample size(S = 50, 100 and 500) on posterior estimate of sequencing error rate, somatic mutation status and genotype probability. The result is that estimate applying Bayesian algorithm even for 50 of small sample size approached real parameter than estimate applying EM algorithm in small sample more accurately.

차세대 시퀀싱(NGS)은 암에서 전사체 싱글 뉴클레오티드 변형 발견과 모든 지놈 발견을 가능하게 한다. 어느 한 위치에서 배열된 다수의 짧은 리드 시퀀스로부터 개인의 유전자형을 결정하는 가장 기초적인 방법이다. Byesian 알고리즘은 사후 유전자형 확률을 사용하여 파라미터 추정한다. 또 다른 방법인 EM 알고리즘은 최대 가능성 추정 방법을 사용해서 관측된 데이터에서 파라미터를 추정한다. 본 논문에서는 새로운 유전자형 조사 시스템을 제안하고 시퀀싱 에러 비율과 체세포 돌연 변이 상태 그리고 유전자형 확률의 사후 추정치에 관한 샘플 크기(S = 50, 100, 500)의 영향을 비교 분석하였다. 그 결과 작은 샘플 크기 50에서도 Byesian 알고리즘을 사용하여 추정한 파라미터가 EM 알고리즘 보다 더 정확하게 실제 파라미터에 근접하였다.

Keywords

References

  1. Ng, S. B. et al., "Exome Sequencing identifies the cause of a mendelian disorder," Nat. Geneti., vol. 42, pp. 30-35, 2010. https://doi.org/10.1038/ng.499
  2. Meng, X. L. and Rubin, D. B., "Using EM to obtain asymptotic variance-covariance matrices: the SEM algorithm.," J. Am. Stat. Assoc., vol. 86, no. 416, pp. 899-909, Dec. 1991. https://doi.org/10.1080/01621459.1991.10475130
  3. J. G., Bayesian Methods: A social and Behavioral Sciences Approach, 2th ed. Chapman & Hall/CRC, 2009.
  4. E. R. Martin, D. D. Kinnamon, M. A. Schmidt, E. H. Powell, S. Zuchner and R. W. Morris, "SeqEM: an adaptive genotype-calling approach for next-generation sequencing studies," Bioinformatics, vol. 26, no. 22, pp. 2803-2810, 2010. https://doi.org/10.1093/bioinformatics/btq526
  5. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al., "The Sequence Alignment/Map format and SAMtools.," Bioinformatics. vol. 25, pp. 2078-2079, Aug. 2009. https://doi.org/10.1093/bioinformatics/btp352
  6. D. J. Spieglhalter, J. P. Myles, D. R. Jones, K. R. Abrams, "Bayesian methods in health technology assessment: review," Health Technology Assessment, vol. 4, no. 38, pp.1-130, 2000.
  7. Jonathan Marchini, Bryan Howie, Simon Myers, Gil McVean & Donnelly, "A new multipoint method for genome-wide association studies by imputation of genotypes.," nature genetics, vol. 39, no. 7, pp. 906-913, June 2007. https://doi.org/10.1038/ng2088
  8. Li, H. et al., "Mapping short DNA sequencing reads and calling variants using mapping quality scores.," Genome Res., vol. 18, pp. 1851-1858, Aug. 2008. https://doi.org/10.1101/gr.078212.108
  9. Lin, D. Y. et al., "Simple and efficient analysis of disease associateion with missing genotype data.," Am. J. Hum. Genet., vol. 82, pp. 444-452, Feb. 2008. https://doi.org/10.1016/j.ajhg.2007.11.004