Abstract
Next-generation sequencing (NGS) has enabled whole genome and transcriptome single nucleotide variant (SNV) discovery in cancer and method of the most fundamental being determining an individual's genotype from multiple aligned short read sequences at a position. Bayesian algorithm estimate parameter using posterior genotype probabilities and other method, EM algorithm, estimate parameter using maximum likelihood estimate method in observed data. Here, we propose a novel genotype-calling system and compare and analyze the effect of sample size(S = 50, 100 and 500) on posterior estimate of sequencing error rate, somatic mutation status and genotype probability. The result is that estimate applying Bayesian algorithm even for 50 of small sample size approached real parameter than estimate applying EM algorithm in small sample more accurately.
차세대 시퀀싱(NGS)은 암에서 전사체 싱글 뉴클레오티드 변형 발견과 모든 지놈 발견을 가능하게 한다. 어느 한 위치에서 배열된 다수의 짧은 리드 시퀀스로부터 개인의 유전자형을 결정하는 가장 기초적인 방법이다. Byesian 알고리즘은 사후 유전자형 확률을 사용하여 파라미터 추정한다. 또 다른 방법인 EM 알고리즘은 최대 가능성 추정 방법을 사용해서 관측된 데이터에서 파라미터를 추정한다. 본 논문에서는 새로운 유전자형 조사 시스템을 제안하고 시퀀싱 에러 비율과 체세포 돌연 변이 상태 그리고 유전자형 확률의 사후 추정치에 관한 샘플 크기(S = 50, 100, 500)의 영향을 비교 분석하였다. 그 결과 작은 샘플 크기 50에서도 Byesian 알고리즘을 사용하여 추정한 파라미터가 EM 알고리즘 보다 더 정확하게 실제 파라미터에 근접하였다.