A New Method for Imputation of Missing Genotype using Linkage Disequilibrium and Haplotype Information

결측치가 존재하는 유전형 자료에서의 연관불균형과 일배체형을 사용한 결측치 대치 방법

  • 박윤주 (국립보건연구원 유전체연구부) ;
  • 김영진 (국립보건연구원 유전체연구부) ;
  • 박정선 (국립보건연구원 유전체연구부) ;
  • 김규찬 (국립보건연구원 유전체연구부) ;
  • 고인송 (과학기술혁신본부 기술혁신평가국 보건연구관) ;
  • 정호열 (한국전자통신연구원 바이오정보연구팀)
  • Published : 2005.02.01

Abstract

In this paper, wc propose a now missing imputation method for minimizing loss of information linkage disequilibrium-based and haplotype-based imputation method, which estimate missing values of the data based on the specificity of Single Nucleotide Polymorphism(SNP) genotype data. Method for imputing data is needed to minimize the loss of information caused by experimental missing data. In general, missing imputation of biological data has used major allele imputation method. but this approach is not optima]. 1'his method has high error rates of missing values estimation since the characteristics of the genotype data are not considered not take into consideration the specific structure of the data. In this paper, we show the results of the comparative evaluation of our model methods and major imputation method for the estimation of missing values.

본 논문에서는 단일염기변이(SNP: Single Nucleotide Polymorphism)와 같은 유전형(Rcnotype)자료에서 결측치가 발생하였을 경우 유전형 자료의 특이성을 고려해 자료 원래의 정보손실을 최소화하는 대치법인 연관불균형 기반의 대치법(linkage disequilibrium- based imputation)과 일배체형 기반의 대치법(haplotype-based imputation)을 제시한다. 이러한 결측치 대치는 실험상에서 발생하는 결측치에 의한 중요한 정보의 손실을 최소화 한다는 점에서 필요한 방법이다. 일반적으로 그동안 생물학 자료의 결측치 대치는 대부분 주형질 대치법(major allele imputation)이 활용되어왔는데 유전형 자료에서의 이 방법의 사용은 사료의 특이성으로 인하여 결측치에 대한 높은 오차율(error rate)을 보임으로서 자료의 신뢰성을 떨어뜨릴 수 있다. 본 논문에서는 유전형 자료인 단일염기변이 자료의 시뮬레이션을 통하여 기존의 주형질 대치법과 논문에서 제안된 연관불균형 기반의 대치법과 일배체형 기반의 대치법을 비교하고 그 결과를 보여 준다.

Keywords

References

  1. John I Bell, 'Single nucleotide polymorphisms and disease gene mapping,' Arthritis Research, Vol.4, pp.S273-S278, 2002 https://doi.org/10.1186/ar555
  2. Benjamin A. Salisbury, Manish Pungliya, Julie Y. Choi, Ruhong Jiang, Xiao Jenny Sun, and J. Claiborne Stephens, 'SNP and haplotype variation in the human genome,' Mutation Research, Vol.526, pp.53-61, 2003 https://doi.org/10.1016/S0027-5107(03)00014-9
  3. Shin Lin, David J. Cutler, Michael E. Zwick, and Aravinda Chakravarti, 'Haplotype Inference in Random Population samples,' Am. J. Hum. Genet.., Vol.71, pp.1129-1137, 2002 https://doi.org/10.1086/344347
  4. Lon R. Cardon and Goncalo R. Abecasis, 'Using haplotype blocks to map human complex trait loci,'Trends in Genetics, Vol.19, pp.135-140, 2003 https://doi.org/10.1016/S0168-9525(03)00022-2
  5. Young-sool Park and Soon-kwi Kim, 'Comparative Study on Imputation Procedures in Exponential Regression Model with missing values,' Journal of Korean Data & Information Science Society, Vol.14, pp.143-152, 2003
  6. Hyun-Jeong Kim, Sung-Ho Moon, and Jae-Kyoung Shin, 'Application of NORM to the Multiple Imputation for Multivariate Missing Data,' Journal of Korean Data & Information Science Society, Vol.13, pp.105-113, 2002
  7. Sung-Ho Moon, Hyun- Jeong Kim, and Jae - Kyoung Shin, 'Application of SOLAS to the Multiple Imputation for Missing Data,' Journal of Korean Data & Information Science Society, Vol.14, pp.579-590, 2003
  8. M. Carol, et aI., 'A comparison of Imputation Techniques for Handling Missing Data,' Western Journal of Nursing Research, Vol.24, pp.815-829, 2002 https://doi.org/10.1177/019394502762477004
  9. Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein, and Russ B. Altman, 'Missing value estimation methods for DNA microarrays,' Bioinformatics, Vol.17, pp.520-525, 2001 https://doi.org/10.1093/bioinformatics/17.6.520
  10. Anthony J. Brookes, 'The essence of SNPs,' Gene, Vol.234, pp.177-186, 1999 https://doi.org/10.1016/S0378-1119(99)00219-X
  11. Zhaohui S. Qin, Tianhua Niu, and Jun S. Liu, 'Partition-Ligation-Expectation-Maximization Algorithm for Haplotype Inference with Single-Nucleotide Polymorphisms,' Am. J. Hum. Genet. Vol.71, pp.1242-1247, 2002
  12. R. C. Lewontin, 'The interaction of selection and linkage. I. General considerations; heterotic models,' Genetics, Vol.49, pp.49-67, 1964
  13. http://www.people.fas.harvard.edu/-junliu/plem/click.html/
  14. http://www.hapmap.org/index.html.en/
  15. Stacey B. Gabriel, et aI., 'The structure of haplotype blocks in the human genome,' Science, Vol.296, pp.2225-2229, 2002 https://doi.org/10.1126/science.1069424
  16. B. Efron, 'Bootstrap methods: another look at the jackknife,' Ann. Stat., Vol.7 pp.1-26, 1979 https://doi.org/10.1214/aos/1176344552
  17. Thomas G. Schulze, Kui Zhang, Yu-Sheng Chen, Nirmala Akula, Fengzhu Sun, and Francis J. McMahon, 'Defining haplotype blocks and tag single nucleotide polymorphisms in the human genome,' Human Molecular Genetics, Vol.13, pp.335-342, 2004 https://doi.org/10.1093/hmg/ddh035
  18. B. Devin and Neil Risch, 'A comparison of linkage disequilibrium measures for fine-scale mapping', Genomics, Vol.29, pp. 311-322, 1995 https://doi.org/10.1006/geno.1995.9003