Haplotype Inference Using a Genetic Algorithm

유전자 알고리즘을 이용한 하플로타입 추론

  • 이시영 (한국외국어대학교 컴퓨터및정보통신공학부) ;
  • 한현구 (한국외국어대학교 컴퓨터및정보통신공학부) ;
  • 김희철 (한국외국어대학교 컴퓨터및정보통신공학부)
  • Published : 2006.06.01

Abstract

In diploid organisms like human, each chromosome consists of two copies. A haplotype is a SNP(single nucleotide polymorphism) sequence information from each copy. Finding the complete map of haplotypes in human population is one of the important issues in human genome. To obtain haplotypes via experimental methods is both time-consuming and expensive. Therefore, inference methods have been used to infer haplotyes from the genotype samples. In this paper, we propose a new approach using genetic algorithm to infer haplotypes, which is based on the model of finding the minimum number of haplotypes that explain the genotype samples. We show that by doing a computational experiment, our algorithm has the correctness similar to HAPAR[1] which is known to produce good results while the execution time of our algorithm is less than that of HAPAR as the input size is increased. The experimental result is also compared with the result by the recent method PTG[2].

인간과 같은 2배체의 각 염색체는 부모로부터 물려받은 2벌의 복제로 이루어져 있다. 이들 각 복제에서 SNP(single nucleotide polymorphism) 서열 정보를 하플로타입이라 부른다. 인간의 하플로타입 지도를 완전히 찾는 것은 인간 지놈의 중요한 작업 중의 하나인데, 실험적인 방법으로 하플로타입을 직접 얻는 것은 시간이 많이 걸리고 비용이 많이 든다. 따라서 두 하플로타입 정보가 혼합된 지노타입의 샘플들로부터 하플로타입을 추론하는 것에 대하여 연구되어왔다. 이 논문에서는 지노타입들을 설명하는 최소 개수의 하플로타입들을 찾는 모델(최소 하플로타입 추론문제)에 근거하여, 유전자 알고리즘을 사용하여 하플로타입을 추론하는 새로운 접근 방법을 제시한다. 좋은 결과를 주는 것으로 알려진 HAPAR[1]와 이 논문에 제시한 알고리즘을 컴퓨터 실험에 의한 비교를 통하여, 입력이 클 때 이 논문의 알고리즘이 수행시간은 적게 걸리면서 정확성이 비슷함을 보인다. 또한 이 실험 결과를 최근에 제시된 방법인 PTG[2]와 비교한다.

Keywords

References

  1. L. Wang and Y. Xu, 'Haplotype inference by maximum parsimony,' Bioinfomatics Vol. 19(14), pp. 1773-1780, 2003 https://doi.org/10.1093/bioinformatics/btg239
  2. Zhenping Li, Wenfeng Zhou, Xiang-Sun Zhang, and Luonan Chen, 'A parsimonious tree-grow method for haplotype inference,' Bioinformatics, Vol. 21(17), pp. 3475-3481,2005 https://doi.org/10.1093/bioinformatics/bti572
  3. A. G. Clark, 'Inference of haplotypes from PCR-amplified samples of diploid populations,' Mol. Biol. Evol. 7, pp. 111-122, 1990
  4. D. Gusfield, 'Haplotype inference by pure parsimony,' Lecture Notes in Computer Science 2676, Springer, pp. 144-155, 2003
  5. M. Stephens, N. J. Smith, and P. Donnelly, 'A new statistical method for haplotype reconstruc-tion for population data,' Am. J. Hum. Genet 68, pp. 978-989, 2001 https://doi.org/10.1086/319501
  6. D.E. Goldberg, Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley Publishing Company, Inc. 1989
  7. L. Jin et al., 'Distribution of haplotypes from a chromosome 21 region distinguished multiple prehistoric human migrations,' in Proc. of Natl Acad. Sci. USA 96, pp. 3796-3800, 1999 https://doi.org/10.1073/pnas.96.7.3796
  8. R. Hudson, 'Generating samples under a Wright-Fisher neutral model of genetic variation,' Bioinformatics 18, pp. 337-338, 2002 https://doi.org/10.1093/bioinformatics/18.2.337
  9. A. Ching et al., 'SNP frequency, haplotype structure and linkage disequilibrium in elite maize inbred lines,' BMC Genet 3, pp. 19, 2002 https://doi.org/10.1186/1471-2156-3-19
  10. M. Rieder et al., 'Sequence variation in the human angiotensin converting enzyme,' Nat. Gene. 22, pp. 59-62, 1999 https://doi.org/10.1038/8760
  11. C. Drysdale et al., 'Complex promoter and coding region ${\beta}_2$-adrenergic receptor haplotypes alter receptor expression and predict in vivo responsiveness,' in Proc. Natl Acad. Sci. USA 97, pp. 10483-10488, 2000 https://doi.org/10.1073/pnas.97.19.10483