SNP 조합 인자들의 진화적 학습 방법 기반 질병 관련 복합적 위험 요인 추출

Identifying Compound Risk Factors of Disease by Evolutionary Learning of SNP Combinatorial Features

  • 이제근 (서울대학교 생물정보학 협동과정) ;
  • 하정우 (서울대학교 컴퓨터공학부) ;
  • 배설희 (질병관리본부 국립보건연구원 유전체센터 바이오과학정보과) ;
  • 김수진 (서울대학교 컴퓨터공학부 협동과정) ;
  • 이민수 (서울대학교 컴퓨터공학부) ;
  • 박근준 (질병관리본부 국립보건연구원 유전체센터 바이오과학정보과) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • 발행 : 2009.12.15

초록

생체 내에서 질병 발생은 다양한 요인들의 복합적인 작용에 의해 발생한다. 하지만, 대부분의 질병 관련 원인을 발견하고자하는 연구들에서는 여러 요인들의 다양한 조합들을 복합적으로 고려하여 분석하기에는 한계가 있는 경우가 많다. 단 하나의 질병 관련 요인들을 찾는 것데 그치고 있다. 본 연구에서는 유전체 정보과 임상 정보를 이용하여 질병 분류 모델 기반 인자 조합들의 진화적 학습 방법을 제안한다. 이 방법을 이용하여 본 연구에서는 질병 관련 주요 인자를 찾고, 이를 시각화할 수 있는 시스템을 만드는 것을 목적으로 한다. 본 연구를 통해 정확도 높은 당뇨병 환자군 분류 모델을 만들고, 당뇨병 발생에 중요한 영향을 미치는 인자들의 조합을 찾을 수 있었다. 또한 생뭍학적인 분석을 통해 본 연구에서 찾은 인자들의 조합이 실제로도 당뇨병 발생에 영향을 미치는 인자가 될 수 있음을 확인하고, 특히 각 인자들이 하나씩 존재할 때보다. 조합으로 존재할 경우 당뇨병 발생 가능성이 높아질 수 있음을 확인할 수 있었다.

Most diseases are caused by complex processes of various factors. Although previous researches have tried to identify the causes of the disease, there are still lots of limitations to clarify the complex factors. Here, we present a disease classification model based on an evolutionary learning approach of combinatorial features using the data sets from the genetics and cohort studies. We implemented a system for finding the combinatorial risk factors and visualizing the results. Our results show that the proposed method not only improves classification accuracy but also identifies biologically meaningful sets of risk factors.

키워드

참고문헌

  1. F. S. Collins, et al. The Human Genome Project: Lessons from Large-Scale Biology, Science, vol.300, pp.286-290, 2003 https://doi.org/10.1126/science.1084564
  2. K. Bhasi, et al., Information-theoretic identification of predictive SNPs and supervised visualization of genome-wide association studies, Nucleic Acids Res., vol.34, no.14, pp.e101, 2006 https://doi.org/10.1093/nar/gkl520
  3. R. Sladek, et al., A genome-wide association study identifies novel risk loci for type 2 diabetes, Nature, vol.445, pp.881-885, 2007 https://doi.org/10.1038/nature05616
  4. J. Lee, et al., Analysis of asthma related SNP genotype data using normalized mutual inform-ation and support vector machines, Journal of KIISE : Software and Applications, vol.36, no.9, pp.691-696, Sept. 2009 (in Korean).
  5. N. Tiffin, et al., Computational disease gene iden-tification: a concert of methods prioritizes type 2 diabetes arid obesity candidate genes, Nucleic Acids Res., vol.34, no.10, pp.3067-3081, 2006 https://doi.org/10.1093/nar/gkl381
  6. J.-K. Kim, B.-T. Zhang. Evolving hypernetworks for pattern classification, IEEE Congress on Evo-lutionary Computation (CEC 2007), pp.1856-1862, 2007 https://doi.org/10.1109/CEC.2007.4424699
  7. S. Kim, et al., Text classifiers evolved on a simulated DNA computer, IEEE Congress on Evo-lutionary Computation (CEC 2006), pp.9196-9202, 2006 https://doi.org/10.1109/CEC.2006.1688639
  8. C.-H. Park, et al., Finding cancer-related gene combinations using a molecular evolutionary algo-rithm, IEEE 7th international conference on Bio-inforrmatics & BioEngineering (BIBE 2007), pp.158-163, 2007 https://doi.org/10.1109/BIBE.2007.4375559
  9. S. Kim, et al., Evolving hypernetwork classifiers for microRNA expression profile analysis, IEEE Congress on Evolutionary Computation (CEC 2007), pp.313-319, 2007 https://doi.org/10.1109/CEC.2007.4424487
  10. C.-H. Park, et al., Use of evolutionary hypernet-works for mining prostate cancer data, 8th Inter-national Symposium on advanced Intelligent Sys-tems (ISIS 2007), pp.702-706, 2007
  11. B.-T. Zhang, "Hypernetworks: A molecular evolu-tionary architecture for cognitive learning and memory," IEEE Computational Intelligence Magazine, vol.3, no.3, pp.49-63, 2008 https://doi.org/10.1109/MCI.2008.926615
  12. M. A. Hall, Correlation-based feature selection of discrete and numeric class machine learning. International Conference on Machine Learning, pp.359-366, 2000
  13. KEGG: Kyoto Encyclopedia of Genes and Genomes, http://www.genome.jp/kegg/