Analysis of Asthma Related SNP Genotype Data Using Normalized Mutual Information and Support Vector Machines

정규상호정보와 지지벡터기계를 이용한 천식 관련 단일염기다형성 유전형 자료 분석

  • Published : 2009.09.15

Abstract

Introduction: There are two types of asthma according to aspirin hypersensitivity: aspirin intolerant asthma (AIA) and aspirin tolerant asthma (ATA). The genetic risk factors that are related with asthma have been investigated intensively and extensively. However the combinatory effects of single nucleotide polymorphisms (SNPs) have hardly been evaluated. In this paper we searched the best set of SNPs that are useful to diagnose the two types of asthma. Methods: We examined 246 asthmatic patients (94 having aspirin intolerant asthma and 152 having aspirin tolerant asthma) and analyzed 25 SNPs typed in them, which are suspected to be associated with asthma. Normalized mutual information values of combinations of typed SNPs are calculated, and those with high normalized mutual information values are selected. We use support vector machines to evaluate the prediction accuracy of the selected combinations. Results: The best combination model turns out four-locus and consists of ALOX5_p1_1708, B2ADR_q1_46, CCR3_p1_520, CysLTR1_p1_634. Its normalized mutual information value is 0.053 and the accuracy in predicting ATA disease risk among asthmatic patients is 71.14%.

서론: 천식에는 아스피린 과민증 (aspirin hypersensitivity)에 따라 아스피린 불내성 (aspirin intolerant asthma, AIA)과 내성 천식 (aspirin tolerant asthma, ATA) 두 가지 유형이 있다. 천식과 관련된 유전적 위험 요인들은 집중적으로 또한 광범위하게 연구되고 있다. 그러나 단일염기다형성들의 조합의 효과에 대해서는 거의 평가되지 않았다. 본 논문에서는 두 유형의 천식 진단에 유용한 단일염기다형성의 최상의 조합을 찾는다. 방법: 본 논문에서는 246명의 천식환자들을 조사하였다. (94명은 아스피린 불내성 천식을 152명은 아스피린 내성 천식을 가지고 있다) 그리고 천식과 관련된 것으로 추측되는 25개의 단일염기다형성들을 분석하였다. 단일염기다형성의 조합의 정규상호정보 값을 계산하여 높은 정규상호정보 값을 갖는 단일염기다형성들의 조합을 선택하고 선택된 조합들의 예측 정확도를 지지벡터기계를 사용하여 계산하였다. 결과: 최상의 조합은 4개짜리이고 ALOX5_p1_1708, B2ADR_q1_46, CCR3_p1_520, CysLTR1_p1_534로 구성된 모델이다. 이것은 0.053의 정규상호정보 값과 71.14%의 ATA 질병에 대한 예측 정확도를 갖는다.

Keywords

References

  1. Tsalenko, A., Ben-Dor, A., Cox, N., et al., 'Methods for analysis and visualization of SNP genotype data for complex diseases,' Pac. Symp. Biocomput., vol.8, pp.548-561, 2003
  2. S. H. Kim H. H. Jeong, B. Y. Cho, et al, 'Association of four-locus gene interaction with aspirinintolerant asthma in Korean asthmatics,' J. Clin. Immunol., vol.4, no.4, pp.336-342, 2008 https://doi.org/10.1007/s10875-008-9190-7
  3. Cover, T. M. and Thomas, J. A., Elements of Information Theory, 2nd Ed., Wiley, 2006
  4. Furey, T. S., Cristianini, N., Duffy, N., et al, 'Support vector machine classification and validation of cancer tissue samples using microarray expression data,' Bioinformatics, vol.16, no.10, pp. 906-914, 2006 https://doi.org/10.1093/bioinformatics/16.10.906
  5. Zhou, X., Wang, X., Dougherty, E. R., et al. 'Gene clustering based on clusterwide mutual information,' J. Comput. Biol., vol.11, no.1, pp.147-161, 2004 https://doi.org/10.1089/106652704773416939
  6. http://en.wikipedia.org/wiki/Mutual_information
  7. http://svmlight.joachims.org/