DOI QR코드

DOI QR Code

SNP 데이터의 중요도 평가와 SVM 학습법을 이용한 폐암 감수성 예측

Prediction of Lung Cancer Susceptibility using an Importance Evaluation of SNP Data and SVM Learning

  • 류명춘 (경운대학교 컴퓨터공학과) ;
  • 김상진 (경운대학교 컴퓨터공학과) ;
  • 박창현 (영남대학교 전자정보공학부 컴퓨터공학)
  • 발행 : 2008.10.28

초록

본 논문에서는 폐암의 발생에 관여하는 유전자 데이터인 SNP 데이터의 중요도 평가와 SVM 학습법을 이용하여 폐암 감수성을 예측하는 방법을 제안한다. 학습에 사용될 폐암 관련 양성 데이터에 비하여 음성 데이터의 수가 훨씬 많은 이유로 각 양성 데이터에 대하여 같은 성별과 적은 나이 차를 갖는 음성 데이터를 찾아서 쌍이 되도록 한다. 또한 각 SNP가 발병 예측에 미칠 영향력을 계산하는 수식을 도입하여 각 SNP의 중요도를 평가하고 SNP를 중요도에 따라 서열화 한다. 실험에서는 학습에 사용되는 순위별 SNP 개수에 따라 변화되는 예측률을 관측하였고, LOOCV 테스트 결과 제안된 방법은 실험 데이터에 대하여 최대 65.0%의 예측 정확도를 보였다.

In this paper, we propose a prediction method of lung cancer susceptibility using an importance evaluation of SNP data and the SVM learning, a gene data concerning getting sick with the lung cancer. Since the number of negative data is much larger that of positive data, which are to be used in the SVM learning, for each positive data, a negative data is first searched which has the same sex and the minimum age difference with the positive data. The searched negative data is then coupled with the positive data. For the importance evaluation of each SNP data, an equation which calculates the influence of each SNP data on the prediction of getting sick is adopted. The SNP data are sorted according to the evaluated importance. In experiments, we observed the prediction accuracy which varies according to the number of sorted SNP data used in the learning. LOOCV test results showed that the proposed method yields the prediction accuracy of maximum 65.0% for test data.

키워드

참고문헌

  1. J. A. Cruz and D. S. Wishart, "Applications of Machine Learning in Cancer Prediction and Prognosis," Cancer Informatics, pp.59-78, 2006.
  2. J. Listgarten, S. Damaraju, B. Poulin, L. Cook, J. Dufour, A. Driga, J. Mackey, A. Wishart, R. Greiner, and B. Zanke, "Predictive models for Breast Cancer susceptibility for multiple single nucleotide polymorphism," Clinical Cancel Research, Vol.10, pp.2725-2737, 2004. https://doi.org/10.1158/1078-0432.CCR-1115-03
  3. J. I. Bell, "Single nucleotide polymorphisms and disease gene mapping," Arthritis Research, Vol.4, pp.S273-S278, 2002. https://doi.org/10.1186/ar555
  4. Z. Wang and J. Moult, "SNPs, Protein Structure, and Disease," Human Mutation, Vol.17, pp.263-270, 2001. https://doi.org/10.1002/humu.22
  5. 박재용, 폐암 감수성 진단용 마커 및 이를 이용한 폐암 감수성 예측 및 판단방법, 대한민국 특허출원 제 10-2006-0100277호, 2006.
  6. 박현석, 정철희, 자바로 배우는 바이오인포매틱스, 사이텍미디어, 2006.
  7. T. G. Dietterich, "Machine Learning Research: Four Current Directions," The AI Magazine, Vol.18, No.4. pp.97-136, 1997.
  8. S. Mukkamala, G. Janowski, and A. H. Sung, "Intrusion Detection Using Support Vector Machines," Proceedings of High Performance Computing Symposium-HPC, pp.178-183, 2002.
  9. 김동회, 엄상용, 함기백, 김진, "Single Nucleotide Polymorphism(SNP) 데이터와 Support Vector Machine(SVM)을 이용한 만성 간염 감수성 예측", 정보과학회논문지: 시스템 및 이론, 제37권, 제7호, 2007.
  10. 제홍모, 방승양, "앙상블 구성을 이용한 SVM 분류성능의 향상", 정보과학회논문지: 소프트웨어 및 응용, 제30권, 제3호, pp.251-258, 2003.
  11. 김한성, 권영희, 차성덕, "SVM 기반의 효율적인 신분위장기법 탐지", 정보보호학회논문지, 제13권, 제5호, pp.91-104, 2003.
  12. L. Wang, Support Vector Machines: Theory and Applications, Springer, 2005.
  13. http://www.slcmsr.net/boulesteix/papers/wilcoxon.pdf