DOI QR코드

DOI QR Code

A Node2Vec-Based Gene Expression Image Representation Method for Effectively Predicting Cancer Prognosis

암 예후를 효과적으로 예측하기 위한 Node2Vec 기반의 유전자 발현량 이미지 표현기법

  • Received : 2019.07.05
  • Accepted : 2019.07.25
  • Published : 2019.10.31

Abstract

Accurately predicting cancer prognosis to provide appropriate treatment strategies for patients is one of the critical challenges in bioinformatics. Many researches have suggested machine learning models to predict patients' outcomes based on their gene expression data. Gene expression data is high-dimensional numerical data containing about 17,000 genes, so traditional researches used feature selection or dimensionality reduction approaches to elevate the performance of prognostic prediction models. These approaches, however, have an issue of making it difficult for the predictive models to grasp any biological interaction between the selected genes because feature selection and model training stages are performed independently. In this paper, we propose a novel two-dimensional image formatting approach for gene expression data to achieve feature selection and prognostic prediction effectively. Node2Vec is exploited to integrate biological interaction network and gene expression data and a convolutional neural network learns the integrated two-dimensional gene expression image data and predicts cancer prognosis. We evaluated our proposed model through double cross-validation and confirmed superior prognostic prediction accuracy to traditional machine learning models based on raw gene expression data. As our proposed approach is able to improve prediction models without loss of information caused by feature selection steps, we expect this will contribute to development of personalized medicine.

암 환자에게 적절한 치료계획을 제공하기 위해 암의 진행양상 또는 환자의 생존 기간 등에 해당하는 환자의 예후를 정확히 예측하는 것은 생물정보학 분야에서 다루는 중요한 도전 과제 중 하나이다. 많은 연구에서 암 환자의 유전자 발현량 데이터를 이용하여 환자의 예후를 예측하는 기계학습 모델들이 많이 제안되어 오고 있다. 유전자 발현량 데이터는 약 17,000개의 유전자에 대한 수치값을 갖는 고차원의 수치형 자료이기에, 기존의 연구들은 특징 선택 또는 차원 축소 전략을 이용하여 예측 모델의 성능 향상을 도모하였다. 그러나 이러한 접근법은 특징 선택과 예측 모델의 훈련이 분리되어 있어서, 기계학습 모델은 선별된 유전자들이 생물학적으로 어떤 관계가 있는지 알기가 어렵다. 본 연구에서는 유전자 발현량 데이터를 이미지 형태로 변환하여 예후 예측이 효과적으로 특징 선택 및 예후 예측을 수행할 수 있는 기법을 제안한다. 유전자들 사이의 생물학적 상호작용 관계를 유전자 발현량 데이터에 통합하기 위해 Node2Vec을 활용하였으며, 2차원 이미지로 표현된 발현량 데이터를 효과적으로 학습할 수 있도록 합성곱 신경망 모델을 사용하였다. 제안하는 모델의 성능은 이중 교차검증을 통해 평가되었고, 유전자 발현량 데이터를 그대로 이용하는 기계학습모델보다 우월한 예후 예측 정확도를 가지는 것이 확인되었다. Node2Vec을 이용한 유전자 발현량의 새로운 이미지 표현법은 특징 선택으로 인한 정보의 손실이 없어 예측 모델의 성능을 높일 수 있으며, 이러한 접근법이 개인 맞춤형 의학의 발전에 이바지할 것으로 기대한다.

Keywords

References

  1. S. W. Min, B. G. Lee, and S. R. Yoon, "Deep learning in bioinformatics," Briefings in Bioinformatics, Vol.18, No.5, pp.851-869, 2017. https://doi.org/10.1093/bib/bbw068
  2. K. Kourou, T. P. Exarchos, K. P. Exarchos, M. V. Karamouzis, and D. I. Fotiadis, "Machine learning applications in cancer prognosis and prediction," Computational and Structural Biotechnology Journal, Vol.13, pp.8-17, 2015. https://doi.org/10.1016/j.csbj.2014.11.005
  3. Ministry of Health and Welfare, Republic Korea, "National Cancer Statistics in 2016." 2018.
  4. C. Sotiriou, P. Wirapati, S. Loi, A. Harris, S. Fox, J. Smeds, H. Nordgren, P. Farmer, V. Praz, B. Haibe-Kains, C. Desmedt, D. Larsimont, F. Cardoso, H. Peterse, D. Nuyten, M. Buyse, M. J. Van de Vijver, J. Bergh, M. Piccart, and M. Delorenzi, "Gene expression profiling in breast cancer: understanding the molecular basis of histologic grade to improve prognosis," Journal of the National Cancer Institute, Vol.98, No.4, pp.262-272, 2006. https://doi.org/10.1093/jnci/djj052
  5. R. Clarke, H. W. Ressom, A. Wang, J. Xuan, M. C. Liu, E. A. Gehan, and Y. Wang, "The properties of high-dimensional data spaces: implications for exploring gene and protein expression data," Nature Reviews Cancer, Vol.8, No.1, pp.37, 2008. https://doi.org/10.1038/nrc2294
  6. L. Wang, Y. Wang, and Q. Chang, ""Feature selection methods for big data bioinformatics: A survey from the search perspective," Methods, Vol.111, pp.21-31, 2016. https://doi.org/10.1016/j.ymeth.2016.08.014
  7. J. Choi, S. Park, Y. Yoon, and J. Ahn, "Improved prediction of breast cancer outcome by identifying heterogeneous biomarkers," Bioinformatics, Vol.33, No.22, pp.3619-3626, 2017. https://doi.org/10.1093/bioinformatics/btx487
  8. E. Martinez-Ledesma, R. G. W. Verhaak, and V. Trevino, "Identification of a multi-cancer gene expression biomarker for cancer clinical outcomes using a network-based algorithm," Scientific Reports, Vol.5, pp.11966, 2015. https://doi.org/10.1038/srep11966
  9. J. Choi, I. Oh, S. Seo, and J. Ahn, "G2Vec: Distributed gene representations for identification of cancer prognostic genes," Scientific Reports, Vol.8, No.1, pp.13729, 2018. https://doi.org/10.1038/s41598-018-32180-0
  10. A. Grover, and J. Leskovec, "Node2vec: Scalable feature learning for networks," Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2016.
  11. S. Varma, and R. Simon, "Bias in error estimation when using cross-validation for model selection," BMC Bioinformatics, Vol.7, No.1, pp.91, 2006. https://doi.org/10.1186/1471-2105-7-91
  12. J. Bergstra, and Y. Bengio, "Random search for hyper-parameter optimization," Journal of Machine Learning Research, Vol.13(Feb.), pp.281-305, 2012.
  13. T. Dozat, "Incorporating nesterov momentum into adam," 2016.
  14. K. Tomczak, P. Czerwinska, and M. Wiznerowicz, "The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge," Contemporary Oncology, Vol.19, No.1A, pp.A68, 2015.
  15. A. Colaprico, T. C. Silva, C. Olsen, L. Garofano, C. Cava, D. Garolini, T. S. Sabedot, T. M. Malta, S. M. Pagnotta, I. Castiglioni, M. Ceccarelli, G. Bontempi, and H. Noushmehr, "TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data," Nucleic Acids Research, Vol.44, No.8, pp.e71-e71, 2015. https://doi.org/10.1093/nar/gkv1507
  16. F. Danielsson, T. James, D. Gomez-Cabrero, and M. Huss, "Assessing the consistency of public human tissue RNA-seq data sets," Briefings in Bioinformatics, Vol.16, No.6, pp.941-949, 2015. https://doi.org/10.1093/bib/bbv017
  17. D. Szklarczyk, A. L. Gable, D. Lyon, A. Junge, S. Wyder, J. Huerta-Cepas, M. Simonovic, N. T. Doncheva, J. H. Morris, P. Bork, L. J. Jensen, and C. Mering, "STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets," Nucleic Acids Research, Vol.47, No.D1, pp.D607-D613, 2018.
  18. J. Qiu, Y. Dong, H. Ma, J. Li, and K. Wang, "Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec," Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining, ACM, 2018.