DOI QR코드

DOI QR Code

머신러닝 기반의 신약 재창출 관련 연구 동향 분석

Analysis of Research Trends Related to drug Repositioning Based on Machine Learning

  • 유소연 (한양대학교 경영대학) ;
  • 임규건 (한양대학교 경영대학 경영학부)
  • So Yeon Yoo (Graduate School of Business Administration, Hanyang University) ;
  • Gyoo Gun Lim (School of Business, Hanyang University)
  • 투고 : 2021.09.02
  • 심사 : 2021.11.25
  • 발행 : 2022.02.28

초록

신약을 개발하는 한 가지 방법의 하나인 신약 재창출(Drug Repositioning)은 이미 사람들에게 사용할 수 있도록 승인된 약물들이 다른 용도로 사용되도록 하여 새로운 적응증을 발견하는 유용한 방법이다. 최근에는 머신러닝 기술의 발달로 방대한 생물학적 정보를 분석하여 신약 개발에 활용하는 경우가 증가하고 있다. 신약 재창출에 머신러닝 기술을 활용하면 효과적인 치료법을 신속하게 찾아내는 데 도움을 줄 것이다. 현재 심각한 급성 호흡기 증후군인 코로나바이러스(COVID-19)에 의한 신종 질병으로 전 세계가 힘든 시간을 보내고 있다. 이미 임상적으로 승인된 약물의 용도를 변경하는 신약 재창출은 COVID-19 환자를 치료하기 위한 치료제의 대안이 될 수 있다. 본 연구는 머신러닝 기법을 활용하여 신약 재창출 분야에 대한 연구 동향을 살펴보고자 한다. Pub Med에서 웹 스크래핑 기법을 사용하여 'Drug Repositioning'이라는 키워드로 총 4,821건의 논문을 수집하였다. 데이터 전처리 후, 4,419건의 논문을 대상으로 빈도분석, LDA 기반 토픽모델링, Random Forest 분류 분석 및 예측 성능평가를 수행하였다. Word2vec 모델을 기반으로 연관어를 분석하였고, PCA 차원 축소 후 K-Means 군집화하여 레이블을 생성한 후, t-SNE 알고리즘을 이용하여 논문이 형성하고 있는 그룹을 시각화하고, LDA 결과에 계층적 군집화를 적용하여 히트맵으로 시각화하였다. 본 연구는 신약 재창출과 관련된 연구 주제가 무엇인지를 파악하고, 머신러닝 알고리즘을 사용하여 대량의 문헌에서 의미 있는 주제를 도출하고 시각화하는 방법을 제시하였다. 향후 신약 재창출 분야의 연구나 개발 전략을 수립하기 위한 기초자료로 활용되는 데 도움을 줄 것이라고 기대한다.

Drug repositioning, one of the methods of developing new drugs, is a useful way to discover new indications by allowing drugs that have already been approved for use in people to be used for other purposes. Recently, with the development of machine learning technology, the case of analyzing vast amounts of biological information and using it to develop new drugs is increasing. The use of machine learning technology to drug repositioning will help quickly find effective treatments. Currently, the world is having a difficult time due to a new disease caused by coronavirus (COVID-19), a severe acute respiratory syndrome. Drug repositioning that repurposes drugsthat have already been clinically approved could be an alternative to therapeutics to treat COVID-19 patients. This study intends to examine research trends in the field of drug repositioning using machine learning techniques. In Pub Med, a total of 4,821 papers were collected with the keyword 'Drug Repositioning'using the web scraping technique. After data preprocessing, frequency analysis, LDA-based topic modeling, random forest classification analysis, and prediction performance evaluation were performed on 4,419 papers. Associated words were analyzed based on the Word2vec model, and after reducing the PCA dimension, K-Means clustered to generate labels, and then the structured organization of the literature was visualized using the t-SNE algorithm. Hierarchical clustering was applied to the LDA results and visualized as a heat map. This study identified the research topics related to drug repositioning, and presented a method to derive and visualize meaningful topics from a large amount of literature using a machine learning algorithm. It is expected that it will help to be used as basic data for establishing research or development strategies in the field of drug repositioning in the future.

키워드

참고문헌

  1. 권철민, 파이썬 머신러닝 완벽 가이드, 위키북스, 서울, 2020.
  2. 김판준, "랜덤포레스트를 이용한 국내 학술지 논문의 자동분류에 관한 연구", 정보관리학회지, 제36권, 제2호, 2019, pp. 57-77. https://doi.org/10.3743/KOSIM.2019.36.2.057
  3. 박미라, 박선혜, "신약 재창출 가능성 보이는 약물은?", Medical Observer, 2019.01.11., Available at http://www.gametrics.com/news/News02_View.aspx?seqid=40355.
  4. 아키바 신야, 스기야마 아세이, 이중민역, 머신러닝 도감, 제이펍, 서울, 2019.
  5. 어균선, 이건창, "속성선택방법과 워드임베딩 및 BOW(Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구", 디지털융복합연구, 제17권, 제2호, 2019, pp. 163-170. https://doi.org/10.14400/JDC.2019.17.2.163
  6. 윤지은, 서창진, "텍스트마이닝 기법을 활용한 인공지능과 헬스케어 융․복합 분야 연구동향 분석", 한국IT서비스학회지, 제18권, 제2호, 2019, pp. 123-141. https://doi.org/10.9716/KITS.2019.18.2.123
  7. 이주현, 강지호, 박아람, 박상성, 장동식, "기계학습을 이용한 특허 분류의 성능 비교에 대한 연구", 한국컴퓨터정보학회 학술논문발표집, 제26권, 제2호, 2018, pp. 539-540.
  8. 정명석, 박상현, 채병훈, 이주연, "논문 데이터 분석을 통한 인공지능 분야 주요 연구 동향 분석", 디지털융복합연구, 제15권, 제5권, 2017, pp. 225-233. https://doi.org/10.14400/JDC.2017.15.5.225
  9. 최지원, "코로나가 불붙인 '약물 재창출' 경쟁", 한경바이오인사이트, 2020. 07. 08., Available at https://www.hankyung.com/it/article/2020070877871.
  10. Ahmad., A., S. Aryal, I. Manandhar, P. B. Munroe, B. Joe, and X. Cheng, "Artificial intelligence and machine learning to fight COVID-19", Physiological Genomics, Vol. 52, No. 4, 2020, pp. 200-202. https://doi.org/10.1152/physiolgenomics.00029.2020
  11. Anowar, F., S. Sadaoui, and B. Selim, "Conceptual and empirical comparison of dimensionality reduction algorithms (PCA, KPCA, LDA, MDS, SVD, LLE, ISOMAP, LE, ICA, t-SNE)", Computer Science Review, 2021, Vol.40, p.100378.
  12. Aung, M. H., P. T. Seluka, J. T. R. Fuata, M. J. Tikoisuva, M. S. Cabealawa, and R. Nand, "Random forest classifier for detecting credit card fraud based on performance metrics", 2020 IEEE Asia-Pacific Conference on Computer Science and Data Engineering (CSDE), 2020, pp. 1-6.
  13. Blei, D. M., Y. N. Andrew, and M.. I. Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research, Vol.3, 2003, pp. 993-1022.
  14. DiMasi, J. A., L. Feldman, A. Seckler, and A. Wilson, "Trends in risks associated with new drug development: success rates for investigational drugs", Clinical Pharmacology & Therapeutics, Vol.87, No.3, 2010, pp. 272-277. https://doi.org/10.1038/clpt.2009.295
  15. Eren, M. E., N. Solovyev, E. Raff, C. Nicholas, and B. Johnson, "COVID-19 Kaggle Literature Organization", Proceeding of the ACM Symposium on Document Engineering, DocEng 20, 2020.
  16. Fu, Y. and Y. Yu, "Research on Text Representation Method Based on Improved TF-IDF", Journal of Physics: Conference Series, Vol.1486, 2020.
  17. Gentleman, R., Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Cambridge: Springer, New York, 2005.
  18. Haifeng, L., H. Lin, C. Shen, L, Yang, Y. Lin, B. Xu, Z. Yang, J. Wang, and Y. Sun, "Drug repositioning for SARS-CoV-2 based on graph neural network", IEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2020, pp. 319-322.
  19. Kim, Y. Y., A. S. Choi, and H. J. Nam, "Drug repositioning of herbal compounds via a machine-learning approach", BMC Bioinformatics, Vol.20, No.S10, 2019, pp. 33-43. https://doi.org/10.1186/s12859-018-2566-7
  20. Liu, X. Q., Q. L. Wu, and W. T. Pan, "Sentiment classification of micro-blog comments based on Randomforest algorithm", Concurrency and Computation: Practice and Experience, Vol.31, No.10, 2019, p. e4746.
  21. Marissa, B. S, A. Bottega, V. S. Foletto, T. F. da Rosa, A. Horner, and R. Horner, "Drug repositioning is an alternative for the treatment of coronavirus COVID-19", International Journal of Antimicrobial Agents, Vol.55, No.6, 2020, p. 105969.
  22. Nordqvist, M. J. and R. M. Martins, "An investigation on the impact of non-uniform random sampling techniques for t-SNE", 2020 Swedish Workshop on Data Science (SweDS), 2020, pp. 1-8.
  23. Qiu, Y. and B. Yang, "Research on Micro-blog text presentation model based on word2vec and TF-IDF", 2021 IEEE Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC), 2021, pp. 47-51.
  24. Sievert, C. and K. E. Shirley, "LDAvis: A method for visualizing and interpreting topics: Proceeding of the workshop an interactive language learning", Association for Computational Linguistics, 2014, pp. 63-70.
  25. Singh, P., S. Verma, and O. P. Vyas, "Software fault prediction at design phase", Journal of Electrical Engineering & Technology, Vol.9, No.5, 2014, pp. 1739-1745.