DOI QR코드

DOI QR Code

Research on the development of demand for medical and bio technology using big data

빅데이터 활용 의학·바이오 부문 사업화 가능 기술 연구

  • Lee, Bongmun. (CKU center for health policy research., Catholic Kwandong University) ;
  • Nam, Gayoung (CKU center for health policy research., Catholic Kwandong University) ;
  • Kang, Byeong Chul (D.iF,Inc., Byeong-Chul Kang) ;
  • Kim, CheeYong (Major of Game Engineering, Dong-Eui University)
  • Received : 2022.01.24
  • Accepted : 2022.01.27
  • Published : 2022.02.28

Abstract

Conducting AI-based fusion business due to the increment of ICT fusion medical device has been expanded. In addition, AI-based medical devices help change existing medical system on treatment into the paradigm of customized treatment such as preliminary diagnosis and prevention. It will be generally promoted to the change of medical device industry. Although the current demand forecasting of medical biotechnology commercialization is based on the method of Delphi and AHP, there is a problem that it is difficult to have a generalization due to fluctuation results according to a pool of participants. Therefore, the purpose of the paper is to predict demand forecasting for identifying promising technology based on building up big data in medical biotechnology. The development method is to employ candidate technologies of keywords extracted from SCOPUS and to use word2vec for drawing analysis indicator, technological distance similarity, and recommended technological similarity of top-level items in order to achieve a reasonable result. In addition, the method builds up academic big data for 5 years (2016-2020) in order to commercialize technology excavation on demand perspective. Lastly, the paper employs global data studies in order to develop domestic and international demand for technology excavation in the medical biotechnology field.

Keywords

1. 서 론

뉴노멀 시대 신성장 동력으로 의학·바이오 경제 시대가 도래했다.고령화와 전염병(Pandemic)창궐 등 사회적 문제 및 비용 부담이 심화됨에 따라 건강·복지 문제를 과학 기술적으로 해결하기 위한 정책적 필요성이 요구된다.세계경제포럼(WEF:WorldEco- nomicForum)보고서 ‘TheFutureofJobs’(2016)에서 미래사회를 변화시킬 4차 산업혁명 기술 중 하나로 바이오 기술(BT:Biotechnology)을 제안했다. 또한 ICT(InformationandCommunicationTechnolo- gies) 융합 의료기기의 증가로 빅데이터를 활용한 AI(Artificial Inteligence) 기반의 융합 비즈니스가 점차 확산되고 있으며, AI의료기기는 기존 치료 중심 의료체계에서 사전 진단 및 예방 등 개인 맞춤형 치료로의 패러다임을 촉진하며 의료산업 전반의 변화를 촉진하고 있다.

기존 의학·바이오 기술사업화 수요예측은 델파이 (Delphi)와 AHP( AnalyticHierarchyProcess)위주였으나 설문자의 풀에 따라 그 결과치가 달라질 수 있어 일반화하기 어렵다는 한계를 지며, 분석 틀로는 부족함이 있다.본 논문에서는 의학·바이오 빅데이터를 구축하여 유망기술 수요 예측을 연구의 목표로 한다.연구방법으로는 의학바이오 부문에 대한 수요자 관점에서 사업화 가능 기술 발굴을 위해 최근 5년간(2016-2020년)의 학술데이터 빅데이터를 구축하고, SCOPUS를 활용하여 키워드 추출, 후보 기술군을 선정해서 word2vec등을 활용하여 기술별 거리유사도 정도와 추천 기술유사 상위 항목을 도출하고, 분석지표(논문 수, 전체 피인용 수, 국가별 피인용 수, 논문당 피인용 수, 매력도 등)를 구했다. 의학·바이오 부문의 국내 및 국제적 수요 기술 발굴 모델을 고도화하기 위해 글로벌 논문 데이터를 활용하였다.

본 논문의 구성은 다음과 같다.2장에서 본 논문의 분석모형이 되는 빅데이터 분석 모델을 수립하고 모델링에 대하여 설명한다.3장에서 분석단계별 결과를 고찰한 다음, 4장에서 연구결과의 활용 및 개선점을 제언한다.

2. 모 형

2.1 빅데이터 분석 기술 활용 의학·바이오 트렌드 분석 모델

2.1.1 문헌데이터 구축

NCBI에서 제공하는 Pubmed문헌의 초록 정보를 바탕으로 최신의 기술 키워드를 추출하고, 이들의 경향을 추적함으로써, 새롭게 부상하는 기술 키워드를 선별하는 방법을 고안한다. 최근 5년간의 NCBI의 Pubmed의 초록을 다운로드하고 검색엔진(ER;El- esticSearch)에 업로드하여 등록한다.Fig.1은 상기의 방법으로 학술문헌의 빅테이터 분석을 통한 신규주제 분석방법 구조를 나타내었다.

Fig. 1. The structure of the analysis method of new topics through big data analysis of academic literature.

2.1.2 전처리와 서지 행렬 구성

검색엔진에 업로드된 문헌에서 필요한 키워드를 추출하고 분류하는 과정이다.키워드는 전체 초록과 문헌의 제목을 대상으로 진행하고, 이를 문헌 고유번호와 출판년도를 합친 합성고유번호를 역인덱스 사전을 구성하였다.분석 대상의 대표 사전을 구축하는 것은 준비절차의 핵심이다.본 논문에서는 저자, 소속, 제목+초록, 저널, 출판연도로 5개의 사전을 구성하였다. 형태소 분석을 통해서 유사단어를 고유한 용어로 축약했다.다양한 기계학습이나 인공지능 알고리즘을 적용하기 위해서 서지 행렬(documentma- trix)을 구성했다.Fig.2는 서지정보에서 용어사전을 추출하는 과정 모식도이다.

Fig. 2. Exploring the process of extracting a dictionary of terms from bibliographic information.

2.1.3 신규 주제 예측 모델링

문헌 패턴분석을 위해서 Bags of Words를 구성하 고 SVD, NMF와 같은 클러스터링 알고리즘을 적용 한다. 상세 분석대상으로 선정된 클러스터에 대해서 시간 연관성을 분석하였다. 시계열의 주제 클러스터 간의 연관성을 계산하기 위해서 피어슨 상관 계수를 적용하였다. X, Y는 서로 다른 시계열의 문헌 클러스 터의 이진화 벡터이다. 다양한 조건으로 클러스터링 을 시도하고 이를 통해서 유의한 패턴과 클러스터를 확인하고 이진 표현은 다음과 같이 정리하였다.

\(\rho(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}\)

본 논문에서 제안하는 학습 알고리즘의 라벨링 알고리즘의 효율성을 더 잘 검증하기 위해 시퀀스 데이터 처리에 적합한 4개의 기존 기계 학습 모델과 2개의 딥 러닝 모델을 포함한다. 6개의 서로 다른 기계학습 모델을 선택하여 실험을 설계하였다. Fig.3은신규 주제 예측을 위한 레이블 방법의 흐름도를 나타내었다.

Fig. 3. Flow chart of label method for predicting new topics.

.로지스틱 회귀(LOGREG)-이분법 종속 변수에 대한 여러 변수의 관계를 설명하는 데 사용할 수 있는 수학적 모델링 접근 방식으로 간단하고 이해하기 쉽지만 데이터에 노이즈가 있는 경우 견고성과 정확성이 부족하다.

.랜덤 포레스트(RF)-훈련 샘플과 변수의 무작위로 선택된 하위 집합을 사용하여 다중 결정 트리를 생성하는 통합 분류기로 2001년 Breiman이 제안한 것으로 이 알고리즘은 범용 분류 및 회귀 방법으로 매우 성공적이다..또한 RF는 고차원 데이터를 처리할 때 고성능을 가진 가장 강력한 앙상블 방법 중하나이다.

.KNN(K-nearest-neighbor) - 비모수적 분류 방법으로 간단하지만 데이터가 많은 경우에 효과적이다..평균 회귀와 추세 추종을 포함하여 많은 시장 조건을 식별할 수 있다.

.지원 벡터 머신(SVM)-결정 기능의 용량 제어, 커널 기능의 사용 및 솔루션의 희소성을 특징으로 하는 학습 알고리즘, 좋은 일반화 능력과 빠른 컴퓨팅 능력을 가지고 있다.지원 벡터 머신은 금융 시계열을 예측할 수 있는 유망한 방법인 구조적 위험 최소화의 원리에 따라 도출된 경험적 오류와 정규화항으로 구성된 위험 함수를 채택.SVM의 근본적인 동기는 기본 시스템 프로세스가 일반적으로 비선형, 비정상 및 사전 정의되지 않은 경우 방법이 시계열 데이터를 정확하게 예측할 수 있다.SVM커널 메커니즘은 비선형 데이터를 고위도 공간에 매핑하고 선형으로 분리할 수 있도록 한다.

.LSTM(LongShort-TermMemory)-LSTM 은 시간 순환 신경망의 일종으로, 시계열에서 상대적으로 긴 간격과 지연으로 중요한 이벤트를 처리하고 예측하는 데 적합하다. 1997년 Hochreiter와 Sch- midhuber에 의해 처음 제안되었으며, .LSTM의 독창성은 입력 게이트 임계값을 높이고 게이트 임계 값을 잊어버리고 출력 게이트 임계값을 증가시켜 자체 루프의 가중치를 변경할 수 있다.이러한 방식으로 모델 매개변수가 고정되면 서로 다른 시점의 적분 스케일이 동적으로 변경되어 기울기 소실을 방지할 수 있다.

.GRU(GatedRecurrentUnit)-LSTM의 변형으로 차이점은 입력 게이트 임계값과 망각 게이트 임계 값을 대체하는 데 하나의 게이트 임계값이 사용된다는 것이다.즉, “업데이트”게이트 임계값이 셀의 상태를 제어하는 데 사용된다.이 방법의 장점은 계산이 간단하고 모델의 표현력이 우수하다.

3. 분석 결과

새로운 주제를 분석하기 위한 대상 문헌은 미국국립보건원 의학도서관에서 제공하고 있는 공개 초록 정보(MEDLINE/PubMed)를 활용했다.주제 분류 알고리즘을 학습하기 전에 일부 서지 정보를 활용한 클러스터링 파라메터에 대한 파일럿 평가를 진행하여 대규모 분석을 위한 사전 준비를 시행한다.Fig. 4는 반복과 클러스터간의 수렴 및 도달 시간 평가 시에 클러스터수(r)과 반복수에 따른 수렴(클러스터 간 거리)그래프이다.Fig.5는 클러스터 방법의 성능점검, 문헌수-클러스터-반복수 평가를 나타내었다.

Fig. 4. Number of clusters (r)&Convergence according to the number of repetitions. (Distance between clusters) Graph.

Fig. 5. Performance check of cluster method, Literaturecluster-repeated evaluation.

문헌 자료의 다운로드와 전처리를 위해서 초록 정보 웹검색을 사용하지 않고 대규모로 자체 설치하고 분석할 필요가 있다.FTP와 rsync를 이용하여 원본 초록 정보를 장기적으로 다운로드한다.MD5의 체크섬 확인을 통해서 무결성 검사 후 압축 해제한다. 해제된 원본 파일의 형식은 XML->JSON으로 변환한다. 검색 엔진 업로드에서 확보된 JSON파일을 ElesticSearch솔루션에 업로드하고 이를 Python에서 검색 가능하도록 구성하였다.3천만건의 문헌 정보 수집 후, 검색엔진에서 활용 가능하도록 구성했다.

3.1 COVID19 영향 고려한 필터

연차별로 정리된 서지정보를 초기값 50, 000의 클러스터를 구성하는 것으로 시행하고, 각 클러스터 간의 유사도가 0.7이상일 경우에는 병합했다. 시계열상의 새로운 주제 탐색을 위해서 7차년도 데이터와 나머지 테이터를 병합하고 유사성을 사전 계산한다. 다만, 이 과정에서 2020년 초에 발생한 COVID19의데이터 바이어스가 매우 높음을 확인하고, 이에 대한 필터를 적용했다.시계열상에서 상대 빈도가 높은 클러스터를 탐색하고 유사 그룹을 동일 그룹으로 구성한 뒤, 각 클러스터의 대표 논문을 추출했다. 대표논문을 추출한 방법은 클러스터 내에서 TFIDF가 높은 값을 선택한다.2019년 말과 2020년 초에 발생한 COVID19대유행으로 전지구적인 영향이 있었고, 생명 분야 연구에서는 직접적인 주제 전환으로 이어졌다. 본 논문의 분석 결과에서도 높은 비율로 출현했다. 본 논문에서는 이러한 바이어스를 고려한 통계적 방법은 어렵다고 판단하여 사전에 정의한 키워드로 COVID19관련 클러스터를 필터링 할 수 있는 옵션을 구성했다.

3.2 연구 결과

빅데이터 분석을 통해서 얻은 신규 주제와 실제 한국의 연구과제 투자는 어떠한가를 비교하였다.50 개의 주제 중에서 5개는 기술 관련성이 매우 낮은 것으로 판단되어 배제했다. administration of hu- man, combinedadministration, casereport, minis- tryofhealth, gulferaveterans)45개의 대상 주제 중에서 NTIS의 상세 검색 키워드 옵션에서 검색되지 않는 사례(조회결과0)는 19개로 42%였다 (pertussistoxins, detectsdiseaseactivities, inhibits tumor growth, methods usability study, discrete trial instructions, hours esophageal string, antimycotic agent clotrimazole, regulations of blood, epilepsy neuroimaging task, spontaneous renal hemorrhage, ethicalkampoformulation, interactive sequencechoice, first intraductal image, unrestored permanent teeth, auxiliarysubunitcornichon, nitrite food poisoning, precise risk factors, clinical classificationcriteria, adultmusclecause). NTIS검색 결과에서 10건 이상의 관련 과제가 있는 것은 총 9건이며, ‘papillarythyroidcancer’의 경우 총 10건이 검색되었는데, 2015년까지는 매년 한 건 정도 있다가 2020년~21년에 총 4건의 연구과제가 진행되고 있다. ‘chronicnonspecificneck’, ‘safetyoforal’의 경우에는 2021년도에 처음 과제 지원이 시작된 것으로도사되었다. 100개 이하의 과제가 진행된 주제들 은총 12개로 vascularcellapoptosis가 2013년 이후에 더 이상의 과제가 없는 것을 제외하고 나머지 11개 주제의 경우에는 지속적인 성장과 투자가 진행되는 것으로 조사되었다.100개 초과된 과제의 주제는 3건으로 줄기세포와 폐암과 관련되어 있다.특히 human pluripotentstem의 경우에는 2020년 대비 2021년도에 연구 과제수가 증가한 것으로 파악된다. 출판된연구논문을 바탕으로 신규성을 유추할 수 있는 방법을 시도하였고, 일부 주제들은 NTIS와 비교하여 신규성 또는 성장성을 파악하여 가능성을 확인할 수 있었다.

4. 결 론

기술적 측면에서 기술용어의 정규화 참조데이터와 방법에 따라 결과 편차가 크게 나오므로 기술 주제 변화에 적합한 참조 데이터 구성에 대한 심화 연구가 필요하다.특히 기술 주제 변화는 기존의 정규화 참조 데이터 구성에서 파악하지 않은 신조어에 대한 예측도 포함되어야 하므로 기존의 정규화 방법에 대한 개선이 필요하다.본 논문에서는 “Systemic Review”와 같이 기술용어이면서 다양한 주제의 허브가 되는 패턴의 단어를 수집하고 가중처리해야 한다. 각 단계를 처리하는 연도, 클러스터간의 유사성 역치값 등은 현재 분석시 설정하는 메타파라메터로 작동하고 있으므로, 통계적 체계화를 구성하여 단계별 처리의 인위적 파리메터를 해결할 수 있다.의학 및 바이오 분야가 아닌 다른 기술 분야에서는 PubMed 와 같이 규격화된 원본정보를 얻기 어려워서 동일한방법을 적용하는데 한계가 있다.그러나 대표적인 저널이나 오픈 사이트를 중심으로 크로링 및 정제 프로세스를 연구하고 적용하면 일부 접목할 수 있는 여지도 있다.세밀한 기술적 키워드 도출을 위해서는 분석의 수준을 분야별로 나누어 시행해야하며, 이렇게 세부 분야의 기술적 트렌드를 분석하기 위해서는 분야별 용어사전과 가중처리가 필요할 것으로 예상된다.

본 논문의 분석결과를 통해 바이오 분야의 신규주제 탐색결과를 바탕으로 기존의 전문 패널의 기획 또는 연구자 집단의 수요조사를 보완하거나 중요도를 살펴 신규 과제의 지표로 활용할 수 있다. 또한본 결과를 연차별로 지속 활용할 경우, 세부 기술이 종합되는 경향을 알 수 있으므로 여러 분야의 기술이 글로벌하게 어떤 방향으로 융합되는지를 객관적으로 파악해 이를 향후 기술 융합의 전략 방향 설정에 활용할 수 있다.

References

  1. Y. Kajikawa, J. Yoshikawa, Y. Takeda, and K. Takeda, "Tracking Emerging Technologies in Energy Research: Toward a Roadmap for Sustainable Energy," Technological Forecasting and Social Change. 75, pp. 771-782, 2008. https://doi.org/10.1016/j.techfore.2007.05.005
  2. K. Borner, C. Chen, and K.W. Boyack, "Visualizing Knowledge Domains," Annual Reivew of Information Science and Technology Vol. 37, pp. 179-255, 2003.
  3. R.N. Kostoff, D.R Toothman, H.J Eberhart, and J.A. Humenik, "Text Mining Using Database Tomography and Bibliometrics: A Review," Technological Forecasting and Social Change Vol. 68, pp. 223-253, 2001. https://doi.org/10.1016/S0040-1625(01)00133-0
  4. K.W. Boyack, B.N. Wylie, and G.S. Davidson, "Domain Visualization Using Vxinsight® for Science and Technology Management," Journal of the American Society for Information Science and Technology Vol. 53, pp. 764-774. 2002. https://doi.org/10.1002/asi.10066
  5. C. Chen, T. Cribbin, R. Macredie, and S. Morar, "Visualizing and Tracking the Growth of Competing Paradigms: Two Case Studies". Journal of the American Society for Information Science and Technology Vol. 53, pp. 678-689, 2002. https://doi.org/10.1002/asi.10075
  6. H. Small, "Tracking and Predicting Growth Areas in Science," Scientometrics, Vol. 68, pp. 595-610. 2006. https://doi.org/10.1007/s11192-006-0132-y
  7. Korea Health Industry Promotion Agency, Trends in the Use of Artificial Intelligence (AI), Korea Health Industry Promotion Agency, 2020.
  8. N. Shibata, Y. Kajikawa, Y. Takeda, and K. Matsushima, "Detecting Emerging Research Fronts Based on Topological Measures in Citation Networks of Scientific Publications," Technovation, Vol. 28, pp. 758-775, 2008. https://doi.org/10.1016/j.technovation.2008.03.009
  9. W. Glanzel, "Bibliometric Methods for Detecting and Analysing Emerging Research Topics". El profesional de la informacion, pp. 194-201, 2012.
  10. J.J Winnink and R.J.W. Tijssen, "Early Stage Identification of Breakthroughs at the Interface of Science and Technology: Lessons Drawn from a Landmark Publication," Scientometrics, Vol. 102, pp. 113-134, 2015. https://doi.org/10.1007/s11192-014-1451-z
  11. J. Kleinberg, "Bursty and Hierarchical Structure in Streams," Data Mining Knowledge Discovery Vol, 7, pp. 373-397, 2003. https://doi.org/10.1023/A:1024940629314
  12. T. Chakraborty, S. Kumar, P. Goyal, N. Ganguly, and A. Mukherjee, "Towards a Stratified Learning Approach to Predict Future Citation Counts," Proceedings of the 14th ACM/IEEE-CS Joint Conference on Digital Libraries, pp. 351-360, 2014.
  13. D. Wang, C. Song, and A.L. Barabasi, "Quantifying Long-Term Scientific Impact," Science, Vol. 342, pp. 127-132, 2013. https://doi.org/10.1126/science.1237825
  14. H. Jiang, M. Qiang, and P.A. Lin, "Topic Modeling Based Bibliometric Exploration of Hydropower Research," Renewable and Sustainable Energy Reviews. Vol. 57, pp. 226-237. 2016. https://doi.org/10.1016/j.rser.2015.12.194
  15. W. Liu, J. Zhang, and C. Guo, "Full-Text Citation Analysis: Enhancing Bibliometric and Scienific Publication Ranking," Proceedings of the 21st ACM International Conference on Information and Knowledge Management, pp. 1975-1979, 2012.
  16. C.K Yau, A. Porter, N. Newman, A. Suominen, "Clustering Scientific Documents with Topic Modeling," Scientometrics, Vol. 100, pp. 767-786, 2014. https://doi.org/10.1007/s11192-014-1321-8
  17. F. Davletov, A.S Aydin, and A. Cakmak, "High Impact Academic Paper Prediction Using Temporal and Topological Features," Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Managemen, CIKM'14, pp. 491-498, 2014.
  18. O. Kuusi and M. Meyer, "Anticipating Technological Breakthroughs: Using Bibliographic Coupling to Explore the Nanotubes Paradigm," Scientometrics, Vol. 70, pp. 759-777, 2007. https://doi.org/10.1007/s11192-007-0311-5
  19. C. Chen, Y. Chen, M. Horowitz, H. Hou, Z. Liu, and D. Pellegrino, "Towards an Explanatory and Computational Theory of Scientific Discovery," Journal of Informetrics. pp. 191-209, 2009.
  20. S. Son and C. Park, "Design of Big Data Preference Analysis System," Journal of Korea Multimedia Society, Vol. 17, No. 11, pp. 1286-1295, 2014. https://doi.org/10.9717/KMMS.2014.17.11.1286