DOI QR코드

DOI QR Code

Big Data News Analysis in Healthcare Using Topic Modeling and Time Series Regression Analysis

토픽모델링과 시계열 회귀분석을 활용한 헬스케어 분야의 뉴스 빅데이터 분석 연구

  • Received : 2023.05.02
  • Accepted : 2023.07.06
  • Published : 2023.08.31

Abstract

This research aims to identify key initiatives and a policy approach to support the industrialization of the sector. The research collected a total of 91,873 news data points relating to healthcare between 2013 to 2022. A total of 20 topics were derived through topic modeling analysis, and as a result of time series regression analysis, 4 hot topics (Healthcare, Biopharmaceuticals, Corporate outlook·Sales, Government·Policy), 3 cold topics (Smart devices, Stocks·Investment, Urban development·Construction) derived a significant topic. The research findings will serve as an important data source for government institutions that are engaged in the formulation and implementation of Korea's policies.

본 연구는 디지털 헬스케어 산업 활성화를 위한 정책적 접근으로서, 주요 의제 도출 및 정책적 시사점을 제시하는데 목적이 있다. 본 연구에서는 10년(2013년~2022년) 간의 헬스케어와 관련된 뉴스 빅데이터 총 91,873건을 수집하여 토픽모델링 분석, 다차원척도 분석 및 시계열 회귀분석을 수행하였다. 토픽모델링 분석 및 다차원척도법을 통해 총 20개의 토픽을 도출하여 2차원선상에 토픽들의 군집 형태를 파악하였고, 시계열 회귀분석을 통해, 상승 추세를 나타내는 4개의 Hot topic(건강관리, 바이오제약, 기업매출·전망, 정부·정책)과 하향 추세를 나타내는 3개의 Cold topic(스마트기기, 주식·투자, 도시·건설)을 도출되었다. 본 연구의 결과는 우리나라 정책을 수립하는 정부 기관에 중요한 기초 자료로 활용될 수 있을 것이다.

Keywords

References

  1. 고민규, 김태종, "LDA 기반 ESG 이슈 분석: 2009~2022년 뉴스 빅데이터를 중심으로", 디지털콘텐츠학회논문지, 제3권, 제24호, 2023, pp. 517-530.  https://doi.org/10.9728/dcs.2023.24.3.517
  2. 권기대, "디지털 헬스케어에 대한 국민 인식 조사", 디지털콘텐트학회논문지, 제23권, 제3호, 2022, pp. 551-558.  https://doi.org/10.9728/dcs.2022.23.3.551
  3. 권승수, "4차 산업혁명시대 헬스케어의 의료 정보 활용화 과제", 문화산업연구, 제21권, 제2호, 2021, pp. 119-124.  https://doi.org/10.35174/JKCI.2021.06.21.2.119
  4. 김영국, "디지털 헬스케어의 나아갈 방향", 상사법연구, 제41권, 제3호, 2022, pp. 221-258. 
  5. 김유진, "디지털화로 확장되는 헬스케어 생태계", 하나금융경영연구소 Bi-Weekly Hana Financial Focus, 제12권, 제13호, 2022. 
  6. 김은정, 최희진, "토픽모델링과 네트워크분석을 활용한 헬스케어 분야의 핵심기술과 기술 융합 분석 연구: 특허정보를 중심으로", 한국정보통신학회논문지, 제26권, 제5호, 2022, pp. 763-778.  https://doi.org/10.6109/JKIICE.2022.26.5.763
  7. 김종란, 강유진, 홍미영, "바이오헬스 정책․ 투자동향", KISTEP 브리프, 제6호, 2022. 
  8. 김태종, 이원철, 하소현, 박혜진, 이유리, 강혜진, 안부영, "토픽 모델링 기반 디지털 전환 (Digital Transformation) 동향 분석: 1994~2021년 뉴스 빅데이터를 중심으로", 디지털콘텐츠 학회논문지, 제23권, 제5호, 2022, pp. 929-942.  https://doi.org/10.9728/dcs.2022.23.5.929
  9. 나경식, 이지수, "신문 빅데이터를 바탕으로 본 국내 정보화의 경향과 도서관의 역할", 한국콘텐츠학회논문지, 제18권, 제9호, 2018, pp. 14-33.  https://doi.org/10.5392/JKCA.2018.18.09.014
  10. 노희경, "뉴스 빅데이터를 활용한 관광분야 메타버스관련 이슈 분석", 관광레저연구, 제34권, 제2호, 2022, pp. 151-166.  https://doi.org/10.31336/JTLR.2022.2.34.2.151
  11. 문성호, 바이오부터 디지털헬스케어까지 2700억원 과제 관심 집중", 메디컬타임즈, 2023.01.26. Available at https://www.medicaltimes.com/Main/News/NewsView.html?ID=1151763. 
  12. 박대민, "장기 시계열 내용 분석을 위한 뉴스 빅데이터 분석의 활용 가능성: 100만 건 기사의 정보원과 주제로 본 신문 26년", 한국언론학보, 제60권, 제5호, 2016, pp. 353-407.  https://doi.org/10.20879/KJJCS.2016.60.5.013
  13. 보건복지부, "바이오헬스 신시장 창출 전략 발표", 보건복지부 보도자료, 2023. 
  14. 안정민, "디지털 헬스케어 산업와 원격의료 산업의 경제적 파급효과 비교분석", e-비즈니스연구, 제22권, 제4호, 2021, pp. 15-25.  https://doi.org/10.20462/TeBS.2021.10.22.5.15
  15. 안지연, 이윤정, 이복임, "텍스트 마이닝과 토픽모델링 분석을 활용한 코로나 19와 간호사에 대한 언론기사 분석", 지역사회간호학회지, 제32권, 제4호, 2021, pp. 467-476. 
  16. 이경은, "국내 디지털 헬스케어의 발전방향", AI Trend Watch, 2021-4호, 2021. 
  17. 이택균, "소셜미디어 데이터에 기반한 디지털 헬스케어 연구 동향", 한국콘텐츠학회논문지, 제20권, 제3호, 2020, pp. 515-526.  https://doi.org/10.5392/JKCA.2020.20.03.515
  18. 정일영, 최병삼, 송명진, 김지은, "헬스케어 데이터 공공플랫폼의 활성화를 위한 통합적 전략 연구", 과학기술정책연구원 정책연구, 2021-6호, 2021. 
  19. 천승현, "제약, 디지털헬스케어에 꽂히다. 새먹거리 발굴 총력", 데일리팜, 2022.10.06, Available at http://www.dailypharm.com/Users/News/NewsView.html?ID=292505. 
  20. 최은경, 안부영, 김태종, "뉴스 빅데이터 기반 탄소중립 토픽 분석: 2006~2022년 국내 언론보도를 중심으로", 디지털콘텐츠학회논문지, 제23호, 제7권, 2022, pp. 1213-1226.  https://doi.org/10.9728/dcs.2022.23.7.1213
  21. 최한별, 장윤혁, 김성철, "텍스트 마이닝을 활용한 정보 프라이버시 의제 분석: 1990~2021년 뉴스 빅데이터를 중심으로", 한국정보사회학회지, 제23권, 2호, 2022, pp. 69-113.  https://doi.org/10.52558/ISM.2022.08.23.2.69
  22. 하소희, 금영정, "네트워크 분석을 이용한 애플리케이션 서비스 하위 카테고리 분류: 헬스 케어 어플리케이션 중심으로", 한국전자거래 학회지, 제25권, 제3호, pp. 15-40, 2020. 
  23. 홍미영, 김주원, "바이오헬스 산업 성장가속화를 위한 정부R&D의 역할 및 예산배분 전략," 한국과학기술기획평가원, 2021-09, 제309호 
  24. Borg, I. and P. Groenen, Modern Multidimensional Scaling: Theory and Applications (2nd ed.), New York: Springer-Verlag, 2005, pp. 207-212. 
  25. David, M. B., A. Y. Ng, and M. I. Jordan, "Latent dirichlet allocation", Journal of Machine Learning Research, Vol.3, 2003, pp. 993-1022. 
  26. Frank. R., A. Hinneburg, M. Roder, M. Nettling, and A. Both, "Evaluating topic coherence measures", Conference: Neural Information Processing Systems Foundation (NIPS 2013) - Topic Models Workshop, 2013. 
  27. IRS Global, "포스트 코로나 시대 디지털 헬스 케어 산업 동향", IRS Global, 2020. 
  28. World Economic Forum, "Top 10 Emerging Technologies of 2021", World Economic Forum Insight Report, 2021.