DOI QR코드

DOI QR Code

Topic Modeling on Research Trends of Industry 4.0 Using Text Mining

텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링

  • Received : 2019.04.12
  • Accepted : 2019.04.19
  • Published : 2019.07.31

Abstract

In this research, text mining techniques were used to analyze the papers related to the "4th Industry". In order to analyze the papers, total of 685 papers were collected by searching with the keyword "4th industry" in Korea Journal Index(KCI) from 2016 to 2019. We used Python-based web scraping program to collect papers and use topic modeling techniques based on LDA algorithm implemented in R language for data analysis. As a result of perplexity analysis on the collected papers, nine topics were determined optimally and nine representative topics of the collected papers were extracted using the Gibbs sampling method. As a result, it was confirmed that artificial intelligence, big data, Internet of things(IoT), digital, network and so on have emerged as the major technologies, and it was confirmed that research has been conducted on the changes due to the major technologies in various fields related to the 4th industry such as industry, government, education field, and job.

본 연구에서는 "4차 산업"과 관련된 논문들의 세부 연구 주제를 파악하기 위하여 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 이를 위하여 2016년부터 2019년까지 한국학술지인용색인(KCI)에서 "4차 산업"이라는 키워드로 논문을 검색하여 총 685편의 논문을 수집하였다. 논문 수집을 위해서는 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 수집된 논문들에 대한 Perplexity 분석 결과, 9가지 토픽이 최적으로 결정되었고 수집된 논문들의 9가지 대표 토픽들을 Gibbs 샘플링 방법을 사용하여 추출하였다. 분석 결과, 인공지능, 빅데이터, 사물인터넷, 디지털, 네트워크 등이 상위 주요 기술들로 나타났으며, 산업, 정부, 교육 현장, 일자리 등 4차 산업과 관련한 다양한 분야에서 주요 기술들로 인한 변화에 대한 연구들이 이루어져 왔음을 확인할 수 있었다.

Keywords

HOJBC0_2019_v23n7_764_f0001.png 이미지

Fig. 1 Perplexity Change

HOJBC0_2019_v23n7_764_f0002.png 이미지

Fig. 2 Parameters in LDA function

HOJBC0_2019_v23n7_764_f0003.png 이미지

Fig. 3 Word cloud by top 100 keywords

HOJBC0_2019_v23n7_764_f0004.png 이미지

Fig. 4 Intertopic distance map(IDM)

HOJBC0_2019_v23n7_764_f0005.png 이미지

Fig. 5 Topic Trends

Table. 1 Top 25 keywords

HOJBC0_2019_v23n7_764_t0001.png 이미지

Table. 2 Topic modeling analysis result

HOJBC0_2019_v23n7_764_t0002.png 이미지

References

  1. Telecommunication Technology Association. Dictionary of Telecommunication Terms [Internet]. Available: http://terms.tta.or.kr/main.do.
  2. K. J. Lee, "The Fourth Industrial Revolution of the World Economic Forum 2016," KISA Power Review Report, Feb. 2016.
  3. Presidential Committee on The Fourth Industrial Revolution. [Internet]. Available: https://www.4th-ir.go.kr.
  4. J.-H. Ryu and Y.-Y. You, "The Fourth Industrial Revolution Core Technology Association Analysis Using Text Mining," Journal of Digital Convergence, vol. 16, no. 8, pp. 129-136, Aug. 2018. https://doi.org/10.14400/JDC.2018.16.8.129
  5. M. C. Lee, and H. J. Kim, "Construction of Event Networks from Large News Data Using Text Mining Techniques," Journal of Intelligence and Information Systems, vol. 24, no. 1, pp. 183-203, Mar. 2018. https://doi.org/10.13088/jiis.2018.24.1.183
  6. J. Y. Cho, and K. Y. Cho, "Topic Modeling on the Adolescent Problem Using Text Mining," Journal of the Korea Institute of Information and Communication Engineering, vol. 22, no. 12, pp. 1589-1595, Dec. 2018. https://doi.org/10.6109/JKIICE.2018.22.12.1589
  7. National Research Foundation of Korea. Korea Citation Index(KCI) [Internet]. Available: https://www.kci.go.kr.
  8. R. Mitchell, Web Scraping with Python: Collecting Data from the Modern Web, 1st edition, Sebastopol, CA:O'Reilly Media, Inc., 2015.
  9. C. H. Nam, "An Illustrative Application of Topic Modeling Method to a Farmer's Diary," Comparative Culture Study, vol. 22, no. 1, pp. 89-135, Jan. 2016.
  10. H. J. Cho, and M. C. Kim, "An Exploratory Study on Acceptance Factors of IPTV Healthcare Service using Delphi Method," Journal of the Korea Institute of Information and Communication Engineering, vol. 19, no. 9, pp. 2205-2212, Sep. 2015. https://doi.org/10.6109/jkiice.2015.19.9.2205
  11. K. Y. Cho, S. K. Bae, and Y. W. Woo, "Analysis on Topic Trends and Topic Modeling of KSHSM Journal Papers using Text Mining," The Korean Journal of Health Service Management, vol. 11, no. 4, pp. 213-224, Dec. 2017. https://doi.org/10.12811/kshsm.2017.11.4.213

Cited by

  1. 텍스트마이닝 기법을 활용한 미국산업응용수학 학회지의 연구 현황 및 동향 분석 vol.20, pp.7, 2019, https://doi.org/10.5392/jkca.2020.20.07.212
  2. 텍스트 마이닝을 이용한 이익조정 연구동향 토픽모델링 vol.19, pp.1, 2021, https://doi.org/10.14400/jdc.2021.19.1.125
  3. 토픽 모델링 기반의 국내외 공공데이터 연구 동향 비교 분석 vol.19, pp.2, 2019, https://doi.org/10.14400/jdc.2021.19.2.001
  4. 학술 정보 기반 한의학 처방을 위한 확장 적응증 데이터베이스 구축 vol.21, pp.8, 2021, https://doi.org/10.5392/jkca.2021.21.08.367