A Topic Analysis of Abstracts in Journal of Korean Data Analysis Society

한국자료분석학회지에 대한 토픽분석

  • Kang, Changwan (Production Information Technology Engineering Major, Dong-Eui University) ;
  • Kim, Kyu Kon (Production Information Technology Engineering Major, Dong-Eui University) ;
  • Choi, Seungbae (Production Information Technology Engineering Major, Dong-Eui University)
  • 강창완 (동의대학교 생산정보기술공학전공) ;
  • 김규곤 (동의대학교 생산정보기술공학전공) ;
  • 최승배 (동의대학교 생산정보기술공학전공)
  • Received : 2018.11.20
  • Accepted : 2018.12.20
  • Published : 2018.12.31

Abstract

Journal of the Korean Data Analysis Society founded in 1998 has played the role of a major application journal. In this study, we checked the objective of this journal by checking the abstracts for 10 years. Abstract data was crawled from the online journal site (kdas.jems.or.kr) and analyzed by topic model. As a result, we found 18 topics from 2680 abstracts that had several contents, for example, nursing, marketing, economics, regression, factor analysis, data mining and statistical inferences. Topic1 (regression) is most frequent with 460 documents and we found the usefulness of regression in the applied science area. We confirmed the significant 10 association rules using by Fisher's exact test. Also, for exploring the trend of topics, we conducted the topic analysis for two periods which are 2006-2011 period and 2012-2016 period. We found that the control study was more frequent than survey study over time and regression and factor analysis were frequent regardless of time.

1998년에 창립한 한국자료분석 학회지는 자료분석에 기반한 다양한 전공분야를 위해 현재까지 응용학회지로서 역할을 해오고 있다. 본 연구에서는 이러한 한국자료분석 학회지의 본연의 목적을 잘 수행해오고 있는지 최근 10년간 학회지 요약문을 통해 분석하였다. 분석은 한국연구재단에서 제공한 온라인 저널 홈페이지를 통해 2006년부터 2016년까지의 영문 요약문 2680개를 웹크롤링하여 토픽모델을 적용하였다. 분석결과로 18개의 토픽이 선정되었으며 이에 대한 토픽을 해석한 결과 자료분석학회지는 간호학, 경영학(마케팅), 경제학 등 여러 분야를 다루고 있으며 분석방법으로 회귀분석, 가설검정, 데이터마이닝(연관성분석), 요인분석 등이 많이 이용되고 있음을 볼 수 있었다. 그리고 단어들의 연관성(association rule)분석을 통하여 통계적으로 유의한 연관성 규칙 10개를 제시하였다. 여기서 연관성규칙의 통계적 유의성검정은 피셔의 정확검정(Fisher's exact test)을 사용하였다. 또한 연구주제(토픽)의 변화를 살펴본 결과 전반기에는 조사연구가, 후반기에는 대조 연구가 많아졌음을 볼 수 있고 또한 회귀분석과 요인분석은 전, 후반기 구분 없이 자료분석에서 공통적으로 많이 사용하는 통계적 방법임을 알 수 있었다.

Keywords

Acknowledgement

Supported by : 동의대학교

References

  1. Blei, D. M., Andrew, Y. N., Michael, I. J. (2003). Latent Dirichlet allocation, The Journal of Machine Learning Research, 3, 993-1022.
  2. Blei, D., Laerty, J. (2006). Dynamic topic models, In International Conference on Machine Learning, 113-120, New York, ACM.
  3. Blei, D., Laerty, J. (2007). A correlated topic model of science, Annals of Applied Statistics, 1(1), 17-35. https://doi.org/10.1214/07-AOAS114
  4. Blei, D., McAulie, J. (2007). Supervised topic models, In Neural Information Processing Systems.
  5. Choi, J., Jin, S., Choi, J. (2017). A study on differences of aspect of report by news media using text mining analysis, Journal of the Korean Data Analysis Society, 19, 5(B), 2509-2522. (in Korean).
  6. Griffiths, T. L., Steyvers, M. (2004). Finding scientific topics, Proceedings of the National Academy of Sciences of the United States of America, 101, 5228-5235.
  7. Grun, B., Hornik, K. (2011). Topicmodels: an R package for fitting topic models, Journal of Statistical Software, 40(13), 1-30.
  8. Kim, J. S., Jin, S. H. (2013). A study on the application of opinion mining based on big data, Journal of the Korean Data Analysis Society, 15, 101-114. (in Korean).
  9. Oh, M., Kim, S., Kang, C., Kim, K. K., Choi, S., Jeon, Y. (2016). Topics classification of applications using the latent Dirichlet allocation model, Journal of the Korean Data Analysis Society, 18, 4(B), 1895-1903. (in Korean).
  10. Woo, S. W., Chang, Y. J. (2016). An analysis of FOMC statements by text mining methods, Journal of the Korean Data Analysis Society, 18, 179-188. (in Korean).