DOI QR코드

DOI QR Code

귀납적 사회과학연구 방법론을 위한 토픽모델링의 확장 및 사례분석

Extension and Case Analysis of Topic Modeling for Inductive Social Science Research Methodology

  • 김근형 (제주대학교 경영정보학과)
  • 투고 : 2022.08.09
  • 심사 : 2022.11.11
  • 발행 : 2022.12.31

초록

Purpose In this paper, we propose the method to extend topic modeling techniques in order to derive data-based research hypotheses when establishing research hypotheses for social sciences, As a concept in contrast to the existing deductive hypothesis establishment methodology for the social science research, the topic modeling technique was expanded to enable the so-called inductive hypothesis establishment methodology, and an analysis case of the Seongsan Ilchulbong online review based on the proposed methodology was presented. Design/methodology/approach In this paper, an extension architecture and extension algorithm in the form of extending the existing topic modeling were proposed. The extended architecture and algorithm include data processing method based on topic ratio in document, correlation analysis and regression analysis of processed data for topics derived by existing topic modeling. In addition, in this paper, an analysis case of the online review of Seongsan Ilchulbong Peak was presented by applying the extended topic modeling algorithm. An exploratory analysis was performed on the Seongsan Ilchulbong online reviews through the basic text analysis. The data was transformed into 5-point scale to enable correlation and regression analysis based on the topic ratio in each online review. A regression analysis was performed using the derived topics as the independent variable and the review rating as the dependent variable, and hypotheses could be derived based on this, which enable the so-called inductive hypothesis establishment. Findings This paper is meaningful in that it confirmed the possibility of deriving a causal model and setting an inductive hypothesis through an extended analysis of topic modeling.

키워드

과제정보

이 논문은 2022학년도 제주대학교 교원성과지원사업에 의하여 연구되었음

참고문헌

  1. 김근형, "개체연관망 모델에 의한 오피니언마이닝의 확장," 한국정보처리학회논문지, 18-D권, 4호, 2011, pp.237-244.
  2. 김근형, 오성열, "온라인 고객리뷰 분석을 통한 시장세분화에 텍스트마이닝 기술을 적용하기 위한 방법론," 한국콘텐츠학회논문지, 9권, 8호, 2009, pp.272-284. https://doi.org/10.5392/JKCA.2009.9.8.272
  3. 박진희, 전미선, 배선형, 김희준, "암생존자 삶의 질 영향요인에 대한 연구동향: 텍스트 네트워크 분석과 토픽모델링," 중앙간호연구, 제21권 제4호, 2021, pp.231-240.
  4. 신서영, 이범준, "코로나19 확산에 따른 외식에 대한 소비자 인식 분석: 토픽모델링 및 네트워크 분석의 활용," 호텔경영학연구, 제30권, 제8호, 2021, pp.71-90.
  5. 심영석, 김홍봄, "온라인 리뷰 빅데이터 기반의 Word2Vec 기법을 활용한 관광지 개성과 여행객 평점 간 구조적 관계 분석," 관광학연구, 제8권, 제164호, 2018, pp.165-189.
  6. 신주하, 임희진, 이병주, "국내 복합리조트 서비스품질에 대한 토픽모델링 및 감성분석," 관광연구저널, 제35권, 제11호, 2021, pp.191-206.
  7. 유재호, 조연희, 전의찬, "토픽모델링 분석에 의한 글벌 그린뉴딜 연구동향 분석," 한국기후변화학회지, 제12권, 4호, 2021, pp.289-298.
  8. 윤상훈, 김근형, "Word2Vec를 이용한 토픽모델링이 확장 및 분석사례," 정보시스템연구, 제30권, 제1호, 2021, pp.45-63.
  9. 이민철, 김혜진, "텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축," 지능정보연구, 제24권, 제1호, 2018, pp.183-203. https://doi.org/10.13088/JIIS.2018.24.1.183
  10. 이병철, 김두산, "OTA 리뷰를 사용하여 호텔 서비스 품질 결정 요인 도출-LDA 토픽모델링," 호텔리조트연구, 제19권, 제4호, 2020, pp.41-58.
  11. 이창용, 김근형, "온라인리뷰의 랭킹모델링을 위한 양과 질의 인과모형 분석," 정보시스템연구, 제28권, 제1호, 2019, pp.1-16.
  12. 채호근, 이기현, 이주연, "토픽모델링 분석 기법을 활용한 국내외 금융보안 분야 연구 동향 분석," 한국산업정보학회논문지, 제26권, 1호, 2021, pp.83-95. https://doi.org/10.9723/JKSIIS.2021.26.1.083
  13. 민진영, 이애리, "'좋아요'와 '싫어요'같은 간접적 사회적 정보의 방향과 강도는 온라인 뉴스 콘텐츠 댓글의 숙의의 질과 어떤 관련이 있는가? 토픽 모델링을 이용한 토픽 다양성 분석," 정보시스템연구, 제30권, 4호, 2021, pp.303-327.
  14. 황원준, "인공지능과 인간안보 : 토픽모델링 기법을 활용한 유럽의 인공지능 안보화 분석," 21세기정치학회보, 제31권, 2호, 2021, pp.55-82.
  15. Blei, D., A. Ng.,and M. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, 2003, pp.993-1022.
  16. Chang, J., Gerrish, S., Wang, C., Boyd-Graber, J. L., and Blei, D. M., " Reading Tea Leaves: How Humans Interpret Topic Models," In Advances in Neural Information Processing Systems, 2009, pp.288-296.
  17. Hofmann T., "Probabilistic Latent Semantic Analysis", Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence, Morgan Kaufmann Publishers Inc., 1999, pp.289-296.
  18. Mikolov, T., Chen, K., Corrado, G., and Dean, J. ,"Efficient Estimation of Word Representations in Vector Space," 2013, arXiv preprint arXiv:1301.3781.
  19. Newman, D., Lau, J. H., Grieser, K., & Baldwin, T.,"Automatic Evaluation of Topic Coherence", In Human Language Technologies : The 2010 Annual Conference of the North American  Chapter of the Association for Computational Linguistics, 2010, pp.100-108.
  20. Philipp Drieger, "Semantic Network Analysis as a Method for Visual Text Analytics," Procedia - Social and Behavioral Sciences, 79, 2013, pp.4-17. https://doi.org/10.1016/j.sbspro.2013.05.053