DOI QR코드

DOI QR Code

네이버 영화 리뷰 데이터를 이용한 의미 분석(semantic analysis)

Semantic analysis via application of deep learning using Naver movie review data

  • 김소진 (이화여자대학교 통계학과) ;
  • 송종우 (이화여자대학교 통계학과)
  • Kim, Sojin (Department of Statistics, Ewha Womans University) ;
  • Song, Jongwoo (Department of Statistics, Ewha Womans University)
  • 투고 : 2021.08.24
  • 심사 : 2021.10.28
  • 발행 : 2022.02.28

초록

SNS의 등장으로 인터넷 이용자들이 온라인에 남기는 텍스트의 양이 방대해지고 그 중요성이 강조되고있다. 특히 네이버의 영화 탭에서 볼 수 있는 영화 평점이나 리뷰는 실제로 관객들이 영화를 보기 전 해당 영화를 볼 것인지 결정하는 데 주요 요인이 되기도 한다. 본 연구는 실제 네이버 영화 리뷰 데이터를 가지고 평점을 예측하는 분석을 수행했다. 영화 리뷰 데이터를 분석하기 위해 평점의 분포를 통해 데이터 특성을 살펴보았고, 텍스트의 의미를 분석하기 위해 형태소 분석을 통한 한국어 자연어처리를 수행했다. 또한 평점 예측에 활용할 모델 선택을 위해 2-Class와 multi-Class 문제들에 대해 머신러닝과 딥러닝, 회귀와 분류 분석을 비교했으며, 오분류의 원인을 영화 리뷰 데이터 특성과 연관시켜 서술했다.

With the explosive growth of social media, its abundant text-based data generated by web users has become an important source for data analysis. For example, we often witness online movie reviews from the 'Naver Movie' affecting the general public to decide whether they should watch the movie or not. This study has conducted analysis on the Naver Movie's text-based review data to predict the actual ratings. After examining the distribution of movie ratings, we performed semantics analysis using Korean Natural Language Processing. This research sought to find the best review rating prediction model by comparing machine learning and deep learning models. We also compared various regression and classification models in 2-class and multi-class cases. Lastly we explained the causes of review misclassification related to movie review data characteristics.

키워드

과제정보

본 연구에 자료를 제공해주신 네이버와 오브젠에 무한한 감사를 드립니다. 본 연구는 두 회사에서 제공한 데이터없이는 불가능했을 것입니다. 다시 한 번 감사의 말씀을 드립니다.

참고문헌

  1. Kharde V and Sonawane S (2016). Sentiment analysis of Twitter data: A survey of techniques, International Journal of Computer Applications, 139, 5-15. https://doi.org/10.5120/ijca2016908625
  2. Lee JJ, Kwon SB, and Ahn SM (2018). Sentiment Analysis Using Deep Learning Model based on Phoneme-level Korean, Journal of Information Technology Services, 17, 79-89. https://doi.org/10.9716/KITS.2018.17.1.079
  3. Mikolov T, Chen K, Corrado GS, and Dean J (2013). Efficient estimation of word representations in vector space. In Proceedings of Workshop at ICLR.
  4. Nayak A (2016). Comparative study of Naive Bayes, Support Vector Machine and Random Forest Classifiers in Sentiment Analysis of Twitter feeds.
  5. Oh Y, Kim M, and Kim W (2019). Korean Movie-review Sentiment Analysis Using Parallel Stacked Bidirectional LSTM Model, Journal of KIISE, 46, 45-49. https://doi.org/10.5626/jok.2019.46.1.45
  6. Park H and Kim K (2019). Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Model, Intelligence and Information Systems, 25, 141-154.
  7. Parmar H, Bhanderi S, and Shah G (2014). Sentiment mining of movie reviews using random forest with tuned hyperparameters, International Conference on Information Science.
  8. Pennington J, Socher R, and Manning C (2014). GloVe: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532-1543.
  9. Rehman AU, Malik AK, and Raza B (2019). A hybrid CNN-LSTM model for improving accuracy of movie reviews sentiment analysis, Multimedia Tools and Applications, 78, 26597-26613. https://doi.org/10.1007/s11042-019-07788-7