DOI QR코드

DOI QR Code

A Case Study on Text Analysis Using Meal Kit Product Review Data

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구

  • 최혜선 (호서대학교 빅데이터AI학과) ;
  • 연규필 (호서대학교 빅데이터AI학과)
  • Received : 2022.02.21
  • Accepted : 2022.03.31
  • Published : 2022.05.28

Abstract

In this study, text analysis was performed on the mealkit product review data to identify factors affecting the evaluation of the mealkit product. The data used for the analysis were collected by scraping 334,498 reviews of mealkit products in Naver shopping site. After preprocessing the text data, wordclouds and sentiment analyses based on word frequency and normalized TF-IDF were performed. Logistic regression model was applied to predict the polarity of reviews on mealkit products. From the logistic regression models derived for each product category, the main factors that caused positive and negative emotions were identified. As a result, it was verified that text analysis can be a useful tool that provides a basis for maximizing positive factors for a specific category, menu, and material and removing negative risk factors when developing a mealkit product.

본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

Keywords

Acknowledgement

이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.NRF-2020R1F1A1A01073456)

References

  1. https://www.joongang.co.kr/article/25005209
  2. 통계청 보도자료, 인구주택총조사에 나타난 1인 가구의 현황 및 특성, 2018.
  3. 오윤하, 밀키트 선택속성이 편의지향성과 밀키트 이용에 미치는 영향, 연세대학교, 석사학위논문, 2020.
  4. 정현채, 김찬우, "밀키트(Meal Kit) 상품의 선택속성이 구매행동과 만족도에 미치는 영향 연구," 한국콘텐츠학회논문지, 제20권, 제6호, pp.381-391, 2020. https://doi.org/10.5392/JKCA.2020.20.06.381
  5. 박민희, 권만우, 나건, "RTP(Ready to Prepare) 가정편의식(HMR) 제품의 재구매의도에 관한 연구: 밀키트(Meal kit)를 중심으로," 한국콘텐츠학회논문지, 제19권, 제2호, pp.548-557, 2019. https://doi.org/10.5392/JKCA.2019.19.02.548
  6. 양유영, 권용석, 박영희, 윤영, "밀키트(Meal Kit) 제품의 선택 속성에 대한 중요도-만족도 분석," 동아시아식생활학회지, 제29권, 제6호, pp.519-528, 2019.
  7. 최태호, 이명철, 김동섭, "밀키트(Meal-Kit) 가정대체식품(HMR)의 선택속성이 만족과 재구매의도에 미치는 영향," 한국조리학회지, 제26권, 제5호, pp.119-128, 2020.
  8. 이나영, 최정화, "빅데이터 분석을 통한 밀키트에 대한 소비자 인식 조사," 한국외식산업학회지, 제15권, 제4호, pp.211-222, 2019. https://doi.org/10.22509/KFSA.2019.15.4.016
  9. 조윤희, 한장현, "소셜 빅데이터를 활용한 외식 소비자들의 호텔 레스토랑 인식에 관한 연구," 외식경영연구, 제21권, 제5호, pp.121-139, 2018.
  10. 송흥규, "대기환경 기상요인과 외식소비에 관한 연구," 외식경영연구, 제22권, 제4호, pp.147-169, 2019.
  11. https://wikidocs.net/24559
  12. 정호영, 신상민, 최용석, "문서 분류를 위한 용어 가중치 기법 비교," 응용통계연구, 제32권, 제2호, pp.265-276, 2019. https://doi.org/10.5351/KJAS.2019.32.2.265
  13. 이성직, 김한준, "TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법," 한국전자거래학회지, 제14권, 제4호, pp.59-73, 2009.
  14. 강현철, 한상태, 최종후, 이성건, 김은석, 엄익현, 빅데이터 분석을 위한 데이터마이닝방법론, 자유아카데미, 2017.
  15. C. Cortes and V. Vapnik, "Support-vector networks," Machine Learning, Vol.20, pp.273-297, 1995. https://doi.org/10.1007/BF00994018
  16. L. Breiman, "Random Forests," Machine Learning, Vol.45, pp.5-32, 2001. https://doi.org/10.1023/A:1010933404324