DOI QR코드

DOI QR Code

효율적인 상품평 분석을 위한 어휘 통계 정보 기반 평가 항목 추출 시스템

Automatic Product Feature Extraction for Efficient Analysis of Product Reviews Using Term Statistics

  • 이우철 ((주) 유승토탈솔류션) ;
  • 이현아 (금오공과대학교 컴퓨터공학부) ;
  • 이공주 (충남대학교 전기정보통신공학부)
  • 발행 : 2009.12.31

초록

본 논문에서는 상품평의 효율적인 분석을 위한 평가 항목 추출 시스템을 제안한다. 시스템은 크게 상품평 수집-보정과 평가 항목 추출의 두 단계로 구성된다. 상품평 수집-보정에서는 인터넷 쇼핑몰에서 상품평을 수집하고 상품평 특유의 구어체 표현과 맞춤법 오류 등을 처리한다. 평가 항목 추출에서는 스커트 상품 카테고리의 경우 ‘사이즈', ‘스타일'과 같이 상품을 평가하는 기준이 되는 항목을 상품평과 인터넷 상의 웹 문서를 활용하여 자동으로 추출한다. 상품평에 나타나는 명사들을 평가 항목 후보로 설정하고, 각 후보 명사의 상품평에서의 어휘 통계인 내부연관도와, 후보 명사와 상품 카테고리명의 웹 문서에서의 공기 빈도에 기반하여 계산된 외부연관도를 결합하여 상품과 평가 항목 후보의 연관도를 계산한다. 본 논문의 평가 항목 추출 방식은 평균 재현율 90%를 보여 기존 연구보다 우수한 결과를 보였다.

In this paper, we introduce an automatic product feature extracting system that improves the efficiency of product review analysis. Our system consists of 2 parts: a review collection and correction part and a product feature extraction part. The former part collects reviews from internet shopping malls and revises spoken style or ungrammatical sentences. In the latter part, product features that mean items that can be used as evaluation criteria like 'size' and 'style' for a skirt are automatically extracted by utilizing term statistics in reviews and web documents on the Internet. We choose nouns in reviews as candidates for product features, and calculate degree of association between candidate nouns and products by combining inner association degree and outer association degree. Inner association degree is calculated from noun frequency in reviews and outer association degree is calculated from co-occurrence frequency of a candidate noun and a product name in web documents. In evaluation results, our extraction method showed an average recall of 90%, which is better than the results of previous approaches.

키워드

참고문헌

  1. 한국인터넷진흥원, “웹 2.0시대의 네티즌 인터넷 이용 현황 - 참여와 공유의 인터넷”, http://www.nida.or.kr/doc/issue_sum.pdf, 2006
  2. Kim, S.M., Pantel, P., Chklovski, T., Pennacchiotti, M, “Automatically Assessing Review Helpfulness,” In Proc. of EMNLP, pp.423-430, 2006
  3. Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., and Jin, C. “Red Opal: product-feature scoring from reviews,” In Proc. of the ACM Conference on Electronic Commerce, San Diego, California, USA, New York, pp.182-191, 2007
  4. Hu, M. and Liu, B. “Mining opinion features in customer reviews,” In Proc. of the 19th National Conference on Artificial Intelligence, San Jose, USA, pp.755-760, 2004
  5. Hu, M. and Liu, B. “Mining and summarizing customer reviews,” In Proc. of the 10th ACM SIGKDD Conf., pp.168-177, New York, NY, USA. ACM Press, 2004
  6. O. Etzioni, M. Cafarella, D. Downey, S. Kok, A. Popescu, T. Shaked, S. Soderland, D. Weld, and A. Yates, “Unsupervised named-entity extraction from the web: An experimental study,” Artificial Intelligence, 165(1) pp.91-134, 2005 https://doi.org/10.1016/j.artint.2005.03.001
  7. Popescu, A. and Etzioni, O. “Extracting product features and opinions from reviews,” In Proc. of the Conference on HLT and EMNLP, pp.339-346, 2005
  8. 명재석, 이동주, 이상구, “반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템,” 정보과학회논문지 : 소프트웨어 및 응용, 제35권 제6호(2008. 6), pp.392-403, 2008
  9. 온라인 가격비교 사이트 BB.co.kr, http://www.bb.co.kr
  10. Naver Lab, 자동 띄어쓰기, http://s.lab.naver.com/autospacing/
  11. 강승식, HAM, “한국어 형태소 분석기와 한국어 분석 모듈,” 국민대학교 자연언어 정보검색연구실, http://nlp.kookmin.ac.kr

피인용 문헌

  1. A Method of Optimal Sensor Decision for Odor Recognition vol.17B, pp.1, 2010, https://doi.org/10.3745/KIPSTB.2010.17B.1.009
  2. Product Evaluation Summarization Through Linguistic Analysis of Product Reviews vol.17B, pp.1, 2010, https://doi.org/10.3745/KIPSTB.2010.17B.1.093