DOI QR코드

DOI QR Code

A Crowdsourcing-Based Paraphrased Opinion Spam Dataset and Its Implication on Detection Performance

크라우드소싱 기반 문장재구성 방법을 통한 의견 스팸 데이터셋 구축 및 평가

  • 이성운 (고려대학교 컴퓨터.전파통신공학과) ;
  • 김성순 (고려대학교 컴퓨터.전파통신공학과) ;
  • 박동현 (고려대학교 바이오정보학협동과정) ;
  • 강재우 (고려대학교 컴퓨터.전파통신공학과)
  • Received : 2016.04.01
  • Accepted : 2016.04.26
  • Published : 2016.07.15

Abstract

Today, opinion reviews on the Web are often used as a means of information exchange. As the importance of opinion reviews continues to grow, the number of issues for opinion spam also increases. Even though many research studies on detecting spam reviews have been conducted, some limitations of gold-standard datasets hinder research. Therefore, we introduce a new dataset called "Paraphrased Opinion Spam (POS)" that contains a new type of review spam that imitates truthful reviews. We have noticed that spammers refer to existing truthful reviews to fabricate spam reviews. To create such a seemingly truthful review spam dataset, we asked task participants to paraphrase truthful reviews to create a new deceptive review. The experiment results show that classifying our POS dataset is more difficult than classifying the existing spam datasets since the reviews in our dataset more linguistically look like truthful reviews. Also, training volume has been found to be an important factor for classification model performance.

웹이 정보 교환의 주된 수단으로 사용되면서, 온라인 리뷰의 중요도가 증가하는 동시에 사용자의 올바른 의사결정을 저해하는 의견 스팸 이슈가 부각되고 있으며, 관련 연구가 활발하게 진행되고 있다. 하지만 분석 및 학습에 필요한 기준 데이터셋의 부족함과 한계점들은 관련 연구의 발전을 더디게 하고 있다. 본 논문에서는 사실 리뷰를 모사한 새로운 형태의 Paraphrased Opinion Spam(POS) 데이터셋을 소개한다. 우리는 실제 스패머들이 스팸을 작성할 때 실제 리뷰를 참고한다는 경향에 착안하여, 실제 리뷰어들이 작성한 리뷰를 의역하는 과정을 통하여 본문에 포함되어 있는 사실 정보와 경험을 담은 스팸 데이터 셋을 생성하였다. 실험 결과, 새롭게 생성된 POS 데이터셋이 언어학적으로 실제 리뷰들과 유사하여 스팸 분류 모델을 이용하여 분류 시 기존의 데이터셋들보다 더 분류하기 힘들다는 것을 발견했다. 또한 데이터의 학습량에 따라서 스팸 리뷰의 분류 정확도가 비례적으로 증가하는 것을 확인함으로써, 데이터의 양이 스팸 분류 모델 성능에 중요한 요소로 작용한다는 것을 확인할 수 있었다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. M. Ott, Y. Choi, C. Cardie and J. T. Hancock, "Finding deceptive opinion spam by any stretch of the imagination," Proc. of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Vol. 1, pp. 309-319, 2011.
  2. J. Li, M. Ott, C. Cardie and E. Hovy, "Towards a general rule for identifying deceptive opinion spam," Proc. of the 52nd Annual Meeting of the Association for Computational Linguistics, Vol. 1, pp. 1566-1576, 2014.
  3. A. Heydari, M. A. Tavakoli, N. Salim and Z. Heydari, "Detection of review spam: A survey," Journal of the Expert Systems with Applications, pp. 3634-3642, 2015.
  4. S. Rendle, "Factorization machines with libFM," Journal of the ACM Transactions on Intelligent Systems and Technology, Vol. 3, pp. 57-80, 2012.
  5. H. Sun, A. Morales, X. Yan, "Synthetic review spamming and defense," Proc. of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data mining, 2013.
  6. S. Kim, H. Chang, S. Lee, M. Yu, J. Kang, "Deep semantic frame-based deceptive opinion spam analysis," Proc. of the 24th ACM CIKM International Conference on Information and Knowledge Management, pp. 1141-1140, 2015.
  7. N. Jindal, B. Liu, E-P. Lim, "Finding unusual review patterns using unexpected rules," Proc. of the 19th ACM CIKM International Conference on Information and Knowledge Management, pp. 1549-1552, 2010.
  8. E-P. Lim, V-A. Nguyen, N. Jindal, B. Liu, H. W. Lauw, "Detecting product review spammers using rating behaviors," Proc. of the 19th ACM CIKM International Conference on Information and Knowledge Management, 2010.
  9. A. Mukherjee, B. Liu, N. S. Glance, "Spotting fake reviewer groups in consumer reviews," Proc. of the 21st WWW World Wide Web Conference, pp. 191-200, 2012.
  10. A. Mukherjee, V. Venkataraman, B. Liu, N. Glance, "What yelp fake review filter might be doing," Proc. of the Seventh International Conference on Weblogs and Social Media, 2013.
  11. N. Jindal, B. Liu, "Opinion spam and analysis," Proc. of the WSDM International Conference on Web Search and Web Data Mining, 2008.
  12. S. Gokhman, J. Hancock, P. Prabhu, M. Ott and C. Cardie, "In search of a gold standard in studies of deception," Proc. of the Workshop on Computational Approaches to Deception Detection, pp. 23-30, 2012.