DOI QR코드

DOI QR Code

Design and Implementation of a LSTM-based YouTube Malicious Comment Detection System

유튜브 악성 댓글 탐지를 위한 LSTM 기반 기계학습 시스템 설계 및 구현

  • 김정민 (상명대학교 정보보안공학과) ;
  • 국중진 (상명대학교 정보보안공학과)
  • Received : 2022.03.07
  • Accepted : 2022.03.22
  • Published : 2022.03.31

Abstract

Problems caused by malicious comments occur on many social media. In particular, YouTube, which has a strong character as a medium, is getting more and more harmful from malicious comments due to its easy accessibility using mobile devices. In this paper, we designed and implemented a YouTube malicious comment detection system to identify malicious comments in YouTube contents through LSTM-based natural language processing and to visually display the percentage of malicious comments, such commentors' nicknames and their frequency, and we evaluated the performance of the system. By using a dataset of about 50,000 comments, malicious comments could be detected with an accuracy of about 92%. Therefore, it is expected that this system can solve the social problems caused by malicious comments that many YouTubers faced by automatically generating malicious comments statistics.

많은 소셜 서비스 상에서 악성 댓글로 인한 문제가 발생되고 있으며, 특히 매체로서의 성격이 강한 유튜브는 모바일기기를 이용한 쉬운 접근성으로 인해 악성 댓글로 인한 폐해가 더욱 커지고 있는 실정이다. 본 논문에서는 LSTM 기반의 자연어 처리를 통해 유튜브 콘텐츠에 대한 악성 댓글을 판별하고 악성 댓글의 비율, 악플러들의 닉네임, 그리고 빈도를 시각적으로 표현해 주기 위한 유튜브 악성 댓글 탐지 시스템을 설계하고 구현하였으며, 성능을 평가하였다. 약 5만 개의 댓글 데이터셋을 통해 악성 댓글 여부를 판별하였을 때, 약 92%의 정확도로 악성 댓글을 검출해 낼 수 있었으며, 이를 활용하여 악성 댓글의 통계가 자동으로 생성되도록 함으로써 많은 유튜버들이 겪는 악성 댓글로 인한 사회적 문제를 해결할 수 있을 것으로 기대한다.

Keywords

References

  1. 홍진주, "인터넷 악성댓글 탐지 기법 : A Malicious Comments Detection Technique on the Internet", 숭실대학교 석사학위논문, 2015년 12월
  2. 정보통신망 이용범죄, 경찰청통계자료, 2022.
  3. 2020년 한국 유튜브 빅데이터 분석 보고서, 소셜러스, 2021.
  4. 백봉삼, "유튜브 가장 많이 보는 세대는 50대 이상," ZDNet Korea, 2021.02.23. (accessed Mar., 04, 2022)
  5. 안태형, "악성 댓글의 범위와 유형", 우리말연구, No. 32, pp. 109-131, 2013년
  6. 정관철, "[기획] 악성댓글, 이대로 괜찮은가", 한국리서치 여론 속의 여론, 2019. 11. 29. (accessed Mar., 04, 2022)
  7. 임명진, 박원호, 신주현, "Word2Vec과 LSTM을 활용한 이별 가사 감정 분류," 스마트미디어저널, 제9권, 제3호, 90-97쪽, 2020년 9월 https://doi.org/10.30693/SMJ.2020.9.3.90
  8. 박장혁, 정재훈, 김신령, 김영곤. "인터넷 매체 언어의 국어 파괴 현상의 고찰을 통한 표준어 자동 번역 기술에 대한 연구," 한국인터넷방송통신학회 논문지, 제16권, 제1호, 273-281쪽, 2016년
  9. 이태석, 강승식, "LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기," 스마트미디어저널, 제7권, 제4호, 17-23쪽, 2018년 https://doi.org/10.30693/SMJ.2018.7.4.17
  10. 이현영, 강승식, "음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해," 스마트미디어저널, 제8권, 제2호, 74-79쪽, 2019년 06월 https://doi.org/10.30693/smj.2019.8.2.74
  11. 김나경, 김정민, 이혜원, 국중진, "머신러닝을 이용한 유튜브 악성 댓글 탐지 시스템," ACK 2021 학술발표대회 논문집, Vol. 28, No. 2, 2021.
  12. 김세한, "인공신경망을 이용한 인터넷 악성 댓글탐지 기법", 숭실대학교 석사학위논문, 2017.
  13. S. Hochreiter, J. Schmidhuber, "LONG SHORT-TERM MEMORY," Neural Computation Vol. 9, No. 8, pp. 1735-1780, 1997. https://doi.org/10.1162/neco.1997.9.8.1735
  14. Understanding LSTM Networks, http://colah.github.io/posts/2015-08-Understanding-LSTMs (accessed Mar., 04, 2022)
  15. 박지현, "악성 댓글 문제 완화를 위한 머신 러닝기반 뉴스 댓글 시각화에 관한 연구", 서강대학교 석사학위논문, 2020.