Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구

  • Received : 2019.11.22
  • Accepted : 2019.12.31
  • Published : 2019.12.30

Abstract

Recently, the crime that utilizes the digital platform is continuously increasing. About 140,000 cases occurred in 2015 and about 150,000 cases occurred in 2016. Therefore, it is considered that there is a limit handling those online crimes by old-fashioned investigation techniques. Investigators' manual online search and cognitive investigation methods those are broadly used today are not enough to proactively cope with rapid changing civil crimes. In addition, the characteristics of the content that is posted to unspecified users of social media makes investigations more difficult. This study suggests the site-based collection and the Open API among the content web collection methods considering the characteristics of the online media where the infringement crimes occur. Since illegal content is published and deleted quickly, and new words and alterations are generated quickly and variously, it is difficult to recognize them quickly by dictionary-based morphological analysis registered manually. In order to solve this problem, we propose a tokenizing method in the existing dictionary-based morphological analysis through WPM (Word Piece Model), which is a data preprocessing method for quick recognizing and responding to illegal contents posting online infringement crimes. In the analysis of data, the optimal precision is verified through the Vote-based ensemble method by utilizing a classification learning model based on supervised learning for the investigation of illegal contents. This study utilizes a sorting algorithm model centering on illegal multilevel business cases to proactively recognize crimes invading the public economy, and presents an empirical study to effectively deal with social data collection and content investigation.

최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

Keywords

References

  1. 강정배, "자연어 처리 기술을 활용한 문제행동 유형 분석 연구", 대구대학원 박사논문, 2012.
  2. Mike Schuster and Kaisuke Nakajima, "JAPANESE AND KOREAN VOICE SEARCH", Google Inc, USA, 2012.
  3. Rokach, L., 2010, "Ensemble-based classifiers.", Artificial Intelligence Review, vol. 33(1-2), pp.1-39. https://doi.org/10.1007/s10462-009-9124-7
  4. Polikar, R. (2006). "Ensemble based systems in decision making". IEEE Circuits and Systems Magazine, 6 (3): 21-45. doi:10.1109/MCAS.2006.1688199.
  5. Rokach, L. (2010). "Ensemble-based classifiers". Artificial Intelligence Review, 33(1-2): 1-39. doi: 10.1007/s10462-009-9124-7.
  6. 이재환, 김보성, 허광호, 고영중, 서정연, Subword 유닛을 이용한 영어-한국어, 2009.
  7. Sennrich, R., Haddow, B., & Birch, A. (2015). Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909.
  8. Wang, S., & Manning, C. D. (2012, July). Baselines and bigrams: Simple, good sentiment and topic classification. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2 (pp. 90-94).
  9. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., … & Klingner, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.
  10. 데이비드 M. 비즐리, 파이썬 완벽 가이드, 2012.
  11. 황승구, 빅데이터 플랫폼 전략, 2013.
  12. 김경수, 웹 크롤링 수집주기의 동적 설계 및 구현, 2011.
  13. 장문수, 정준영, "URL 패턴 스크립트를 이용한 효율적인 웹문서 수집방안", 퍼지 및 지능시스 템학회 논문지, 제17권, 제6호, pp.849-854, 2007.
  14. C. Bertoli, V. Vrescenzi, and P. Merialdo, "Crawling Programs for Wraller-based Applications", In Proc. IEEE Intl. Conference on Information Reuse and Integration (IRI '08), pp.160-165, 2008.
  15. M. L. Vidal, A. S. da Silva, E. S. de Moura, and J. M. B. Cavalcanti, "Go GetIt!: a tool for generating structure-driven web crawlers", In Proc. 15th international conference on World Wide Web, pp.1011-1012, 2006.