A Study on Detection of Small Size Malicious Code using Data Mining Method

데이터 마이닝 기법을 이용한 소규모 악성코드 탐지에 관한 연구

  • 이택현 (서울과학기술대학교 IT정책전문대학 산업정보시스템) ;
  • 국광호 (서울과학기술대학교 기술경영융합대학 글로벌융합산업공학과)
  • Received : 2018.11.30
  • Accepted : 2019.03.23
  • Published : 2019.03.31

Abstract

Recently, the abuse of Internet technology has caused economic and mental harm to society as a whole. Especially, malicious code that is newly created or modified is used as a basic means of various application hacking and cyber security threats by bypassing the existing information protection system. However, research on small-capacity executable files that occupy a large portion of actual malicious code is rather limited. In this paper, we propose a model that can analyze the characteristics of known small capacity executable files by using data mining techniques and to use them for detecting unknown malicious codes. Data mining analysis techniques were performed in various ways such as Naive Bayesian, SVM, decision tree, random forest, artificial neural network, and the accuracy was compared according to the detection level of virustotal. As a result, more than 80% classification accuracy was verified for 34,646 analysis files.

최근 인터넷 기술을 악용하는 행위로 인하여 경제적, 정신적 피해가 증가하고 있다. 특히, 신규로 제작되거나 변형된 악성코드는 기존의 정보보호 체계를 우회하여 사이버 보안 위협의 기본 수단으로 활용되고 있다. 이를 억제하기 위한 다양한 연구가 진행되었지만, 실제 악성코드의 많은 비중을 차지하는 소규모 실행 파일에 대한 연구는 미진한 편이다. 본 연구에서는 기존에 알려진 소규모 실행 파일의 특징을 데이터마이닝 기법으로 분석하여 알려지지 않은 악성코드 탐지에 활용할 수 있는 모델을 제안한다. 데이터 마이닝 분석 기법에는 나이브베이지안, SVM, 의사결정나무, 랜덤포레스트, 인공신경망 등 다양하게 수행하였으며, 바이러스토탈의 악성코드 검출 수준에 따라서 개별적으로 정확도를 비교하였다. 결과적으로 분석 파일 34,646개에 대하여 80% 이상의 분류 정확도를 검증하였다.

Keywords

References

  1. 강태우 외 3명 . "API call의 단계별 복합분석을 통한 악성코드 탐지", 정보보호학회논문지 제17권, 제6호, pp. 89-98, 2007.
  2. 과학기술정보통신부, "2017년 인터넷이용실태조사", 2017.
  3. 구윤회, "의사결정나무와 로지스틱 회귀분석을 이용한 태권도 수련생 이탈 예측을 위한 비교연구", 한양대학교, 2007.
  4. 국가정보보호백서, "국가정보보호백서", 국가정보원. p.149-163, 2016.
  5. 국가정보원, "국가정보보호백서", 2014.
  6. 김영진 외 3명, "의사결정트리를 이용한 날씨에 따른 화재발생 확률 예측모델", 정보과학회논문지, 제 40권, 제11호, pp. 705-715, 2013.
  7. 김태근, "악성코드 탐지 정확성 향상을 위한 행위 별 API List 비교 분석", 한양대학교, 2011.
  8. 배철민 외 3명, "Hybrid 악성코드 수집 기술 기반 Unknown 악성코드 선별 방안 연구", 한국인터넷진흥원, 가을학술발표논문집 제 39권, 제 2호, pp. 135-137, 2012.
  9. 서희석 외 2명. "윈도우 악성코드 분류 방법론의 설계", 정보보호학회논문지, 제 19권, 제 2호, pp. 88-92, 2009.
  10. 송주영, 한영선, "한국 남자 청소년의 범죄지속위험예측 요인분석", 한국형사정책연구원 , 제98권, pp. 239-260, 2014.
  11. 유병길, "Domain 증적을 통한 효율적인 악성코드 예방 체계에 관한 연구", 고려대학교, 2013.
  12. 유영성, 이명수, "미래형 재난대응과 통합플랫폼 구축-경기도 빅데이터 프로젝트 실현에 활용", 미래비전연구실, 2014.
  13. 이택현, "소형 악성 실행 파일의 식별 방법에 관한 연구", 서울과학기술대, pp. 54-57, 2015.
  14. 장한두, "의사결정나무분석을 통한 중소형 아파트 거주세대의 이주와 리모델링 결정요인", 대한건축학회지, 제 30권, 제 9호, pp. 45-56, 2014.
  15. 정용욱, "속성기반 악성코드 유사도 분류 문제점 개선을 위한 가중치 분석 연구", 정보보호학회지, 제23권, 제 3호, pp. 501-504, 2013.
  16. 주대영, 김종기, "초연결시대 사물인터넷(IoT)의 창조적 융합 활성화 방안", 산업연구원, pp. 17, 2014.
  17. 한경수, 김인경, 임을규, "API 순차적 특징을 이용한 악성코드 변종 분류기법", 보안공학연구논문지, 제8권, 제2호, pp. 319-335, 2011.
  18. Artificial_neural_network, https://en.wikipedia.org/wiki/Artificial_neural_network, 2018.
  19. AV-TEST, http://www.av-test.org, 2018.
  20. Darkmegi, http://blogs.mcafee.com/mcafee-labs/darkmegi-not-the-rootkit-youre-looking-for, 2017.
  21. G . Wagener, R. State, and A. Dulaunoy, "Malware behaviour analysis," Journal in Computer Virology, 2007.
  22. LEO BREIMAN, "Random Forests", Volume 45, pp. 5-32, 2001.
  23. Marian Merritt, Kevin Haley, "Norton cybercrime report 2013", Norton by Symantec, 2013.
  24. NetMarketShare, http://www.netmarketshare.com/, 2018.
  25. Virustotal Statistics, https://www.virustotal.com/ko/statistics/, 2018.
  26. World Economic Forum, http://www.weforum.org/docs/GRR17_Report_web.pdf, 2017.
  27. Nir Friedman, Dan Geiger, and Moises Goldszmidt. Bayesian network classifiers. Machine Learning, 29:131-163, 1997. https://doi.org/10.1023/A:1007465528199