Browse > Article

A Study on Detection of Small Size Malicious Code using Data Mining Method  

Lee, Taek-Hyun (서울과학기술대학교 IT정책전문대학 산업정보시스템)
Kook, Kwang-Ho (서울과학기술대학교 기술경영융합대학 글로벌융합산업공학과)
Publication Information
Abstract
Recently, the abuse of Internet technology has caused economic and mental harm to society as a whole. Especially, malicious code that is newly created or modified is used as a basic means of various application hacking and cyber security threats by bypassing the existing information protection system. However, research on small-capacity executable files that occupy a large portion of actual malicious code is rather limited. In this paper, we propose a model that can analyze the characteristics of known small capacity executable files by using data mining techniques and to use them for detecting unknown malicious codes. Data mining analysis techniques were performed in various ways such as Naive Bayesian, SVM, decision tree, random forest, artificial neural network, and the accuracy was compared according to the detection level of virustotal. As a result, more than 80% classification accuracy was verified for 34,646 analysis files.
Keywords
Data Mining; Malware; Dynamic Analysis; Static Analysis; Anti-Virus;
Citations & Related Records
연도 인용수 순위
  • Reference
1 강태우 외 3명 . "API call의 단계별 복합분석을 통한 악성코드 탐지", 정보보호학회논문지 제17권, 제6호, pp. 89-98, 2007.
2 과학기술정보통신부, "2017년 인터넷이용실태조사", 2017.
3 구윤회, "의사결정나무와 로지스틱 회귀분석을 이용한 태권도 수련생 이탈 예측을 위한 비교연구", 한양대학교, 2007.
4 국가정보보호백서, "국가정보보호백서", 국가정보원. p.149-163, 2016.
5 국가정보원, "국가정보보호백서", 2014.
6 김영진 외 3명, "의사결정트리를 이용한 날씨에 따른 화재발생 확률 예측모델", 정보과학회논문지, 제 40권, 제11호, pp. 705-715, 2013.
7 김태근, "악성코드 탐지 정확성 향상을 위한 행위 별 API List 비교 분석", 한양대학교, 2011.
8 배철민 외 3명, "Hybrid 악성코드 수집 기술 기반 Unknown 악성코드 선별 방안 연구", 한국인터넷진흥원, 가을학술발표논문집 제 39권, 제 2호, pp. 135-137, 2012.
9 유병길, "Domain 증적을 통한 효율적인 악성코드 예방 체계에 관한 연구", 고려대학교, 2013.
10 송주영, 한영선, "한국 남자 청소년의 범죄지속위험예측 요인분석", 한국형사정책연구원 , 제98권, pp. 239-260, 2014.
11 유영성, 이명수, "미래형 재난대응과 통합플랫폼 구축-경기도 빅데이터 프로젝트 실현에 활용", 미래비전연구실, 2014.
12 이택현, "소형 악성 실행 파일의 식별 방법에 관한 연구", 서울과학기술대, pp. 54-57, 2015.
13 장한두, "의사결정나무분석을 통한 중소형 아파트 거주세대의 이주와 리모델링 결정요인", 대한건축학회지, 제 30권, 제 9호, pp. 45-56, 2014.
14 정용욱, "속성기반 악성코드 유사도 분류 문제점 개선을 위한 가중치 분석 연구", 정보보호학회지, 제23권, 제 3호, pp. 501-504, 2013.
15 주대영, 김종기, "초연결시대 사물인터넷(IoT)의 창조적 융합 활성화 방안", 산업연구원, pp. 17, 2014.
16 한경수, 김인경, 임을규, "API 순차적 특징을 이용한 악성코드 변종 분류기법", 보안공학연구논문지, 제8권, 제2호, pp. 319-335, 2011.
17 Artificial_neural_network, https://en.wikipedia.org/wiki/Artificial_neural_network, 2018.
18 서희석 외 2명. "윈도우 악성코드 분류 방법론의 설계", 정보보호학회논문지, 제 19권, 제 2호, pp. 88-92, 2009.
19 AV-TEST, http://www.av-test.org, 2018.
20 Darkmegi, http://blogs.mcafee.com/mcafee-labs/darkmegi-not-the-rootkit-youre-looking-for, 2017.
21 G . Wagener, R. State, and A. Dulaunoy, "Malware behaviour analysis," Journal in Computer Virology, 2007.
22 LEO BREIMAN, "Random Forests", Volume 45, pp. 5-32, 2001.
23 Marian Merritt, Kevin Haley, "Norton cybercrime report 2013", Norton by Symantec, 2013.
24 NetMarketShare, http://www.netmarketshare.com/, 2018.
25 Nir Friedman, Dan Geiger, and Moises Goldszmidt. Bayesian network classifiers. Machine Learning, 29:131-163, 1997.   DOI
26 Virustotal Statistics, https://www.virustotal.com/ko/statistics/, 2018.
27 World Economic Forum, http://www.weforum.org/docs/GRR17_Report_web.pdf, 2017.