DOI QR코드

DOI QR Code

Malware Classification Schemes Based on CNN Using Images and Metadata

이미지와 메타데이터를 활용한 CNN 기반의 악성코드 패밀리 분류 기법

  • Lee, Song Yi (Dept. of Computer Science Engineering, Dongguk University) ;
  • Moon, Bongkyo (Dept. of Computer Science Engineering, Dongguk University) ;
  • Kim, Juntae (Dept. of Computer Science Engineering, Dongguk University)
  • 이송이 (동국대학교 컴퓨터공학과) ;
  • 문봉교 (동국대학교 컴퓨터공학과) ;
  • 김준태 (동국대학교 컴퓨터공학과)
  • Published : 2021.05.12

Abstract

본 논문에서는 딥러닝의 CNN(Convolution Neural Network) 학습을 통하여 악성코드를 실행시키지 않고서 악성코드 변종을 패밀리 그룹으로 분류하는 방법을 연구한다. 먼저 데이터 전처리를 통해 3가지의 서로 다른 방법으로 악성코드 이미지와 메타데이터를 생성하고 이를 CNN으로 학습시킨다. 첫째, 악성코드의 byte 파일을 8비트 gray-scale 이미지로 시각화하는 방법이다. 둘째, 악성코드 asm 파일의 opcode sequence 정보를 추출하고 이를 이미지로 변환하는 방법이다. 셋째, 악성코드 이미지와 메타데이터를 결합하여 분류에 적용하는 방법이다. 이미지 특징 추출을 위해서는 본고에서 제안한 CNN을 통한 학습 방식과 더불어 3개의 Pre-trained된 CNN 모델을 (InceptionV3, Densnet, Resnet-50) 사용하여 전이학습을 진행한다. 전이학습 시에는 마지막 분류 레이어층에서 본 논문에서 선택한 데이터셋에 대해서만 학습하도록 파인튜닝하였다. 결과적으로 가공된 악성코드 데이터를 적용하여 9개의 악성코드 패밀리로 분류하고 예측 정확도를 측정해 비교 분석한다.

Keywords

Acknowledgement

이 논문은 2017년 정부(과학기술정보통신부)의 재원으로 한국연구재단-차세대정보 컴퓨팅기술개발사업의 지원을 받아 수행된 연구임(NRF-2017M3C4A708279).