• 제목/요약/키워드: malware family classification

검색결과 14건 처리시간 0.024초

ResNet-Variational AutoEncoder기반 변종 악성코드 패밀리 분류 연구 (A Study on Classification of Variant Malware Family Based on ResNet-Variational AutoEncoder)

  • 이영전;한명묵
    • 인터넷정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.1-9
    • /
    • 2021
  • 전통적으로 대부분의 악성코드는 도메인 전문가에 의해 추출된 특징 정보를 활용하여 분석되었다. 하지만 이러한 특징 기반의 분석방식은 분석가의 역량에 의존적이며 기존의 악성코드를 변형한 변종 악성코드를 탐지하는 데 한계를 가지고 있다. 본 연구에서는 도메인 전문가의 개입 없이도 변종 악성코드의 패밀리를 분류할 수 있는 ResNet-Variational AutoEncder 기반 변종 악성코드 분류 방법을 제안한다. Variational AutoEncoder 네트워크는 입력값으로 제공되는 훈련 데이터의 학습 과정에서 데이터의 특징을 잘 이해하며 정규 분포 내에서 새로운 데이터를 생성하는 특징을 가지고 있다. 본 연구에서는 Variational AutoEncoder의 학습 과정에서 잠재 변수를 추출을 통해 악성코드의 중요 특징을 추출할 수 있었다. 또한 훈련 데이터의 특징을 더욱 잘 학습하고 학습의 효율성을 높이기 위해 전이 학습을 수행했다. ImageNet Dataset으로 사전학습된 ResNet-152 모델의 학습 파라미터를 Encoder Network의 학습 파라미터로 전이했다. 전이학습을 수행한 ResNet-Variational AutoEncoder의 경우 기존 Variational AutoEncoder에 비해 높은 성능을 보였으며 학습의 효율성을 제공하였다. 한편 변종 악성코드 분류를 위한 방법으로는 앙상블 모델인 Stacking Classifier가 사용되었다. ResNet-VAE 모델의 Encoder Network로 추출한 변종 악성코드 특징 데이터를 바탕으로 Stacking Classifier를 학습한 결과 98.66%의 Accuracy와 98.68의 F1-Score를 얻을 수 있었다.

악성코드의 이미지 기반 딥러닝을 위한 전처리 방법 설계 및 개발 (Design and Implementation of a Pre-processing Method for Image-based Deep Learning of Malware)

  • 박지현;김태옥;신유림;김지연;최은정
    • 한국멀티미디어학회논문지
    • /
    • 제23권5호
    • /
    • pp.650-657
    • /
    • 2020
  • The rapid growth of internet users and faster network speed are driving the new ICT services. ICT Technology has improved our way of thinking and style of life, but it has created security problems such as malware, ransomware, and so on. Therefore, we should research against the increase of malware and the emergence of malicious code. For this, it is necessary to accurately and quickly detect and classify malware family. In this paper, we analyzed and classified visualization technology, which is a preprocessing technology used for deep learning-based malware classification. The first method is to convert each byte into one pixel of the image to produce a grayscale image. The second method is to convert 2bytes of the binary to create a pair of coordinates. The third method is the method using LSH. We proposed improving the technique of using the entire existing malicious code file for visualization, extracting only the areas where important information is expected to exist and then visualizing it. As a result of experimenting in the method we proposed, it shows that selecting and visualizing important information and then classifying it, rather than containing all the information in malicious code, can produce better learning results.

높은 정확도를 위한 이미지 전처리와 앙상블 기법을 결합한 이미지 기반 악성코드 분류 시스템에 관한 연구 (A Study on the Image-Based Malware Classification System that Combines Image Preprocessing and Ensemble Techniques for High Accuracy)

  • 김해수;김미희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권7호
    • /
    • pp.225-232
    • /
    • 2022
  • 최근 정보통신 기술의 발전이 많은 이에게 이점이 되고 있지만, 그와 동시에 새로운 프로그램의 취약점을 통해 악의적 공격 시도 또한 증가하고 있다. 악의적 공격 중 악성코드는 다양한 방식으로 동작하며 매번 새로운 방식으로 사람들에게 유포되고 이러한 악성코드들을 해결하기 위해 발견된 악성코드를 빠르게 분석하여 방어기법을 제공해야 한다. 새로운 악성코드를 기존 악성코드와 동일한 종류로 분류할 수 있다면 동작의 유사성을 가진 악성코드들의 분석된 특징을 이용해 새로운 악성코드의 방어기법을 제공할 수 있다. 따라서 악성코드를 정확하고 빠르게 분류하는 방법이 있어야 한다. 또한, 분석된 악성코드들의 패밀리 마다 데이터의 개수가 균일하지 않을 수 있으므로 이에 대한 해결방안이 필요하다. 본 논문에서는 이미지 전처리 기법과 앙상블 기법을 결합하여 개수가 균일하지 않은 데이터에서 정확도를 높이는 시스템을 제안한다.

MITRE ATT&CK 기반 사이버 공격 목표 분류 : CIA 라벨링 (Cyberattack Goal Classification Based on MITRE ATT&CK: CIA Labeling)

  • 신찬호;최창희
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.15-26
    • /
    • 2022
  • 사이버 공격을 수행하는 주체와 그 목적이 점차 다양화되고 고도화되고 있다. 과거 사이버 공격은 개인 혹은 집단의 자신감 표출을 위해 수행되었지만, 최근에는 국가 단위의 후원을 받은 정치적, 경제적 목적의 공격도 활발히 이루어지고 있다. 이에 대응하고자 시그니처 기반의 악성코드 패밀리 분류, 공격 주체 분류 등이 이루어졌지만 공격 주체가 의도적으로 방어자를 속일 수 있다는 단점이 있다. 또한 공격의 주체, 방법, 목적과 목표가 다양해짐에 따라, 공격의 모든 과정을 분석하는 것은 비효율적이다. 따라서 방어자 관점에서 사이버 공격의 최종 목표를 식별해 유연하게 대응할 필요가 있다. 사이버 공격의 근본적인 목표는 대상의 정보보안을 훼손하는 것이다. 정보보안은 정보자산의 기밀성, 무결성, 가용성을 보존함으로써 달성된다. 이에 본 논문에서는 MITRE ATT&CK® 매트릭스에 기반하여 공격자의 목표를 정보보안의 3요소 관점에서 재정의하고, 이를 머신러닝 모델과 딥러닝 모델을 통해 예측하였다. 실험 결과 최대 80%의 정확도로 예측하는 것을 확인할 수 있었다.