• 제목/요약/키워드: Obfuscated Feature

검색결과 4건 처리시간 0.022초

Spam Image Detection Model based on Deep Learning for Improving Spam Filter

  • Seong-Guk Nam;Dong-Gun Lee;Yeong-Seok Seo
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.289-301
    • /
    • 2023
  • Due to the development and dissemination of modern technology, anyone can easily communicate using services such as social network service (SNS) through a personal computer (PC) or smartphone. The development of these technologies has caused many beneficial effects. At the same time, bad effects also occurred, one of which was the spam problem. Spam refers to unwanted or rejected information received by unspecified users. The continuous exposure of such information to service users creates inconvenience in the user's use of the service, and if filtering is not performed correctly, the quality of service deteriorates. Recently, spammers are creating more malicious spam by distorting the image of spam text so that optical character recognition (OCR)-based spam filters cannot easily detect it. Fortunately, the level of transformation of image spam circulated on social media is not serious yet. However, in the mail system, spammers (the person who sends spam) showed various modifications to the spam image for neutralizing OCR, and therefore, the same situation can happen with spam images on social media. Spammers have been shown to interfere with OCR reading through geometric transformations such as image distortion, noise addition, and blurring. Various techniques have been studied to filter image spam, but at the same time, methods of interfering with image spam identification using obfuscated images are also continuously developing. In this paper, we propose a deep learning-based spam image detection model to improve the existing OCR-based spam image detection performance and compensate for vulnerabilities. The proposed model extracts text features and image features from the image using four sub-models. First, the OCR-based text model extracts the text-related features, whether the image contains spam words, and the word embedding vector from the input image. Then, the convolution neural network-based image model extracts image obfuscation and image feature vectors from the input image. The extracted feature is determined whether it is a spam image by the final spam image classifier. As a result of evaluating the F1-score of the proposed model, the performance was about 14 points higher than the OCR-based spam image detection performance.

난독화에 강인한 안드로이드 앱 버스마킹 기법 (Android App Birthmarking Technique Resilient to Code Obfuscation)

  • 김동진;조성제;정영기;우진운;고정욱;양수미
    • 한국통신학회논문지
    • /
    • 제40권4호
    • /
    • pp.700-708
    • /
    • 2015
  • 소프트웨어 버스마크는 한 프로그램이 보유한 고유한 특징으로 해당 프로그램을 식별하는데 사용될 수 있다. 소프트웨어 버스마크 기반으로 자바 프로그램의 도용을 탐지하는 연구들이 진행되어 왔다. 안드로이드 앱의 경우, 앱 보호를 위해 난독화 방법이 제공되고 있다. 그러나 공격자들도 자신이 도용한 프로그램을 감추기 위해 난독화를 적용하기도 한다. 특정 앱에 난독화를 적용하면 앱의 특징정보가 변경될 수 있다. 따라서 난독화를 고려한 버스마크 기반의 앱 도용 탐지 기법에 대한 연구가 필요하다. 본 논문에서는 난독화에 강인한 안드로이드 앱 버스마크 및 이에 기반한 앱 도용 탐지 기법을 제안한다. 몇몇 난독화 도구들을 분석하여 효과적인 버스마크로 메서드의 매개변수 및 반환값의 자료형을 선정하였고, 비교 대상 앱들로부터 해당 버스마크를 추출하여 이들 간의 유사도를 측정하였다. 여러 앱들을 대상으로 난독화 적용 전/후의 앱 유사성을 분석한 결과, 제안한 버스마크가 난독화가 적용된 앱에 대한 도용 탐지에도 효과적임을 확인하였다.

난독화 된 자바스크립트 탐지를 위한 실행 단위 코드 기반 특징 추출에 관한 연구 (A Study on Feature Extraction for Detection for Obfuscated Javascript Based on Executable Code Units)

  • 강익선;조호묵
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.79-80
    • /
    • 2014
  • 악성코드 유포를 위해 가장 많이 사용되는 Drive-by-download 공격에는 주로 자바스크립트가 사용되며, 공격자는 탐지 시스템의 우회하고 행위 분석을 어렵게 하기 위해 공격에 사용되는 스크립트를 난독화 한다. 난독화 된 자바스크립트를 탐지하기 위한 여러 기존의 연구들이 있었지만 최소한의 코드가 난독화 되어 있거나 정상 코드와 혼재할 경우 난독화 여부를 판단하기 어려운 한계가 있다. 본 논문에서는 난독화 된 자바 스크립트를 효과적으로 탐지하기 위해 전체 스크립트를 실행 단위 코드로 나눠 분석에 필요한 특징을 효과적으로 추출하는 방법을 제안한다.

  • PDF

하이브리드 데이터셋을 이용한 악성코드 패밀리 분류 (Classification of Malware Families Using Hybrid Datasets)

  • 최서우;한명진;이연지;이일구
    • 정보보호학회논문지
    • /
    • 제33권6호
    • /
    • pp.1067-1076
    • /
    • 2023
  • 최근 변종 악성코드가 증가하면서 사이버 해킹 침해사고 규모가 확대되고 있다. 그리고 지능형 사이버 해킹 공격에 대응하기 위해 악성코드 패밀리를 효과적으로 분류하기 위한 기계학습 기반 연구가 활발히 진행되고 있다. 그러나 기존의 분류 모델은 데이터셋이 난독화되거나, 희소한 경우에 성능이 저하되는 문제가 있었다. 본 논문에서는 ASM 파일과 BYTES 파일에서 추출한 특징을 결합한 하이브리드 데이터셋을 제안하고, FNN을 사용하여 분류 성능을 평가한다. 실험 결과에 따르면 제안하는 방법은 단일 데이터셋에 비해 약 4% 향상된 성능을 보였으며, 특히 희소한 패밀리에 대해서는 약 30%의 성능 향상을 보였다.