Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2019.05a
- /
- Pages.164-167
- /
- 2019
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
Modeling and Selecting Optimal Features for Machine Learning Based Detections of Android Malwares
머신러닝 기반 악성 안드로이드 모바일 앱의 최적특징점 선정 및 모델링 방안 제안
- Lee, Kye Woong (Department of Computer Engineering, Hongik University) ;
- Oh, Seung Taek (Neouly Inc.) ;
- Yoon, Young (Department of Computer Engineering, Hongik University)
- 이계웅 (홍익대학교 컴퓨터공학과 Application Platform Lab) ;
- 오승택 ((주)너울리) ;
- 윤영 (홍익대학교 컴퓨터공학과 Application Platform Lab)
- Published : 2019.05.10
Abstract
모바일 운영체제 중 안드로이드의 점유율이 높아지면서 모바일 악성코드 위협은 대부분 안드로이드에서 발생하고 있다. 그러나 정상앱이나 악성앱이 진화하면서 권한 등의 단일 특징점으로 악성여부를 연구하는 방법은 유효성 문제가 발생하여 본 논문에서는 다양한 특징점 추출 및 기계학습을 활용하여 극복하고자 한다. 본 논문에서는 APK 파일에서 구동에 필요한 다섯 종류의 특징점들을 안드로가드라는 정적분석 툴을 통해 학습데이터의 특성을 추출한다. 또한 추출된 중요 특징점을 기반으로 모델링을 하는 세 가지 방법을 제시한다. 첫 번째 방법은 보안 전문가에 의해 엄선된 132가지의 특징점 조합을 바탕으로 모델링하는 것이다. 두 번째는 학습 데이터 7,000개의 앱에서 발생 빈도수가 높은 상위 99%인 8,004가지의 특징점들 중 랜덤포레스트 분류기를 이용하여 특성중요도가 가장 높은 300가지를 선정 후 모델링 하는 방법이다. 마지막 방법은 300가지의 특징점을 학습한 다수의 모델을 통합하여 하나의 가중치 투표 모델을 구성하는 방법이다. 최종적으로 가중치 투표 모델인 앙상블 알고리즘 모델을 사용하여 97퍼센트로 정확도가 개선되었고 오탐률도 1.6%로 성능이 개선되었다.
Keywords