DOI QR코드

DOI QR Code

랜섬웨어 탐지를 위한 동적 분석 자료에서의 변수 선택 및 분류에 관한 연구

A study on variable selection and classification in dynamic analysis data for ransomware detection

  • 투고 : 2018.05.31
  • 심사 : 2018.07.25
  • 발행 : 2018.08.31

초록

최근 랜섬웨어는 일반 PC 사용자에 비해 상대적으로 수준 높은 보안 체계를 갖추고 있는 기업과 정부 기관에 침입하여 상당한 피해를 입히는 등 기존 보안 체계의 허점을 찾아 진화하는 모습을 보이고 있다. 이처럼 계속해서 변화하는 랜섬웨어를 탐지하기 위해 랜섬웨어의 특징을 파악하는 정적 분석과 동적 분석과 관련된 연구가 활발히 이루어지고 있다. 본 연구에서는 582개의 랜섬웨어 샘플과 942개의 정상 샘플 프로그램을 쿠쿠 샌드박스 가상환경 내에서 실행시킨 뒤, PC에서 이루어지는 30,967가지의 행동 여부를 기록한 동적 분석 자료를 활용하여 랜섬웨어 분류에 유의한 변수를 탐색하기 위한 여러 변수 선택 방법의 적용과 랜섬웨어 분류를 위한 기계학습 모형들을 구축하고자 하였다. 변수 선택법으로 LASSO와 이항변수 만으로 이루어진 고차원 자료라는 특성을 활용하기 위한 카이제곱검정을 이용한 변수 선택, 선행 연구에서 이용된 방법인 상호정보를 이용한 변수 선택법을 적용하였으며 기계 학습 모형으로는 능형 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, XGBoost가 활용되었다. 연구 결과, 정상 프로그램과 구별되는 랜섬웨어 프로그램만의 특징적인 행동을 확인할 수 있었으며 여러 변수 선택법과 기계학습 분류 모형들의 조합 중, 주어진 자료에서 카이제곱검정을 이용한 변수 선택법과 랜덤 포레스트 모형의 조합이 가장 높은 탐지율과 정분류율을 보이는 것을 확인하였다.

Attacking computer systems using ransomware is very common all over the world. Since antivirus and detection methods are constantly improved in order to detect and mitigate ransomware, the ransomware itself becomes equally better to avoid detection. Several new methods are implemented and tested in order to optimize the protection against ransomware. In our work, 582 of ransomware and 942 of normalware sample data along with 30,967 dynamic action sequence variables are used to detect ransomware efficiently. Several variable selection techniques combined with various machine learning based classification techniques are tried to protect systems from ransomwares. Among various combinations, chi-square variable selection and random forest gives the best detection rates and accuracy.

키워드

참고문헌

  1. Aragorn, T., YunChun, C., YiHsiang, K., and Tsungnan, L. (2016). Deep Learning for Ransomware Detection, IEICE Technical Report, 116, 87-92.
  2. Cover, T. M. and Thomas, J. A. (2006). Elements of Information Theory, John Wiley & Sons, New York.
  3. Huh, M. Y. and Choi, B. S. (2009). Variable selection based on mutual information, Communications of the Korean Statistical Society, 16, 143-155.
  4. Moser, A., Kruegel, C., and Kirda, E. (2007). Limits of Static Analysis for Malware Detection, 23rd Annual Computer Security Applications Conference.
  5. Kim, J., Ji, S., and Kim, S. (2017a). A machine learning based ransomware detection model using a hybrid analysis, Journal of Security Engineering, 14, 263-280. https://doi.org/10.14257/jse.2017.08.06
  6. Kim, J. H., Park, K. S., and Park, Y. H. (2017b). A study of vulnerability analysis of ransomware detection techniques, The Korean Institute of Communications and Information Sciences 2017 Summer Conference, 590-591.
  7. Lee, H., Seong, J., Kim, Y., Kim, J., and Gim, G. (2017). The automation model of ransomware analysis and detection pattern, Journal of the Korea Institute of Information and Communication Engineering, 21, 1581-1588.
  8. O'Gorman, G. and McDonald, G. (2012). Ransomware: a growing menace, Symantec Security Response.
  9. Sgandurra, D., Munoz-Gonzalez, L., Mohsen, R., and Lupu, E. C. (2016). Automated Dynamic Analysis of Ransomware: Benefits, Limitations and use for Detection. arXiv preprint arXiv:1609.03020.
  10. Zhang, H., Xiao, X., Mercaldo, F., Ni, S., Martinelli, F., Sangaiah, A., K.(2019). Classification of ransomware families with machine learning based on N-gram of opcodes, Future Generation Computer Systems, 90, 211-221. https://doi.org/10.1016/j.future.2018.07.052