A Feature Set Selection Approach Based on Pearson Correlation Coefficient for Real Time Attack Detection

실시간 공격 탐지를 위한 Pearson 상관계수 기반 특징 집합 선택 방법

  • 강승호 (동신대학교/정보보안전공) ;
  • 정인선 (전남대학교/전자컴퓨터공학부) ;
  • 임형석 (전남대학교/전자컴퓨터공학부)
  • Received : 2018.12.10
  • Accepted : 2018.12.26
  • Published : 2018.12.31

Abstract

The performance of a network intrusion detection system using the machine learning method depends heavily on the composition and the size of the feature set. The detection accuracy, such as the detection rate or the false positive rate, of the system relies on the feature composition. And the time it takes to train and detect depends on the size of the feature set. Therefore, in order to enable the system to detect intrusions in real-time, the feature set to beused should have a small size as well as an appropriate composition. In this paper, we show that the size of the feature set can be further reduced without decreasing the detection rate through using Pearson correlation coefficient between features along with the multi-objective genetic algorithm which was used to shorten the size of the feature set in previous work. For the evaluation of the proposed method, the experiments to classify 10 kinds of attacks and benign traffic are performed against NSL_KDD data set.

기계학습을 이용하는 침입 탐지 시스템의 성능은 특징 집합의 구성과 크기에 크게 좌우된다. 탐지율과 같은 시스템의 탐지 정확도는 특징 집합의 구성에, 학습 및 탐지 시간은 특징 집합의 크기에 의존한다. 따라서 즉각적인 대응이 필수인 침입 탐지 시스템의 실시간 탐지가 가능하도록 하려면, 특징 집합은 크기가 작으면서도 적절한 특징들로 구성하여야 한다. 본 논문은 실시간 탐지를 위한 특징 집합 선택 문제를 해결하기 위해 사용했던 기존의 다목적 유전자 알고리즘에 특징 간의 Pearson 상관계수를 함께 사용하면 탐지율을 거의 낮추지 않으면서도 특징 집합의 크기를 줄일 수 있음을 보인다. 제안한 방법의 성능평가를 위해 NSL_KDD 데이터를 사용하여 10가지 공격 유형과 정상적인 트래픽을 구별하도록 인공신경망을 설계, 구현하여 실험한다.

Keywords

References

  1. 미래창조과학부, "정보보호가 기본이 되고 창조경제 먹거리 산업화를 위한 K-ICT 시큐리티 발전 전략", 2015.
  2. 이광호, 김종화, 김지원, 윤석준, 김완주, 정찬기, "퍼지추론을 이용한 정량적 사이버 위협 수준 평가방안 연구", 융합보안논문지, 제18권, 제2호, pp.19-24, 2018.
  3. Q. Liu, P. Li, W. Zhao, W. Cai, S. Yu and V. C. M. Leung, "A Survey on Security Threats and Defensive Techniques of Machine Learning: A Data Driven View", IEEE Access. vol.6, pp. 12103-12117, 2018. https://doi.org/10.1109/ACCESS.2018.2805680
  4. Y. Xin, etc. "Machine Learning and Deep Learning Methods for Cybersecurity", IEEE Access. vol. 6, pp. 35365-35381, 2018. https://doi.org/10.1109/ACCESS.2018.2836950
  5. H. Jiang, J. Nagra and P. Ahammad, "SoK: Applying Machine Learning in Security - A Survey", arXiv:1611.03186, 2016.
  6. A. A. Ghorbani, W. Lu and M. Tavallaee, 'Network Intrusion Detection and Prevention', Springer 2010.
  7. 한명묵, "침입탐지시스템에서의 특징 선택에 대한 연구", 융합보안논문지, 제6권, 제3호, pp.19-24, 2018.
  8. G. Chandrashekar, F. Sahin, "A survey on feature selection methods", Computers & Electrical Engineering, Vol. 40, Issue 1, pp. 16-28, 2014. https://doi.org/10.1016/j.compeleceng.2013.11.024
  9. J. Suto, S. Oniga and P. P. Sitar, "Comparison of wrapper and filter feature selection algorithms on human activity recognition", Proc. 6th International Conference on Computers Communications and Control (ICCCC), DOI: 10.1109/ICCCC.2016.7496749, 2016.
  10. H. S. Huang, "Supervised feature selection: A tutorial", Artificial Intelligence Research, Vol. 4, No. 2, 2015.
  11. 김태희, 강승호, 실시간 탐지를 위한 인공신경망 기반의 네트워크 침입탐지 시스템, 융합보안논문지, 제17권, 1호, pp. 31-38, 2017.
  12. NSL_KDD data set. Avalilable on: http://nsl.cs.unb.ca/NSL-KDD/
  13. M. Tavallaee, E. Bagheri, W. Lu, and A. A. Ghorbani, "A Detailed Analysis of the KDD CUP 99 Data Set," Proc. 2009 IEEE Int. Conf. Comput. Intell. Security Defense Appl. CISDA, pp. 53-58, 2009.
  14. KDD Cup 1999. Available on:http://kdd.ics.uci.e du/databases/kddcup99/kddcup99.html, 2007.
  15. M. Sabhnani and G. Serpen, "Application of Machine Learning Algorithms to KDD Intrusion Detection Dataset within Misuse Detection Context," Proc. of International Conference on Machine Learning: Models, Technologies, and Applications, pp. 209-215, 2013.
  16. M. R. Garey and D. S. Johnson, 'Computers and Intractability: A Guide to the Theory of NP-Completeness', W.H. FREEMAN AND COMPANY, 1979.
  17. X. Glorot and Y. Bengio, "Understanding the difficulty of training deep feedforward neural networks", Proc. the 13th International Conference on Artificial Intelligence and Statistics 2010.