Abstract
To detect advanced ransomware attacks with machine learning-based models, the classification model must train learning data with high-dimensional feature space. And in this case, a 'curse of dimension' phenomenon is likely to occur. Therefore, dimensionality reduction of features must be preceded in order to increase the accuracy of the learning model and improve the execution speed while avoiding the 'curse of dimension' phenomenon. In this paper, we conducted classification of ransomware by applying three machine learning models and two feature extraction techniques to two datasets with extremely different dimensions of feature space. As a result of the experiment, the feature dimensionality reduction techniques did not significantly affect the performance improvement in binary classification, and it was the same even when the dimension of featurespace was small in multi-class clasification. However, when the dataset had high-dimensional feature space, LDA(Linear Discriminant Analysis) showed quite excellent performance.
점점 더 고도화되고 있는 랜섬웨어 공격을 기계학습 기반 모델로 탐지하기 위해서는, 분류 모델이 고차원의 특성을 가지는 학습데이터를 훈련해야 한다. 그리고 이 경우 '차원의 저주' 현상이 발생하기 쉽다. 따라서 차원의 저주 현상을 회피하면서 학습모델의 정확성을 높이고 실행 속도를 향상하기 위해 특성의 차원 축소가 반드시 선행되어야 한다. 본 논문에서는 특성의 차원이 극단적으로 다른 2종의 데이터세트를 대상으로 3종의 기계학습 모델과 2종의 특성 추출기법을 적용하여 랜섬웨어 분류를 수행하였다. 실험 결과, 이진 분류에서는 특성 차원 축소기법이 성능 향상에 큰 영향을 미치지 않았으며, 다중 분류에서도 데이터세트의 특성 차원이 작을 경우에는 동일하였다. 그러나 학습데이터가 고차원의 특성을 가지는 상황에서 다중 분류를 시도했을 경우 LDA(Linear Discriminant Analysis)가 우수한 성능을 나타냈다.