• Title/Summary/Keyword: recursive feature addition

검색결과 9건 처리시간 0.02초

RFA: Recursive Feature Addition Algorithm for Machine Learning-Based Malware Classification

  • Byeon, Ji-Yun;Kim, Dae-Ho;Kim, Hee-Chul;Choi, Sang-Yong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권2호
    • /
    • pp.61-68
    • /
    • 2021
  • 최근 악성코드와 정상 바이너리를 분류하기 위해 기계학습을 이용하는 기술이 다양하게 연구되고 있다. 효과적인 기계학습을 위해서는 악성코드와 정상 바이너리를 식별하기 위한 Feature를 잘 추출하는 것이 무엇보다 중요하다. 본 논문에서는 재귀적인 방법을 이용하여 기계학습에 활용하기 위한 Feature 추출 방법인 RFA(Recursive Feature Addition) 제안한다. 제안하는 방법은 기계학습의 성능을 극대화 하기 위해 개별 Feature를 대상으로 재귀적인 방법을 사용하여 최종 Feature Set을 선정한다. 세부적으로는 매 단계마다 개별 Feature 중 최고성능을 내는 Feature를 추출하여, 추출한 Feature를 결합하는 방법을 사용한다. 제안하는 방법을 활용하여 Decision tree, SVM, Random forest, KNN등의 기계학습 알고리즘에 적용한 결과 단계가 지속될수록 기계학습의 성능이 향상되는 것을 검증하였다.

A Novel Network Anomaly Detection Method based on Data Balancing and Recursive Feature Addition

  • Liu, Xinqian;Ren, Jiadong;He, Haitao;Wang, Qian;Sun, Shengting
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권7호
    • /
    • pp.3093-3115
    • /
    • 2020
  • Network anomaly detection system plays an essential role in detecting network anomaly and ensuring network security. Anomaly detection system based machine learning has become an increasingly popular solution. However, due to the unbalance and high-dimension characteristics of network traffic, the existing methods unable to achieve the excellent performance of high accuracy and low false alarm rate. To address this problem, a new network anomaly detection method based on data balancing and recursive feature addition is proposed. Firstly, data balancing algorithm based on improved KNN outlier detection is designed to select part respective data on each category. Combination optimization about parameters of improved KNN outlier detection is implemented by genetic algorithm. Next, recursive feature addition algorithm based on correlation analysis is proposed to select effective features, in which a cross contingency test is utilized to analyze correlation and obtain a features subset with a strong correlation. Then, random forests model is as the classification model to detection anomaly. Finally, the proposed algorithm is evaluated on benchmark datasets KDD Cup 1999 and UNSW_NB15. The result illustrates the proposed strategies enhance accuracy and recall, and decrease the false alarm rate. Compared with other algorithms, this algorithm still achieves significant effects, especially recall in the small category.

고속 문자 인식을 위한 특징량 추출에 관한 연구 - 방향정보의 반복적 추출과 특징량의 계층성을 이용하여 - (A Study on the Feature Extraction for High Speed Character Recognition -By Using Interative Extraction and Hierarchical Formation of Directional Information-)

  • 강선미;이기용;양윤모;양윤모;김덕진
    • 전자공학회논문지B
    • /
    • 제29B권11호
    • /
    • pp.102-110
    • /
    • 1992
  • In this paper, a new method of character recognition is proposed. It uses density information, in addition to positional and directional information generally used, to recognize a character. Four directional feature primitives are extracted from the thinning templates on the observation that the output of the templates have directional property in general. A simple and fast feature extraction scheme is possible. Features are organized from recursive nonary tree(N-tree) that corresponds to normalized character area. Each node of the N-tree has four directional features that are sum of the features of it's nine sub-nodes. Every feature primitive from the templates are added to the corresponding leaf and then summed to the upper nodes successively. Recognition can be accomplished by using appropriate feature level of N-tree. Also, effectiveness of each node's feature vector was tested by experiment. A method to implement the proposed feature vector organization algorithm into hardware is proposed as well. The third generation node, which is 4$\times$4, is used as a unit processing element to extract features, and it was implemented in hardware. As a result, we could observe that it is possible to extract feature vector for real-time processing.

  • PDF

머신러닝 기법 기반의 예측조합 방법을 활용한 산업 부가가치율 예측 연구 (Prediction on the Ratio of Added Value in Industry Using Forecasting Combination based on Machine Learning Method)

  • 김정우
    • 한국콘텐츠학회논문지
    • /
    • 제20권12호
    • /
    • pp.49-57
    • /
    • 2020
  • 본 연구는 우리나라 수출 분야 산업의 경쟁력을 나타내는 부가가치율을 다양한 머신러닝 기법을 활용하여 예측하였다. 아울러, 예측의 정확성 및 안정성을 높이기 위하여 머신러닝 기법 예측값들에 예측조합 기법을 적용하였다. 특히, 본 연구는 산업별 부가가치율에 영향을 주는 다양한 변수를 고려하기 위하여 재귀적특성제거 방법을 사용하여 주요 변수를 선별한 후 머신러닝 기법에 적용함으로써 예측과정의 효율성을 높였다. 분석결과, 예측조합 방법에 따른 예측값은 머신러닝 기법 예측값들보다 실제의 산업 부가가치율에 근접한 것으로 나타났다. 또한, 머신러닝 기법의 예측값들이 큰 변동성을 보이는 것과 달리 예측조합 기법은 안정적인 예측값을 나타내었다.

발전소에서의 SOx 공정 모사, 모니터링 및 패턴 분류 (SOx Process Simulation, Monitoring, and Pattern Classification in a Power Plant)

  • 최상욱;유창규;이인범
    • 제어로봇시스템학회논문지
    • /
    • 제8권10호
    • /
    • pp.827-832
    • /
    • 2002
  • We propose a prediction method of the pollutant and a synchronous classification of the current state of SOx emission in the power plant. We use the auto-regressive with exogeneous (ARX) model as a predictor of SOx emission and use a radial basis function network (RBFN) as a pattem classifier. The ARX modeling scheme is implemented using recursive least squares (RLS) method to update the model parameters adaptively. The capability of SOx emission monitoring is utilized with the application of the RBFN classifier. Experimental results show that the ARX model can predict the SOx emission concentration well and ARX modeling parameters can be a good feature for the state monitoring. in addition, its validity has been verified through the power spectrum analysis. Consequently, the RBFN classifier in combination with ARX model is shown to be quite adequate for monitoring the state of SOx emission.

Video Expression Recognition Method Based on Spatiotemporal Recurrent Neural Network and Feature Fusion

  • Zhou, Xuan
    • Journal of Information Processing Systems
    • /
    • 제17권2호
    • /
    • pp.337-351
    • /
    • 2021
  • Automatically recognizing facial expressions in video sequences is a challenging task because there is little direct correlation between facial features and subjective emotions in video. To overcome the problem, a video facial expression recognition method using spatiotemporal recurrent neural network and feature fusion is proposed. Firstly, the video is preprocessed. Then, the double-layer cascade structure is used to detect a face in a video image. In addition, two deep convolutional neural networks are used to extract the time-domain and airspace facial features in the video. The spatial convolutional neural network is used to extract the spatial information features from each frame of the static expression images in the video. The temporal convolutional neural network is used to extract the dynamic information features from the optical flow information from multiple frames of expression images in the video. A multiplication fusion is performed with the spatiotemporal features learned by the two deep convolutional neural networks. Finally, the fused features are input to the support vector machine to realize the facial expression classification task. The experimental results on cNTERFACE, RML, and AFEW6.0 datasets show that the recognition rates obtained by the proposed method are as high as 88.67%, 70.32%, and 63.84%, respectively. Comparative experiments show that the proposed method obtains higher recognition accuracy than other recently reported methods.

제약하의 예측조합 방법을 활용한 산업별 고용비중 예측 (Prediction of the employment ratio by industry using constrainted forecast combination)

  • 김정우
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.257-267
    • /
    • 2020
  • 본 연구는 우리나라 수출 분야의 산업별 고용비중을 다양한 머신러닝 기법을 활용하여 예측하고, 예측성능을 높이기 위하여 머신러닝 기법 예측값들에 예측조합 기법을 적용하였다. 특히, 본 연구에서는 각 머신러닝 기법 예측값들에 부여되는 가중치의 합을 1로 설정하는 제약하의 예측조합 기법을 사용하여 예측의 정확성과 안정성을 확보하고자 하였다. 또한, 본 연구는 산업별 고용비중에 영향을 주는 다양한 변수를 고려하기 위하여 재귀적특성제거 방법을 사용하여 주요 변수를 선별한 후, 머신러닝 기법에 적용함으로써 예측과정 상에서의 효율성을 높였다. 분석결과, 예측조합 방법에 따른 예측값은 머신러닝 기법의 예측값들보다 실제의 산업 고용비중에 근접한 것으로 나타났으며, 머신러닝 기법의 예측값들이 큰 변동성을 보이는 것과 달리 제약하의 예측조합 기법은 안정적인 예측값을 나타내었다.

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.

증강현실 환경에서의 강건한 카메라 추적을 위한 실시간 입자 필터링 기법 (A Real-time Particle Filtering Framework for Robust Camera Tracking in An AR Environment)

  • 이석한
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권4호
    • /
    • pp.597-606
    • /
    • 2010
  • 본 논문에서는 증강현실 환경에서 보다 강건한 카메라 정보 추정을 위한 입자필터 기반의 카메라 추적 기법에 대해서 설명한다. 실시간 카메라 추적을 위해서는 일반적으로 칼만 필터, 또는 확장 칼만 필터 등이 많이 이용되지만, 카메라의 급격한 흔들림 및 장면의 가려짐 등과 같은 불안정한 조건에서는 정상적인 카메라 추적이 매우 힘들다는 단점이 있다. 본 논문에서 제안하는 입자필터링 기법은 시스템 상태에 대한 측정 표본입자의 가중치를 별도의 가중치 계산과정을 이용하지 않고 가우스 분포를 기반으로 계산하였으며, 카메라 입자를 수렴시키기 위한 별도의 처리과정을 거치지 않고 시스템의 실제 불확실도에 근사화되도록 재표본화된 표본입자 집합을 이용하여 카메라 상태의 추정을 수행하였다. 또한 제안된 방법은 보다 많은 수의 표본 입자를 이용하는 환경에서도 실시간 처리가 가능한 장점이 있다. 실험을 통하여 다양한 환경 하에서 제안된 방법의 효율성과 정확성을 확인하였다.