• 제목/요약/키워드: ensemble machine learning

검색결과 229건 처리시간 0.027초

Lifelong Machine Learning 기반 스팸 메시지 필터링 방법 (A Method for Spam Message Filtering Based on Lifelong Machine Learning)

  • 안연선;정옥란
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1393-1399
    • /
    • 2019
  • 인터넷의 급속한 성장으로 데이터의 송수신의 편리성과 비용이 들지 않는다는 장점 때문에 매일 수백만 건의 무차별적인 광고성 스팸 문자와 메일이 발송되고 있다. 아직은 스팸 단어나 스팸 번호를 차단하는 방법을 주로 사용하지만, 기계 학습이 떠오름에 따라 스팸을 필터링하는 방법에 대해 다양한 방식으로 활발히 연구되고 있다. 그러나 스팸에서만 등장하는 단어나 패턴은 스팸 필터링 시스템에 의해 걸러지지 않기 위해 지속적으로 변화하고 있기 때문에, 기존 기계 학습 메커니즘으로는 새로운 단어와 패턴을 감지, 적응할 수 없다. 최근 이러한 기존 기계 학습의 한계점을 극복하기 위해 기존의 지식을 활용하여 새로운 지식을 지속적으로 학습하도록 하는 Lifelong Learning(이하 LL)의 개념이 대두되었다. 본 논문에서는 문서 분류에 가장 많이 사용되는 나이브 베이즈와 Lifelong Machine Learning(이하 LLML)의 앙상블 기법을 이용한 스팸 메시지 필터링 방법을 제안한다. 우리는 기존 스팸 필터링 시스템에 가장 많이 사용되는 나이브 베이즈와, LLML 모델 중 ELLA를 적용하여 LL의 성능을 검증한다.

기계학습법을 통한 압축 벤토나이트의 열전도도 추정 모델 평가 (Evaluation of a Thermal Conductivity Prediction Model for Compacted Clay Based on a Machine Learning Method)

  • 윤석;방현태;김건영;전해민
    • 대한토목학회논문집
    • /
    • 제41권2호
    • /
    • pp.123-131
    • /
    • 2021
  • 완충재는 고준위 방사성 폐기물을 처분하기 위한 공학적 방벽 시스템에서 중요한 구성요소 중 하나이며 사용 후 핵연료가 담긴 처분용기와 암반사이에 채워지는 물질이기 때문에 지하수 유입으로부터 처분용기를 보호하고, 방사성 핵종 유출을 저지하는 중요한 역할을 수행한다. 따라서 공학적 방벽 시스템의 처분용기로부터 발생하는 고온의 열량은 완충재를 통하여 전파되기에 완충재의 열전도도는 처분시스템의 안전성 평가에 매우 중요하다. 본 연구에서는 국내에서 생산되는 압축 벤토나이트 완충재의 열전도도 예측을 위한 경험적 회귀 모델의 정합성을 검증하고 정확도를 높이기 위해 예측모델의 구축에 기계학습법을 적용해 보았다. 벤토나이트의 건조밀도, 함수비 및 온도 값을 바탕으로 열전도도를 예측하고자 하였으며, 이때 다항 회귀, 결정 트리, 서포트 벡터 머신, 앙상블, 가우시안 프로세스 회귀, 인공신경망, 심층 신뢰 신경망, 유전 프로그래밍과 같은 기계학습 기법을 적용하였다. 기계학습 기법을 이용하여 예측한 결과, 부스팅 기반의 앙상블 기법, 유전 프로그래밍, 3차 함수 기반의 SVM, 가우시안 프로세스 회귀의 기계학습기법을 활용한 모델이 선형 회귀 분석 기법에 비해 좋은 성능을 보였으며, 특히 앙상블의 부스팅 기법과 가우시안 프로세스 회귀 기법을 사용한 모델들이 가장 좋은 성능을 보였다.

마이터 어택과 머신러닝을 이용한 UNSW-NB15 데이터셋 기반 유해 트래픽 분류 (Malicious Traffic Classification Using Mitre ATT&CK and Machine Learning Based on UNSW-NB15 Dataset)

  • 윤동현;구자환;원동호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.99-110
    • /
    • 2023
  • 본 연구는 현 보안 관제 시스템이 직면한 실시간 트래픽 탐지 문제를 해결하기 위해 사이버 위협 프레임워크인 마이터 어택과 머신러닝을 이용하여 유해 네트워크 트래픽을 분류하는 방안을 제안하였다. 마이터 어택 프레임워크에 네트워크 트래픽 데이터셋인 UNSW-NB15를 적용하여 라벨을 변환 후 희소 클래스 처리를 통해 최종 데이터셋을 생성하였다. 생성된 최종 데이터셋을 사용하여 부스팅 기반의 앙상블 모델을 학습시킨 후 이러한 앙상블 모델들이 다양한 성능 측정 지표로 어떻게 네트워크 트래픽을 분류하는지 평가하였다. 그 결과 F-1 스코어를 기준으로 평가하였을 때 희소 클래스 미처리한 XGBoost가 멀티 클래스 트래픽 환경에서 가장 우수함을 보였다. 학습하기 어려운 소수의 공격클래스까지 포함하여 마이터 어택라벨 변환 및 오버샘플링처리를 통한 머신러닝은 기존 연구 대비 차별점을 가지고 있으나, 기존 데이터셋과 마이터 어택 라벨 간의 변환 시 완벽하게 일치할 수 없는 점과 지나친 희소 클래스 존재로 인한 한계가 있음을 인지하였다. 그럼에도 불구하고 B-SMOTE를 적용한 Catboost는 0.9526의 분류 정확도를 달성하였고 이는 정상/비정상 네트워크 트래픽을 자동으로 탐지할 수 있을 것으로 보인다.

컬러 영상 색채 강도 엔트로피를 이용한 앙상블 모델 기반의 지능형 나비 영상 인식 (Ensemble Model Based Intelligent Butterfly Image Identification Using Color Intensity Entropy)

  • 김태희;강승호
    • 한국정보통신학회논문지
    • /
    • 제26권7호
    • /
    • pp.972-980
    • /
    • 2022
  • 영상을 이용한 기계학습 기반의 나비 종 인식 기술은 나비 종의 다양성 및 개체 수, 종의 서식 분포 등을 파악하는데 관련 분야 종사자의 많은 시간과 비용 감소의 효과를 가져온다. 나비 종 분류의 정확성과 시간 효율을 높이기 위해 기계학습 모델의 입력으로 사용되는 여러 가지 특징들이 연구되었다. 그중 엔트로피 개념을 이용한 가지 길이 유사성 엔트로피나 색채 강도 엔트로피 방법이 푸리에 변환이나 웨이블릿 등 다른 특징들에 비해 높은 정확성과 적은 학습 시간을 보여주었다. 본 논문은 나비의 컬러 영상에 대한 RGB 색채 강도 엔트로피를 이용한 특징 추출 알고리즘을 제안한다. 또한 제안한 특징 추출 방법과 대표적인 앙상블 모델들을 결합한 나비 인식 시스템을 개발하고 성능을 평가한다.

A Comparative Study of Phishing Websites Classification Based on Classifier Ensemble

  • Tama, Bayu Adhi;Rhee, Kyung-Hyune
    • 한국멀티미디어학회논문지
    • /
    • 제21권5호
    • /
    • pp.617-625
    • /
    • 2018
  • Phishing website has become a crucial concern in cyber security applications. It is performed by fraudulently deceiving users with the aim of obtaining their sensitive information such as bank account information, credit card, username, and password. The threat has led to huge losses to online retailers, e-business platform, financial institutions, and to name but a few. One way to build anti-phishing detection mechanism is to construct classification algorithm based on machine learning techniques. The objective of this paper is to compare different classifier ensemble approaches, i.e. random forest, rotation forest, gradient boosted machine, and extreme gradient boosting against single classifiers, i.e. decision tree, classification and regression tree, and credal decision tree in the case of website phishing. Area under ROC curve (AUC) is employed as a performance metric, whilst statistical tests are used as baseline indicator of significance evaluation among classifiers. The paper contributes the existing literature on making a benchmark of classifier ensembles for web phishing detection.

A Study of Image Classification using HMC Method Applying CNN Ensemble in the Infrared Image

  • Lee, Ju-Young;Lim, Jae-Wan;Koh, Eun-Jin
    • Journal of Electrical Engineering and Technology
    • /
    • 제13권3호
    • /
    • pp.1377-1382
    • /
    • 2018
  • In the marine environment, many clutters have similar features with the marine targets due to the diverse changes of the air temperature, water temperature, various weather and seasons. Also, the clutters in the ground environment have similar features due to the same reason. In this paper, we proposed a robust Hybrid Machine Character (HMC) method to classify the targets from the clutters in the infrared images for the various environments. The proposed HMC method adopts human's multiple personality utilization and the CNN ensemble method to classify the targets in the ground and marine environments. This method uses an advantage of the each environmental training model. Experimental results demonstrate that the proposed method has better success rate to classify the targets and clutters than previously proposed CNN classification method.

실시간 데이터 분석의 성능개선을 위한 적응형 학습 모델 연구 (A Study on Adaptive Learning Model for Performance Improvement of Stream Analytics)

  • 구진희
    • 융합정보논문지
    • /
    • 제8권1호
    • /
    • pp.201-206
    • /
    • 2018
  • 최근 인공지능을 구현하기 위한 기술들이 보편화되면서 특히, 기계 학습이 폭넓게 사용되고 있다. 기계 학습은 대량의 데이터를 수집하고 일괄적으로 처리하며 최종 조치를 취할 수 있는 통찰력을 제공하나, 작업의 효과가 즉시 학습 과정에 통합되지는 않는다. 본 연구에서는 비즈니스의 큰 이슈로서 실시간 데이터 분석의 성능을 개선하기 위한 적응형 학습 모델을 제안하였다. 적응형 학습은 데이터세트의 복잡성에 적응하여 앙상블을 생성하고 알고리즘은 샘플링 할 최적의 데이터 포인트를 결정하는데 필요한 데이터를 사용한다. 6개의 표준 데이터세트를 대상으로 한 실험에서 적응형 학습 모델은 학습 시간과 정확도에서 분류를 위한 단순 기계 학습 모델보다 성능이 우수하였다. 특히 서포트 벡터 머신은 모든 앙상블의 후단에서 우수한 성능을 보였다. 적응형 학습 모델은 시간이 지남에 따라 다양한 매개변수들의 변화에 대한 추론을 적응적으로 업데이트가 필요한 문제에 폭넓게 적용될 수 있을 것으로 기대한다.

A Study on Korean Sentiment Analysis Rate Using Neural Network and Ensemble Combination

  • Sim, YuJeong;Moon, Seok-Jae;Lee, Jong-Youg
    • International Journal of Advanced Culture Technology
    • /
    • 제9권4호
    • /
    • pp.268-273
    • /
    • 2021
  • In this paper, we propose a sentiment analysis model that improves performance on small-scale data. A sentiment analysis model for small-scale data is proposed and verified through experiments. To this end, we propose Bagging-Bi-GRU, which combines Bi-GRU, which learns GRU, which is a variant of LSTM (Long Short-Term Memory) with excellent performance on sequential data, in both directions and the bagging technique, which is one of the ensembles learning methods. In order to verify the performance of the proposed model, it is applied to small-scale data and large-scale data. And by comparing and analyzing it with the existing machine learning algorithm, Bi-GRU, it shows that the performance of the proposed model is improved not only for small data but also for large data.

앙상블 조합 방법에 따른 주가 예측 성능 비교 (Comparison of Stock Price Forecasting Performance by Ensemble Combination Method)

  • 양현성;박준;소원호;심춘보
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.524-527
    • /
    • 2022
  • 본 연구에서는 머신러닝(Machine Learning, ML)과 딥러닝(Deep Learning, DL) 모델을 앙상블(Ensemble)하여 어떠한 주가 예측 방법이 우수한지에 대한 연구를 하고자 한다. 연구에 사용된 모델은 하이퍼파라미터(Hyperparameter) 조정을 통하여 최적의 결과를 출력한다. 앙상블 방법은 머신러닝과 딥러닝 모델의 앙상블, 머신러닝 모델의 앙상블, 딥러닝 모델의 앙상블이다. 세 가지 방법으로 얻은 결과를 평균 제곱근 오차(Root Mean Squared Error, RMSE)로 비교 분석하여 최적의 방법을 찾고자 한다. 제안한 방법은 주가 예측 연구의 시간과 비용을 절약하고, 최적 성능 모델 판별에 도움이 될 수 있다고 사료된다.

머신러닝 및 딥러닝 모델의 스태킹 앙상블을 이용한 단기 전력수요 예측에 관한 연구 (A Study on Short-Term Electricity Demand Prediction Using Stacking Ensemble of Machine Learning and Deep Learning Ensemble Models)

  • 이정일;김동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.566-569
    • /
    • 2021
  • 전력수요는 월, 요일 및 시간의 계절성(Seasonality)을 보이는 데이터이다. 각 계절성에 따라 특성이 다르기 때문에, 전력수요를 예측하기 위해서는 계절성의 특성을 고려한 다양한 모델을 선정하고, 병합하는 방법이 필요하다. 본 연구에서는 전력수요의 계절성을 고려한 다양한 예측모델을 병합하여 이용할 수 있도록 스태킹 앙상블 적용하고 실험결과를 기술한다. 또한, 162개 도시의 기상 데이터와 인구 데이터를 예측에 이용하는 방법, Regression 모델과 Time-series모델에 입력하는 특징(Feature)의 전처리 방법, 베이지안 최적화를 이용한 머신러닝 및 딥러닝 모델의 하이퍼파라메터 최적화 방법을 제시한다.