• 제목/요약/키워드: Ensemble learning technique

검색결과 72건 처리시간 0.026초

모바일 앱 악성코드 분석을 위한 학습모델 제안 (Proposal of a Learning Model for Mobile App Malicious Code Analysis)

  • 배세진;최영렬;이정수;백남균
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.455-457
    • /
    • 2021
  • 앱(App) 또는 어플리케이션이라고 부르는 응용 프로그램은 스마트폰이나 스마트TV와 같은 스마트 기기에서 사용되고 있다. 당연하게도 앱에도 악성코드가 있는데, 악성코드의 유무에 따라 정상앱과 악성앱으로 나눌 수 있다. 악성코드는 많고 종류가 다양하기 때문에 사람이 직접 탐지하기 어렵다는 단점이 있어 AI를 활용하여 악성앱을 탐지하는 방안을 제안한다. 기존 방법에서는 악성앱에서 Feature를 추출하여 악성앱을 탐지하는 방법이 대부분이었다. 하지만 종류와 수가 기하급수적으로 늘어 일일이 탐지할 수도 없는 상황이다. 따라서 기존 대부분의 악성앱에서 Feature을 추출하여 악성앱을 탐지하는 방안 외에 두 가지를 더 제안하려 한다. 첫 번째 방안은 기존 악성앱 학습을 하여 악성앱을 탐지하는 방법과 는 반대로 정상앱을 공부하여 Feature를 추출하여 학습한 후 정상에서 거리가 먼, 다시 말해 비정상(악성앱)을 찾는 것이다. 두 번째 제안하는 방안은 기존 방안과 첫 번째로 제안한 방안을 결합한 '앙상블 기법'이다. 이 두 기법은 향후 앱 환경에서 활용될 수 있도록 연구를 진행할 필요가 있다.

  • PDF

Prediction of compressive strength of sustainable concrete using machine learning tools

  • Lokesh Choudhary;Vaishali Sahu;Archanaa Dongre;Aman Garg
    • Computers and Concrete
    • /
    • 제33권2호
    • /
    • pp.137-145
    • /
    • 2024
  • The technique of experimentally determining concrete's compressive strength for a given mix design is time-consuming and difficult. The goal of the current work is to propose a best working predictive model based on different machine learning algorithms such as Gradient Boosting Machine (GBM), Stacked Ensemble (SE), Distributed Random Forest (DRF), Extremely Randomized Trees (XRT), Generalized Linear Model (GLM), and Deep Learning (DL) that can forecast the compressive strength of ternary geopolymer concrete mix without carrying out any experimental procedure. A geopolymer mix uses supplementary cementitious materials obtained as industrial by-products instead of cement. The input variables used for assessing the best machine learning algorithm not only include individual ingredient quantities, but molarity of the alkali activator and age of testing as well. Myriad statistical parameters used to measure the effectiveness of the models in forecasting the compressive strength of ternary geopolymer concrete mix, it has been found that GBM performs better than all other algorithms. A sensitivity analysis carried out towards the end of the study suggests that GBM model predicts results close to the experimental conditions with an accuracy between 95.6 % to 98.2 % for testing and training datasets.

협업필터링과 스태킹 모형을 이용한 상품추천시스템 개발 (Development of Product Recommender System using Collaborative Filtering and Stacking Model)

  • 박성종;김영민;안재준
    • 융합정보논문지
    • /
    • 제9권6호
    • /
    • pp.83-90
    • /
    • 2019
  • 사람들은 자신의 더 나은 선택을 위하여 끊임없이 노력한다. 이러한 이유로 추천시스템이 개발되었으며, 1990년대 초반부터 계속해서 발전하고 있다. 그 중, 협업필터링 기법은 추천시스템 분야에서 우수한 성능을 보였으며, 기계학습이 등장하면서 기계학습을 이용한 추천시스템에 관한 연구가 활발히 진행되었다. 본 연구는 앙상블 방법 중에서 스태킹 모형을 사용하여 추천시스템을 구축하며, 실제 고객의 상품 구매 데이터를 활용하여 협업필터링과 기계학습 기반 스태킹 모형으로 추천시스템을 개발하였다. 제시한 모형의 추천 성능은 기존의 협업필터링과 기계학습 기반 추천시스템과 비교하여 모형의 우수성을 확인하며, 연구결과는 스태킹 모형을 이용한 추천시스템 모형의 추천 성능이 개선됨을 확인하였다. 향후 본 연구에서 제안한 모형은 개인이나 기업이 더 나은 선택을 하여 상품을 추천할 때 도움을 줄 것으로 기대한다.

머신러닝을 이용한 공연문화예술 개인화 장르 추천 시스템 (A Personalized Recommendation System Using Machine Learning for Performing Arts Genre)

  • 김형수;박예린;이정민
    • 경영정보학연구
    • /
    • 제21권4호
    • /
    • pp.31-45
    • /
    • 2019
  • 공연문화예술 시장의 확대에도 불구하고, 중소규모 공연장은 소비자의 정보 접근성이 좋지 않아 어려움을 겪고 있다. 본 연구는 중소규모 공연장의 마케팅 역량을 강화할 수 있는 하나의 대안으로써 머신러닝 기반의 장르 추천 시스템을 제시하고자 한다. 국내 한 공연장의 고객 마스터 DB와 거래이력 DB를 활용하여 고객당 3개의 장르를 추천하는 5개의 추천 시스템을 개발하였다. 추천시점 이후 1년 동안의 실제 공연구매 이력을 바탕으로 추천 시스템의 성능을 비교하여 최적의 추천시스템을 제안하였다. 분석 결과, 단일 예측모형보다는 앙상블 모형 기반의 추천시스템이 우수한 성능을 보이는 것으로 나타났다. 본 연구는 공연문화예술 분야에는 일천했던 개인화 추천 기법을 적용했고, 분석 결과 공연문화예술 분야에서도 충분히 활용할 만한 가치가 있음을 시사하고 있다.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

데이터 불균형 개선에 따른 탁도 예측 앙상블 머신러닝 모형의 성능 특성 (Performance Characteristics of an Ensemble Machine Learning Model for Turbidity Prediction With Improved Data Imbalance)

  • 양현석;박정수
    • Ecology and Resilient Infrastructure
    • /
    • 제10권4호
    • /
    • pp.107-115
    • /
    • 2023
  • 고 탁도의 원수는 정수장 운영 및 수 생태 환경에 부정적인 영향을 줄 수 있어 관리가 필요한 수질 인자이며, 하천의 탁도 예측을 통해 고 탁도의 원수의 효율적 관리를 수행하기 위해 관련분야에 대한 연구가 지속되고 있다. 본 연구에서는 대표적인 앙상블 머신러닝 알고리즘 중 하나인 LightGBM (light gradient boosting machine)을 이용하여 탁도를 예측하는 다중 분류 모형을 구축하였다. 모형의 구축을 위해 입력자료를 탁도값에 따라 탁도가 낮은 경우부터 높은 경우까지 4개의 class로 구분하였으며, class 1 - 4에 속하는 자료수는 각각 945개, 763개, 95개, 25개로 분류되었다. 구축한 모형의 class 1 - 4에 대한 정밀도 (Precision) 각각 0.85, 0.71, 0.26, 0.30 재현율 (Recall)은 각각 0.82, 0.76, 0.19, 0.60로 데이터 수가 적은 소수 class에서 상대적으로 모형이 성능이 낮은 경향을 보였다. 데이터 불균형을 해소하기 위해 over-sampling알고리즘 중 SMOTE를 적용한 결과 개선된 모형의 class 1 - 4에 대한 정밀도 및 재현율은 각각 0.88, 0.71, 0.26, 0.25 및 0.79, 0.76, 0.38, 0.60으로 데이터 불균형 해소를 통해 모형의 재현율이 크게 개선되는 것을 확인할 수 있었다. 또한 데이터 구성비율이 모형성능에 미치는 영향에 대한 확인을 위하여 입력자료의 구성비를 다양하게 하고 각각의 자료로 구축된 모형의 결과를 비교하여 입력자료 구성비에 따른 모형성능의 차이를 분석하였으며, 모형 입력자료의 구성비의 적정한 산정을 통해 모형의 성능을 향상시킬 수 있음을 확인하였다.

스태킹 앙상블 모델을 이용한 시간별 지상 오존 공간내삽 정확도 향상 (Improved Estimation of Hourly Surface Ozone Concentrations using Stacking Ensemble-based Spatial Interpolation)

  • 김예진;강은진;조동진;이시우;임정호
    • 한국지리정보학회지
    • /
    • 제25권3호
    • /
    • pp.74-99
    • /
    • 2022
  • 지상 오존은 차량 및 산업 현장에서 배출된 질소화합물(Nitrogen oxides; NOx)과 휘발성 유기화합물(Volatile Organic Compounds; VOCs)의 광화학 반응을 통해 생성되어 식생 및 인체에 악영향을 끼친다. 국내에서는 실시간 오존 모니터링을 수행하고 있지만 관측소 기반으로, 미관측 지역의 공간 분포 분석에 어려움이 있다. 본 연구에서는 스태킹 앙상블 기법을 활용하여 매시간 남한 지역의 지상 오존 농도를 1.5km의 공간해상도로 공간내삽하였고, 5-fold 교차검증을 수행하였다. 스태킹 앙상블의 베이스 모델로는 코크리깅(Cokriging), 다중 선형 회귀(Multi-Linear Regression; MLR), 랜덤 포레스트(Random Forest; RF), 서포트 벡터 회귀(Support Vector Regression; SVR)를 사용하였다. 각 모델의 정확도 비교 평가 결과, 스태킹 앙상블 모델이 연구 기간 내 시간별 평균 R 및 RMSE이 0.76, 0.0065ppm으로 가장 높은 성능을 보여주었다. 스태킹 앙상블 모델의 지상 오존 농도 지도는 복잡한 지형 및 도시화 변수의 특징이 잘 드러나며 더 넓은 농도 범위를 보여주었다. 개발된 모델은 매시간 공간적으로 연속적인 공간 지도를 산출할 수 있을 뿐만 아니라 8시간 평균치 산출 및 시계열 분석에 있어서도 활용 가능성이 클 것으로 기대된다.

보안 인텔리전트 유형 분류를 위한 다중 프로파일링 앙상블 모델 (Ensemble Model using Multiple Profiles for Analytical Classification of Threat Intelligence)

  • 김영수
    • 한국콘텐츠학회논문지
    • /
    • 제17권3호
    • /
    • pp.231-237
    • /
    • 2017
  • 최근 기업의 보안 시스템으로부터 수집되는 보안 인텔리전스 수는 악성코드의 확산으로 인해 기하급수적으로 증가하고 있다. 빅 데이터 환경이 도래하면서 기업들은 침해사고에 대한 다양한 정보를 이용할 수 있게 되면서 기업이 수집할 수 있는 침해사고 정보가 다양해지고 있다. 이에 따라 보안 인텔리전스를 구성하고 있는 침해사고의 다양한 속성을 사용하여 보다 정확하게 유사침해사고를 그룹별로 분류할 필요성이 요구되고 있다. 본 연구에서는 유사도 비교 분석 이론에 근거하여 침해사고를 공격유형과 침해자원을 고려한 다중 프로파일을 개발하고, 이를 활용하여 보안 인텔리전스를 구성하고 있는 침해사고 유형 분류의 정확성을 개선하는 다중 프로파일 기반 앙상블 모델을 제안한다. 제안 모델은 침입탐지시스템에서 수집된 계층적 침해자원에 대한 유사도 분석을 통해 새로운 침해사고를 효과적으로 분석할 수 있다. 사실적이고 의미 있는 침해사고의 구성을 통한 유형 분류는 새로운 침해사고에 대한 유사 침해사고를 정확하게 분류 제공함으로써 분석의 실용성을 향상시킨다.

안드로이드 기반 앱 악성코드 탐지를 위한 Feature 선정 및 학습모델 제안 (Suggestion of Selecting features and learning models for Android-based App Malware Detection)

  • 배세진;이정수;백남균
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.377-380
    • /
    • 2022
  • 앱(App)이라 불리는 응용프로그램은 모바일 기기 등에 다운받아 사용 가능하다. 그 중 안드로이드(Android) 기반 앱은 오픈소스 기반으로 구현되어 누구나 악용 가능하다는 단점이 있지만, 아주 일부분의 소스코드를 공개하는 iOS와는 달리 안드로이드는 오픈소스로 구현되어있기 때문에 코드를 분석할 수 있다는 장점도 있다. 하지만, 오픈소스 기반의 안드로이드 앱은 누구나 소스코드 변경에 참여 가능하기 때문에 그만큼 악성코드가 많아지고 종류 또한 다양해질 수밖에 없다. 단기간에 기하급수적으로 늘어나는 악성코드는 사람이 일일이 탐지하기 어려워 AI를 활용하여 악성코드를 탐지하는 기법을 사용하는 것이 효율적이다. 기존 대부분의 악성 앱 탐지 방안은 Feature를 추출하여 악성 앱을 탐지하는 방안이 대부분이다. 따라서 Feature 추출 후 학습에 사용할 최적의 Feature를 선정(Selection)하는 3가지 방안을 제안한다. 마지막으로, 최적의 Feature로 모델링을 하는 단계에서 단일 모델 이외에도 앙상블 기법을 사용한다. 앙상블 기법은 이미 여러 연구에서 나와 있듯이 단일 모델의 성능을 뛰어넘는 결과를 보여주고 있다. 따라서 본 논문에서는 안드로이드 앱(App) 기반 악성코드 탐지 최적의 Feature 선정과 학습모델을 구현하는 방안을 제시한다.

  • PDF

머신러닝 CatBoost 다중 분류 알고리즘을 이용한 조류 발생 예측 모형 성능 평가 연구 (Evaluation of Multi-classification Model Performance for Algal Bloom Prediction Using CatBoost)

  • 김준오;박정수
    • 한국물환경학회지
    • /
    • 제39권1호
    • /
    • pp.1-8
    • /
    • 2023
  • Monitoring and prediction of water quality are essential for effective river pollution prevention and water quality management. In this study, a multi-classification model was developed to predict chlorophyll-a (Chl-a) level in rivers. A model was developed using CatBoost, a novel ensemble machine learning algorithm. The model was developed using hourly field monitoring data collected from January 1 to December 31, 2015. For model development, chl-a was classified into class 1 (Chl-a≤10 ㎍/L), class 2 (10<Chl-a≤50 ㎍/L), and class 3 (Chl-a>50 ㎍/L), where the number of data used for the model training were 27,192, 11,031, and 511, respectively. The macro averages of precision, recall, and F1-score for the three classes were 0.58, 0.58, and 0.58, respectively, while the weighted averages were 0.89, 0.90, and 0.89, for precision, recall, and F1-score, respectively. The model showed relatively poor performance for class 3 where the number of observations was much smaller compared to the other two classes. The imbalance of data distribution among the three classes was resolved by using the synthetic minority over-sampling technique (SMOTE) algorithm, where the number of data used for model training was evenly distributed as 26,868 for each class. The model performance was improved with the macro averages of precision, rcall, and F1-score of the three classes as 0.58, 0.70, and 0.59, respectively, while the weighted averages were 0.88, 0.84, and 0.86 after SMOTE application.