• 제목/요약/키워드: 머신러닝 앙상블

검색결과 71건 처리시간 0.037초

머신러닝 스태킹 앙상블을 이용한 자율주행 자동차 RADAR 성능 향상 (Enhancing Autonomous Vehicle RADAR Performance Prediction Model Using Stacking Ensemble)

  • 장시연;최혜림;오윤주
    • 인터넷정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.21-28
    • /
    • 2024
  • 레이다는 자율주행 차에 있어 필수적인 센서 부품으로, 레이다가 활용되는 시장은 점차 커지고 있으며 제품 종류도 다양해지고 있다. 본 연구에서는 평가 공정에서부터 레이다의 불량 여부를 예측해 자율주행의 안정성과 효율성을 높일 수 있도록 성능 예측 모델을 구축하고 평가하였다. 레이더 공정 과정의 39607개 입력 데이터로 모델을 학습하였으며, 결과적으로 17개 모델을 스태킹 앙상블했을 때 Meta Ridge 모델이 가장 높은 학습률을 나타내는 것을 확인하였다. 이러한 연구 결과가 제품의 불량을 공정 단계에서 우선 예측해 수율을 극대화하고 불량으로 인한 제품 폐기 비용을 감축하는 데 도움이 될 것으로 기대 한다.

앙상블 머신러닝 기법과 블록체인 정보를 활용한 이더리움 엉클 블록 예측 분석 (Predictive Analysis of Ethereum Uncle Block using Ensemble Machine Learning Technique and Blockchain Information)

  • 김한민
    • 디지털융복합연구
    • /
    • 제18권11호
    • /
    • pp.129-136
    • /
    • 2020
  • 블록체인의 장점들은 다양한 분야에서 블록체인의 필요성을 제시한다. 하지만 블록체인에는 몇 가지 단점들이 존재한다. 그 중 엉클블록 문제는 블록체인의 가치와 활용을 크게 저해할 수 있는 문제 중 하나다. 엉클블록 문제로 인해 블록체인의 가치가 저하 될 수 있음에도 불구하고 이전의 연구들은 엉클블록에 대한 연구에 크게 주목하지 않았다. 따라서 본 연구의 목적은 블록체인의 엉클 블록 문제를 예측하고 대비할 수 있도록 엉클블록의 발생을 예측 하고자 한다. 본 연구는 엉클 블록 발생의 정확한 예측을 위해서 새로운 변수와 앙상블 분석 기법 도입의 타당성을 검증한다. 연구 방법으로 엉클블록 문제가 실제로 발생하는 이더리움의 엉클블록을 대상으로 보팅, 배깅, 스태킹 앙상블 분석 기법을 활용하였다. 분석 데이터로는 이더리움과 비트코인 블록체인 정보를 활용하였다. 연구 결과, 이더리움 블록체인 정보만을 활용하여 보팅, 스태킹 앙상블 기법을 적용할 경우 가장 높은 예측 결과가 나타난다는 사실을 발견하였다. 본 연구의 결과는 엉클블록의 발생을 보다 정확하게 예측하여 블록체인의 엉클블록 문제에 대비할 수 있도록 기여한다.

앙상블 Voting 기법을 활용한 배추 가격 예측에 관한 연구 (A Study on the Prediction of Cabbage Price Using Ensemble Voting Techniques)

  • 이창민;송성광;정성욱
    • 융합정보논문지
    • /
    • 제12권3호
    • /
    • pp.1-10
    • /
    • 2022
  • 배추와 같은 채소류는 자연재해의 영향을 많이 받기 때문에 폭우나 병해와 같은 재해로 인해 가격 변동이 심해져 농가 경제에 영향을 미치게 된다. 이러한 문제를 해결하기 위해서 농산물 가격 예측을 위한 다양한 노력이 행해졌지만 극심한 가격 예측 변동을 예측하기는 어렵다. 본 연구에서는 단일 분류기를 결합하여 다양한 여러 개의 분류기를 통해 최종 예측 결과를 결정하는 방식인 앙상블 Voting 기법으로 배추 가격을 분석하였다. 또한 시계 열 분석 방법인 LSTM과 부스팅 기법인 XGBoost와 RandomForest로 결과 비교를 하였다. 가격 데이터는 일별 데이터를 사용하였고 배추 가격에 영향을 주는 기상정보와 물가지수 등을 사용하였다. 연구 결과로는 실제값과 예측값의 차이를 보여주는 RMSE 값이 약 236 수준이다. 이 연구를 활용하여 농산물 가격 예측과 같은 다른 시계 열 분석 연구 모델 선정에 활용할 수 있을 것으로 기대된다.

머신러닝을 이용한 CNC 가공 불량 발생 예측 모델 (Prediction Model of CNC Processing Defects Using Machine Learning)

  • 한용희
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.249-255
    • /
    • 2022
  • 본 연구는 최근 가공 불량 예측 방법으로 주목받고 있는 머신러닝 기반의 모델을 이용하여 CNC 가공 불량 발생의 실시간 예측을 위한 분석 프레임워크를 제안하고, 해당 프레임워크에 기반하여 XGBoost, CatBoost, LightGBM, 랜덤 포레스트, Extra Trees, SVM, k-최근접 이웃, 로지스틱 회귀 모델을 CNC 설비에 기본 내장된 센서들로부터 추출된 데이터에 적용 및 분석하였다. 분석 결과 XGBoost, CatBoost, LightGBM 모델이 동일하게 가장 우수한 정확도, 정밀도, 재현율, F1 점수, AUC 값을 보였으며, 이 중 LightGBM 모델이 소요 실행 시간이 가장 짧은 것으로 나타났다. 이러한 짧은 소요 실행 시간은 실 시스템 구축 비용 절감, 빠른 불량 예측에 따른 CNC 장비 파손 확률 감소, 전체적인 CNC 활용률 증가 등의 실무적 장점을 가지므로 LightGBM 모델이 기본 센서들만 설치된 CNC 설비에 적용 시 가공 불량 예측에 가장 효과적으로 판단된다. 또한 소요 실행 시간 및 컴퓨팅 파워의 제약이 없는 상황에서는 LightGBM, Extra Trees, k-최근접 이웃, 로지스틱 회귀 모형으로 구성된 앙상블 모델을 적용할 경우 분류 성능이 최대화됨을 확인하였다.

앙상블 머신러닝 모형을 이용한 하천 녹조발생 예측모형의 입력변수 특성에 따른 성능 영향 (Effect of input variable characteristics on the performance of an ensemble machine learning model for algal bloom prediction)

  • 강병구;박정수
    • 상하수도학회지
    • /
    • 제35권6호
    • /
    • pp.417-424
    • /
    • 2021
  • Algal bloom is an ongoing issue in the management of freshwater systems for drinking water supply, and the chlorophyll-a concentration is commonly used to represent the status of algal bloom. Thus, the prediction of chlorophyll-a concentration is essential for the proper management of water quality. However, the chlorophyll-a concentration is affected by various water quality and environmental factors, so the prediction of its concentration is not an easy task. In recent years, many advanced machine learning algorithms have increasingly been used for the development of surrogate models to prediction the chlorophyll-a concentration in freshwater systems such as rivers or reservoirs. This study used a light gradient boosting machine(LightGBM), a gradient boosting decision tree algorithm, to develop an ensemble machine learning model to predict chlorophyll-a concentration. The field water quality data observed at Daecheong Lake, obtained from the real-time water information system in Korea, were used for the development of the model. The data include temperature, pH, electric conductivity, dissolved oxygen, total organic carbon, total nitrogen, total phosphorus, and chlorophyll-a. First, a LightGBM model was developed to predict the chlorophyll-a concentration by using the other seven items as independent input variables. Second, the time-lagged values of all the input variables were added as input variables to understand the effect of time lag of input variables on model performance. The time lag (i) ranges from 1 to 50 days. The model performance was evaluated using three indices, root mean squared error-observation standard deviation ration (RSR), Nash-Sutcliffe coefficient of efficiency (NSE) and mean absolute error (MAE). The model showed the best performance by adding a dataset with a one-day time lag (i=1) where RSR, NSE, and MAE were 0.359, 0.871 and 1.510, respectively. The improvement of model performance was observed when a dataset with a time lag up of about 15 days (i=15) was added.

딥러닝 데이터 분석을 통한 최적의 상권 입지 추천 기술 개발 (Commercial location recommend system using deep learning data analysis)

  • 박형빈;김소희;남지수;조윤빈;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.602-605
    • /
    • 2022
  • 본 연구는 대량의 상권 데이터를 바탕으로 머신 러닝과 딥러닝 분석을 이용하여 최적의 상권 입지를 추천하는 시스템 개발을 목표로 한다. 자영업자들의 오프라인 창업에 있어 개개인의 매장 정보에 기반한 입지 조건 판단은 앞으로의 매출에 중요한 시작점이다. 따라서 상권 정보를 기반으로 미래 매출을 예측하여 최적의 상권 입지를 추천하는 기술이 필요하다. 이를 위해 기존에 선행된 다수의 회귀 기법과 더불어 강하게 편향된 데이터를 레이블링 하여 다중 분류 기법으로도 문제를 접근한다. 최종적으로 딥러닝 모델과 합성하여 더 높은 성능을 이끌어내고 이로부터 편향 데이터 처리 방법과 딥러닝 모델과의 앙상블 중요성에 대해 논의하고자 한다.

랜섬웨어 탐지를 위한 머신러닝 기반 암호화 행위 감지 기법 (A Machine Learning-Based Encryption Behavior Cognitive Technique for Ransomware Detection)

  • 황윤철
    • 산업융합연구
    • /
    • 제21권12호
    • /
    • pp.55-62
    • /
    • 2023
  • 최근 등장하는 랜섬웨어들은 다양한 공격 기법과 다양한 경로를 통해 공격을 수행하고 있어 조기 탐지와 방어에 많은 어려움을 겪고 있으며, 그 피해 규모도 날로 증가하고 있다. 따라서 본 논문에서는 효과적인 랜섬웨어 탐지를 위하여 파일 암호화와 암호화 패턴을 머신러닝 기반으로 하는 감지 기법을 제안한다. 파일 암호화는 랜섬웨어가 공격하는데 필수적으로 사용하는 기능으로 암호 행위와 암호화 패턴을 분석함으로써 랜섬웨어를 탐지하고 랜섬웨어의 특정 변종이나 새로운 유형의 랜섬웨어를 탐지할 수 있기 때문에 랜섬웨어 공격을 식별하고 차단하는 데 매우 효과적이다. 제안한 머신러닝 기반의 암호화 행위 감지 기법은 암호화 특성과 암호화 패턴 특성을 추출하여 머신러닝 기반의 분류기를 통해 각각 학습을 시켜 해당 행위에 대한 탐지를 진행하고 최종 결과는 두 분류기의 평가 결과를 기반으로 앙상블 분류기에서 랜섬웨어 유무를 판별하여 좀 더 정확도를 높였다. 또한, 제안한 기법을 numpy와 pandas, 파이썬의 사이킷런 라이브러리를 사용하여 구현하여 평가지표를 사용한 성능를 평가한 결과 평균적으로 94%,의 정확도와 95%의 정밀도, 93%의 재현률과 95%의 F1 스코어가 산출되었다. 성능 평가 결과를 보면 암호화 행위 감지를 통해 랜섬웨어 탐지가 가능하다는 것을 확인할 수 있었고 랜섬웨어의 사전 탐지를 위해 제안한 기법의 성능을 높이기 위한 연구도 계속해서 진행되어야 한다.

머신러닝 기반 기업부도위험 예측모델 검증 및 정책적 제언: 스태킹 앙상블 모델을 통한 개선을 중심으로 (Machine learning-based corporate default risk prediction model verification and policy recommendation: Focusing on improvement through stacking ensemble model)

  • 엄하늘;김재성;최상옥
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.105-129
    • /
    • 2020
  • 본 연구는 부도위험 예측을 위해 K-IFRS가 본격적으로 적용된 2012년부터 2018년까지의 기업데이터를 이용한다. 부도위험의 학습을 위해, 기존의 대부분 선행연구들이 부도발생 여부를 기준으로 사용했던 것과 다르게, 본 연구에서는 머튼 모형을 토대로 각 기업의 시가총액과 주가 변동성을 이용하여 부도위험을 산정했으며, 이를 통해 기존 방법론의 한계로 지적되어오던 부도사건 희소성에 따른 데이터 불균형 문제와 정상기업 내에서 존재하는 부도위험 차이 반영 문제를 해소할 수 있도록 하였다. 또한, 시장의 평가가 반영된 시가총액 및 주가 변동성을 기반으로 부도위험을 도출하되, 부도위험과 매칭될 입력데이터로는 비상장 기업에서 활용될 수 있는 기업 정보만을 활용하여 학습을 수행함으로써, 포스트 팬데믹 시대에서 주가 정보가 존재하지 않는 비상장 기업에게도 시장의 판단을 모사하여 부도위험을 적절하게 도출할 수 있도록 하였다. 기업의 부도위험 정보가 시장에서 매우 광범위하게 활용되고 있고, 부도위험 차이에 대한 민감도가 높다는 점에서 부도위험 산출 시 안정적이고 신뢰성 높은 평가방법론이 요구된다. 최근 머신러닝을 활용하여 기업의 부도위험을 예측하는 연구가 활발하게 이루어지고 있으나, 대부분 단일 모델을 기반으로 예측을 수행한다는 점에서 필연적인 모델 편향 문제가 존재하고, 이는 실무에서 활용하기 어려운 요인으로 작용하고 있다. 이에, 본 연구에서는 다양한 머신러닝 모델을 서브모델로 하는 스태킹 앙상블 기법을 활용하여 개별 모델이 갖는 편향을 경감시킬 수 있도록 하였다. 이를 통해 부도위험과 다양한 기업정보들 간의 복잡한 비선형적 관계들을 포착할 수 있으며, 산출에 소요되는 시간이 적다는 머신러닝 기반 부도위험 예측모델의 장점을 극대화할 수 있다. 본 연구가 기존 머신러닝 기반 모델의 한계를 극복 및 개선함으로써 실무에서의 활용도를 높일 수 있는 자료로 활용되기를 바라며, 머신러닝 기반 부도위험 예측 모형의 도입 기준 정립 및 정책적 활용에도 기여할 수 있기를 희망한다.

앙상블 기법을 활용한 온라인 음식 상품 리뷰 감성 분석 (Sentiment analysis of online food product review using ensemble technique)

  • 김한민;박경보
    • 디지털융복합연구
    • /
    • 제17권4호
    • /
    • pp.115-122
    • /
    • 2019
  • 온라인 마켓에서 소비자는 다양한 상품을 접하고 이에 대한 의견을 자유롭게 기술한다. 소비자의 상품 리뷰가 다른 소비자와 온라인 마켓의 성공에 큰 영향을 주는 만큼 온라인 마켓은 판매 상품에 대한 소비자의 감성을 정확하게 분석할 필요가 있다. 데이터 분석 기법 중 하나인 텍스트 마이닝은 상품에 대한 소비자 리뷰를 분석하여 상품을 효율적으로 관리할 수 있게 해준다. 선행 연구들은 데이터 도메인과 사이즈에 따라 분석 결과의 정확도가 다르게 나타남에도 불구하고 특정 도메인과 2만개 미만의 데이터를 분석해왔다. 또한, 분석의 정확도를 향상 시킬 수 있는 추가 요인에 대한 연구는 거의 수행하지 않았다. 본 연구는 앙상블 기법을 활용하여 기존 연구에서 주로 다루지 않은 음식 상품 도메인의 72,530개 리뷰 데이터를 분석하였다. 또한, 분석 정확도 향상과 관련하여 요약 리뷰의 영향력을 살펴보았다. 연구 결과, 본 연구는 기존 연구와 다르게 부스팅 앙상블 기법이 가장 높은 분석 정확도를 보인다는 사실을 발견하였다. 또한, 요약 리뷰는 분석의 정확도 향상에 기여하는 것으로 나타났다.

도로교통 이머징 리스크 탐지를 위한 AutoML과 CNN 기반 소프트 보팅 앙상블 분류 모델 (AutoML and CNN-based Soft-voting Ensemble Classification Model For Road Traffic Emerging Risk Detection)

  • 전병욱;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권7호
    • /
    • pp.14-20
    • /
    • 2021
  • 겨울철 도로 결빙으로 인한 사고는 대부분 큰 사고로 이어진다. 이는 운전자가 도로의 결빙을 사전에 자각하기 어렵기 때문이다. 본 연구에서는 AutoML과 CNN의 앙상블 모델을 이용하여 도로교통 이머징 리스크를 정확하게 탐지하는 방법을 연구한다. 비정형 데이터인 이미지를 이용한 CNN 이미지 특징 추출 기반 도로교통 이머징 리스크 분류 모델과 정형 데이터인 기상 데이터를 이용한 AutoML 기반 도로교통 이머징 리스크 분류 모델을 각각 학습시킨다. 그 후 모델들에서 도출된 확률값을 입력하여 CNN 기반 분류 모델을 보완하도록 앙상블 모델을 설계한다. 이를 통해 도로교통 이머징 리스크 분류 성능을 향상하고 더 정확하고 빠르게 운전자에게 경고하여 안전한 주행이 가능하도록 한다.