• 제목/요약/키워드: 머신러닝 앙상블

검색결과 71건 처리시간 0.024초

기계학습을 활용한 주택매도 결정요인 분석 및 예측모델 구축 (Using Mechanical Learning Analysis of Determinants of Housing Sales and Establishment of Forecasting Model)

  • 김은미;김상봉;조은서
    • 지적과 국토정보
    • /
    • 제50권1호
    • /
    • pp.181-200
    • /
    • 2020
  • 본 연구는 OLS모형을 적용하여 주택보유기간에 영향을 미치는 결정요인을 추정한 후 SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost, LightGBM을 통해 각 모형별 예측력을 비교하였다. 예측력이 가장 높은 모델을 기반모델 삼아 앙상블 모형 중 하나인 Stacking모형을 적용하여 더욱 예측력이 높은 모형을 구축하여 주택시장의 주택거래량을 파악할 수 있다는 점에 선행 연구와의 차이가 있다. OLS분석 결과 매도이익, 주택가격, 가구원 수, 거주주택형태(단독주택, 아파트)이 주택보유기간에 영향을 미치는 것으로 나타났으며, RMSE를 기준삼아 각 머신러닝 모형과 예측력 비교한 결과 머신러닝 모델의 예측력이 더 높은 것으로 나타났다. 이후, 영향을 미치는 변수로 데이터를 재구축한 후 각 머신러닝을 적용하여 예측력을 비교하였으며, 분석 결과 Random Forest의 예측력이 가장 우수한 것으로 나타났다. 또한 예측력이 가장 높은 Random Forest, Decision Tree, Gradient Boosting, XGBoost모형을 개별모형으로 적용하고, Linear, Ridge, Lasso모형을 메타모델로 하여 Stacking 모형을 구축하였다. 분석 결과, Ridge모형일 때 RMSE값이 0.5181으로 가장 낮게 나타나 예측력이 가장 높은 모델을 구축하였다.

쉴드 TBM 데이터와 머신러닝 분류 알고리즘을 이용한 암반 분류 예측에 관한 연구 (A Study on the Prediction of Rock Classification Using Shield TBM Data and Machine Learning Classification Algorithms)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제31권6호
    • /
    • pp.494-507
    • /
    • 2021
  • TBM의 활용이 증가하면서 최근 국내에서도 머신러닝 기법으로 TBM 데이터를 분석하여 TBM 전방의 지반을 예측하고 디스크커터의 교환주기 예측 및 굴진율을 예측하는 연구가 수행되고 있다. 본 연구에서는 TBM 굴진 시 기계 데이터를 대상으로 전통적 암반에 대한 분류 기법과 최근에 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들을 접목하여 슬러리 쉴드 TBM 현장의 암반 특성에 대한 분류 예측을 하였다. 암반 특성 분류 기준 항목을 RQD, 일축압축강도, 탄성파속도로 설정하고 항목별 암반상태를 클래스 0(양호),1(보통),2(불량)의 3개 클래스로 구분한 다음, 6개의 분류 알고리즘에 대한 기계학습을 수행하였다. 그 결과, 앙상블 계열의 모델이 좋은 성능을 보여주었고 특히 학습성능과 더불어 학습속도에서 우수한 결과를 보인 LigthtGBM 모델이 대상 현장 지반에서 최적인 것으로 나타났다. 본 연구에서 설정한 3가지 암반 특성에 대한 분류 모델을 활용하면 지반정보가 제공되지 않은 구간에 대한 암반 상태를 제공할 수 있어 굴착작업 시 도움을 줄 수 있을 것으로 판단된다.

Transfer Learning based DNN-SVM Hybrid Model for Breast Cancer Classification

  • Gui Rae Jo;Beomsu Baek;Young Soon Kim;Dong Hoon Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.1-11
    • /
    • 2023
  • 유방암은 전 세계적으로 여성들 대다수에게 가장 두려워하는 질환이다. 오늘날 데이터의 증가와 컴퓨팅 기술의 향상으로 머신러닝(machine learning)의 효율성이 증대되어 암 검출 및 진단 등에 중요한 역할을 하고 있다. 딥러닝(deep learning)은 인공신경망(artificial neural network, ANN)을 기반으로 하는 머신러닝 기술의 한 분야로 최근 여러 분야에서 성능이 급속도로 개선되어 활용 범위가 확대되고 있다. 본 연구에서는 유방암 분류를 위해 전이학습(transfer learning) 기반 DNN(Deep Neural Network)과 SVM(support vector machine)의 구조를 결합한 DNN-SVM Hybrid 모형을 제안한다. 전이학습 기반 제안된 모형은 적은 학습 데이터에도 효과적이고, 학습 속도도 빠르며, 단일모형, 즉 DNN과 SVM이 가지는 장점을 모두 활용 가능토록 결합함으로써 모형 성능이 개선되었다. 제안된 DNN-SVM Hybrid 모형의 성능평가를 위해 UCI 머신러닝 저장소에서 제공하는 WOBC와 WDBC 유방암 자료를 가지고 성능실험 결과, 제안된 모형은 여러 가지 성능 척도 면에서 단일모형인 로지스틱회귀 모형, DNN, SVM 그리고 앙상블 모형인 랜덤 포레스트보다 우수함을 보였다.

리튬이온 배터리 수명추정을 위한 용량예측 머신러닝 모델의 성능 비교 (Comparison of the Machine Learning Models Predicting Lithium-ion Battery Capacity for Remaining Useful Life Estimation)

  • 유상우;신용범;신동일
    • 한국가스학회지
    • /
    • 제24권6호
    • /
    • pp.91-97
    • /
    • 2020
  • 리튬이온 배터리(LIB)는 다른 배터리에 비해 수명이 길고, 에너지 밀도가 높으며, 자체 방전율이 낮아, 에너지 저장장치(ESS)로 선호되고 있다. 하지만, 2017~2019년 기간 동안 국내에서만도 28건의 화재사고가 발생하였으며, LIB의 운영 중 안전성 및 신뢰성을 보장하기 위해 LIB의 정확한 용량추정은 필수요소이다. 본 연구에서는 LIB의 충방전 cycle에 따른 용량변화를 예측하는 기계학습 기반 모델의 설계에 있어 중요한 요소인 최적 머신러닝 모델의 선정을 위해, Decision Tree, 앙상블학습법, Support Vector Regression, Gaussian Process Regression (GPR) 각각을 이용한 예측모델을 구현하고 성능비교를 실시하였다. 학습을 위해 NASA에서 제공하는 시험데이터를 사용하였으며, GPR이 가장 좋은 예측성능을 보였다. 이를 바탕으로 추가 시험데이터 학습을 통해 개선된 LIB 용량예측과 잔여 수명추정 모델을 개발하여, 운영 중 이상 감지 및 모니터링 성능을 높여, 보다 안전하고 안정된 ESS 운용에 활용하고자 한다.

머신러닝을 활용한 선발 투수 교체시기에 관한 연구 (A Study on the Timing of Starting Pitcher Replacement Using Machine Learning)

  • 노성진;노미진;한무명초;엄선현;김양석
    • 스마트미디어저널
    • /
    • 제11권2호
    • /
    • pp.9-17
    • /
    • 2022
  • 본 연구는 야구 경기에서 선발 투수를 위기 상황 이전에 교체하기 위한 의사결정을 지원하는 예측 모델 구현을 목적으로 한다. 이를 위해 베이스볼 서번트(Baseball Savant)에서 제공하는 메이저리그 스탯캐스트 데이터를 활용하여, 선발 투수를 위기 상황 이전에 선제적으로 교체하는 예측 모델을 구현한다. 이를 위해 첫째, 데이터 탐색을 통해 선발 투수가 경기에서 직면하는 위기 상황을 도출하였다. 둘째, 선발 투수가 이닝 종료 전에 교체된 경우, 이전 이닝에서 교체하는 것으로 레이블을 구성하여 학습을 진행하였다. 학습된 모델을 비교한 결과 앙상블 기법을 기반으로 한 모델이 F1-Score가 65%로 가장 높은 예측 성능을 보였다. 본 연구의 실무적 의의는 제안하는 모델을 통해 선발 투수를 위기 상황 이전에 교체하여 팀의 승리 확률을 높이는 데 기여할 수 있으며, 경기 중 감독은 데이터 기반의 전략적 의사결정 지원을 받을 수 있을 것이다.

스마트관광 시대의 관광숙박업 영업 예측 모형: 코로나19 팬더믹을 중심으로 (Predictive Models for the Tourism and Accommodation Industry in the Era of Smart Tourism: Focusing on the COVID-19 Pandemic)

  • 조유진;김차미;손승연;노미진
    • 스마트미디어저널
    • /
    • 제12권8호
    • /
    • pp.18-25
    • /
    • 2023
  • 2020년 발생한 코로나19는 전세계적으로 지속적인 피해를 미쳤으며, 특히 하늘길 봉쇄 및 외출 자제로 인해 스마트 관광산업은 경제적 직격탄을 맞았다. 해외여행과 국내여행이 크게 감소된 상황에서 계속되는 적자로 인해 휴업과 폐업을 하는 관광호텔들이 늘어나고 있는 상황이다. 따라서 본 연구에서는 행정안전부의 인허가 데이터를 수집한 후 시각화하여 관광숙박업의 운영 현황을 파악하였다. 머신러닝 분류 알고리즘을 적용하여 관광호텔의 생존 예측 모델을 구현하였고 앙상블 알고리즘을 활용하여 예측 모델의 성능을 최적화하였으며 5-Fold 교차검증으로 모델의 성능을 평가하였다. 관광호텔의 생존율이 다소 감소할 것으로 예측되었으나 실제 생존율을 코로나19 이전과 큰 차이를 보이지 않는 것으로 분석되었다. 본 논문의 호텔업 영업 상태 예측을 통해 관광숙박업 전체의 운영 가능성 및 발전 동향을 파악할 수 있는 근거로 활용할 수 있다.

TBM 데이터와 머신러닝 기법을 이용한 디스크 커터마모 예측에 관한 연구 (A Study on the Prediction of Disc Cutter Wear Using TBM Data and Machine Learning Algorithm)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제32권6호
    • /
    • pp.502-517
    • /
    • 2022
  • TBM의 활용이 증가하면서 최근 국내외에서 머신러닝 기법으로 TBM 데이터를 분석하여 디스크커터의 교환주기 예측 및 굴진율을 예측하는 연구가 증가하고 있다. 본 연구에서는 굴진 시 획득되는 기계 데이터와 지반 데이터를 기반으로 최근에 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 회귀 모델을 접목하여 슬러리 쉴드 TBM 현장의 디스크 커터 마모 예측을 하였다. 디스크 커터 마모 예측을 위해서 Training과 Test 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 그 결과, 앙상블 계열의 그레디언트 부스팅 모델이 결정계수가 0.852, 평균 제곱근 오차가 3.111로 좋은 성능을 보여주었고 특히 학습성능과 더불어 학습속도에서 우수한 결과를 보여주었다. 현재 도출된 결과로 볼 때, 슬러리 쉴드 TBM의 기계데이터와 지반정보가 포함된 데이터를 활용한 디스크 커터 마모 예측 모델의 적합성은 높다고 보인다. 추가적으로 지반조건의 다양성과 디스크 마모 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.

효율적 수입식품 검사를 위한 머신러닝 기반 부적합 건강기능식품 탐지 방법 (A Method of Machine Learning-based Defective Health Functional Food Detection System for Efficient Inspection of Imported Food)

  • 이경수;박예린;신윤종;손권상;권오병
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.139-159
    • /
    • 2022
  • 코로나19 이후 건강기능식품의 관심이 높아짐에 따라 수입 식품 안전성 검사의 중요성도 더욱 커지고 있다. 그러나 매년 증가하는 건강기능식품 수입량과 반대로 식품 검사에 필요한 예산과 인력은 한계점에 다다르고 있다. 따라서 본 연구의 목적은 수출입 식품 중 건강기능식품을 대상으로 데이터의 특성을 살펴보고, 판별의 정확성과 결과의 설명 가능성을 고려하여 효율적으로 부적합 식품을 탐지할 수 있는 기계학습 모델 기반 자동화 시스템 설계 방안을 제시하는 것이다. 이를 위해 첫째, 부적합 판정에 영향을 미치는 식품 검사 데이터로부터 부적합 판정에 유의한 파생변수를 생성하며, 둘째, 건강기능식품 수출입 검사 데이터에 대한 탐색적 분석을 통해 클래스 불균형과 비선형성 등을 고려하여 영향변수를 선정하며, 셋째, 다양한 머신러닝 기법을 적용하여 모델 별 성능과 해석가능성에 대해 비교를 수행하고자 한다. 성능 분석 결과, 앙상블 모델이 가장 우수하였으며, 본 연구에서 제안하는 파생변수 및 모델이 수출입 식품 검사에서 활용하고 있는 시스템에 도움이 될 수 있음을 확인하였다.

통합적인 인공 신경망 모델을 이용한 발틱운임지수 예측 (Predicting the Baltic Dry Bulk Freight Index Using an Ensemble Neural Network Model)

  • 소막
    • 무역학회지
    • /
    • 제48권2호
    • /
    • pp.27-43
    • /
    • 2023
  • 해양 산업은 글로벌 경제 성장에 매우 중요한 역할을 하고 있다. 특히 벌크운임지수인 BDI는 글로벌 상품 가격과 매우 밀접한 상관 관계를 지니고 있기 때문에 BDI 예측 연구의 중요성이 증가하고 있다. 본연구에서는 글로벌 시장 상황 불안정성으로 인한 정확한 BDI 예측 어려움을 해결하고자 머신러닝 전략을 도입하였다. CNN과 LSTM의 이점을 결합한 예측 모델을 설정하였고, 모델 적합도를 위해 27년간의 일일 BDI 데이터를 수집하였다. 연구 결과, CNN을 통해 추출된 BDI 특징을 기반으로 LSTM이 BDI를 R2 값 94.7%로 정확하게 예측할 수 있었다. 본 연구는 해운 경제지표 연구 분야에서 새로운 머신 러닝 통합 접근법을 적용했을 뿐만 아니라 해운 관련기관과 금융 투자 분야의 위험 관리 의사결정에 대한 시사점을 제공한다는 점에서 그 의의가 있다.

산업제어시스템의 이상 탐지 성능 개선을 위한 데이터 보정 방안 연구 (Research on Data Tuning Methods to Improve the Anomaly Detection Performance of Industrial Control Systems)

  • 전상수;이경호
    • 정보보호학회논문지
    • /
    • 제32권4호
    • /
    • pp.691-708
    • /
    • 2022
  • 머신러닝과 딥러닝의 기술이 보편화되면서 산업제어시스템의 이상(비정상) 탐지 연구에도 적용이 되기 시작하였다. 국내에서는 산업제어시스템의 이상 탐지를 위한 인공지능 연구를 활성화시키기 위하여 HAI 데이터셋을 개발하여 공개하였고, 산업제어시스템 보안위협 탐지 AI 경진대회를 시행하고 있다. 이상 탐지 연구들은 대개 기존의 딥러닝 학습 알고리즘을 변형하거나 다른 알고리즘과 함께 적용하는 앙상블 학습 모델의 방법을 통해 향상된 성능의 학습 모델을 만드는 연구가 대부분 이었다. 본 연구에서는 학습 모델과 데이터 전처리(pre-processing)의 개선을 통한 방법이 아니라, 비정상 데이터를 탐지하여 라벨링 한 결과를 보정하는 후처리(post-processing) 방법으로 이상 탐지의 성능을 개선시키는 연구를 진행하였고, 그 결과 기존 모델의 이상 탐지 성능 대비 약 10%이상의 향상된 결과를 확인하였다.