• 제목/요약/키워드: 랜덤 포레스트 모형

검색결과 101건 처리시간 0.03초

기계학습을 활용한 주택매도 결정요인 분석 및 예측모델 구축 (Using Mechanical Learning Analysis of Determinants of Housing Sales and Establishment of Forecasting Model)

  • 김은미;김상봉;조은서
    • 지적과 국토정보
    • /
    • 제50권1호
    • /
    • pp.181-200
    • /
    • 2020
  • 본 연구는 OLS모형을 적용하여 주택보유기간에 영향을 미치는 결정요인을 추정한 후 SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost, LightGBM을 통해 각 모형별 예측력을 비교하였다. 예측력이 가장 높은 모델을 기반모델 삼아 앙상블 모형 중 하나인 Stacking모형을 적용하여 더욱 예측력이 높은 모형을 구축하여 주택시장의 주택거래량을 파악할 수 있다는 점에 선행 연구와의 차이가 있다. OLS분석 결과 매도이익, 주택가격, 가구원 수, 거주주택형태(단독주택, 아파트)이 주택보유기간에 영향을 미치는 것으로 나타났으며, RMSE를 기준삼아 각 머신러닝 모형과 예측력 비교한 결과 머신러닝 모델의 예측력이 더 높은 것으로 나타났다. 이후, 영향을 미치는 변수로 데이터를 재구축한 후 각 머신러닝을 적용하여 예측력을 비교하였으며, 분석 결과 Random Forest의 예측력이 가장 우수한 것으로 나타났다. 또한 예측력이 가장 높은 Random Forest, Decision Tree, Gradient Boosting, XGBoost모형을 개별모형으로 적용하고, Linear, Ridge, Lasso모형을 메타모델로 하여 Stacking 모형을 구축하였다. 분석 결과, Ridge모형일 때 RMSE값이 0.5181으로 가장 낮게 나타나 예측력이 가장 높은 모델을 구축하였다.

통계적 예측모형을 활용한 경륜 경기 순위 분석 (Analysis of cycle racing ranking using statistical prediction models)

  • 박가희;박리라;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.25-39
    • /
    • 2017
  • 최근 경륜은 2015년도 기준, 5백만 명 이상의 많은 사람들이 참여하고 2조를 넘어선 매출을 발생시키는 대중적인 레저스포츠로서 자리 잡고 있다. 본 연구의 목적은 다양한 통계적 분석기법을 사용하여 경륜경기의 순위를 예측하고, 순위에 유의한 영향을 미치는 변수들을 파악하는 데에 있다. 다양한 Classification 방법과 Regression 방법들을 적용하여 순위예측모형을 만들고 비교분석하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면, 등급이 강급될수록, 종합득점이 높을수록 순위가 높아지며 반대로 등급이 승급될수록, 번호 4번을 부여받을수록 그리고 최근성적의 순위가 낮을수록 순위가 낮아지는 것을 알 수 있었다. 또한, 선수의 실력과 관련된 연속형 변수들을 각 경기별로 평균값을 빼서 보정한 자료와 원자료를 사용하여 모형을 적합시킨 결과 모든 모형에서 보정된 자료를 사용하였을 때 더 낮은 오분류율을 보였다. 마지막으로 분석에 사용하지 않은 최근 한 달 경기결과를 예측해서 베팅했을 때 모든 경우에 예측률은 높았지만 큰 이익을 거두지 못했는데 그 이유는 낮은 배당률을 가진 경기의 결과만을 잘 예측했기 때문이다.

Transfer Learning based DNN-SVM Hybrid Model for Breast Cancer Classification

  • Gui Rae Jo;Beomsu Baek;Young Soon Kim;Dong Hoon Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.1-11
    • /
    • 2023
  • 유방암은 전 세계적으로 여성들 대다수에게 가장 두려워하는 질환이다. 오늘날 데이터의 증가와 컴퓨팅 기술의 향상으로 머신러닝(machine learning)의 효율성이 증대되어 암 검출 및 진단 등에 중요한 역할을 하고 있다. 딥러닝(deep learning)은 인공신경망(artificial neural network, ANN)을 기반으로 하는 머신러닝 기술의 한 분야로 최근 여러 분야에서 성능이 급속도로 개선되어 활용 범위가 확대되고 있다. 본 연구에서는 유방암 분류를 위해 전이학습(transfer learning) 기반 DNN(Deep Neural Network)과 SVM(support vector machine)의 구조를 결합한 DNN-SVM Hybrid 모형을 제안한다. 전이학습 기반 제안된 모형은 적은 학습 데이터에도 효과적이고, 학습 속도도 빠르며, 단일모형, 즉 DNN과 SVM이 가지는 장점을 모두 활용 가능토록 결합함으로써 모형 성능이 개선되었다. 제안된 DNN-SVM Hybrid 모형의 성능평가를 위해 UCI 머신러닝 저장소에서 제공하는 WOBC와 WDBC 유방암 자료를 가지고 성능실험 결과, 제안된 모형은 여러 가지 성능 척도 면에서 단일모형인 로지스틱회귀 모형, DNN, SVM 그리고 앙상블 모형인 랜덤 포레스트보다 우수함을 보였다.

기계학습법을 이용한 서리 발생 구분 추정 연구 (Study on the Estimation of Frost Occurrence Classification Using Machine Learning Methods)

  • 김용석;심교문;정명표;최인태
    • 한국농림기상학회지
    • /
    • 제19권3호
    • /
    • pp.86-92
    • /
    • 2017
  • 본 연구에서는 기상청 예보자료를 이용할 것을 전제로 서리가 발생하는 날과 서리가 발생하지 않는 날을 구분하는 모형을 구축하였다. 서리가 발생한 날과 서리가 발생하지 않은 날을 구분할 수 있는 기상인자로서 최저기온, 평균풍속, 평균상대습도, 평균이슬점온도로 나타났다. 기상인자별로 두 날을 비교한 결과 서리가 발생한 날이 서리가 발생하지 않은 날에 비해 최저기온, 이슬점온도, 평균풍속은 낮게 나타났고 상대습도는 높게 나타났다. 이러한 기상인자로 인공신경망, 랜덤포레스트, 서포트벡터 머신의 기계학습법을 이용한 모형을 연구한 결과 70%이상의 정확도를 나타내어 활용 가능성이 있을 것으로 판단된다.

기계학습을 이용한 복숭아 경락가격 및 거래량 예측모형 비교 (The Comparison of Peach Price and Trading Volume Prediction Model Using Machine Learning Technique)

  • 김미혜;홍성민;윤상후
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2933-2940
    • /
    • 2018
  • 과일의 경우 다른 작물보다 날씨의 영향을 많이 받으므로, 농업인의 고부가가치 창출을 위해서는 날씨를 고려한 작물모형개발이 필요하다. 본 연구에서는 과실류 중에서 비교적 제한된 조건에서 생산되는 복숭아를 연구대상으로 선정하였으며, 옥답 4.0에서 제공하는 2015년부터 2017년까지 대구에서 거래된 복숭아자료를 사용하였다. 분석에 사용되는 기상자료는 재배면적에 대한 가중치를 부여하여 생성하였으며, 1일 전부터 7일 전까지 날씨자료 중 상관성이 높은 변수를 사용하였다. 분석 방법으로는 기계학습법에 해당하는 랜덤포레스트와 그래디언트부스팅(gradient boosting machine), XGboost을 사용하였다. 분석결과, XGboost의 성능이 가장 우수하게 나타났으며, 경락가격 예측은 비교적 잘 예측할 수 있었지만, 거래량 예측의 정확성은 그리 높지 않았다. 복숭아 거래량 예측에 영향을 미치는 상위 3개의 기상변수로는 최저온도, 평균최대온도, 강수량으로 나타났다.

자료 과소 유역 유출 모의을 위한 머신러닝 기법 적용 (Application of machine learning technique for runoff prediction in watershed with limited data)

  • 정민혁;범진아;박민경;정지연;윤광식
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.254-254
    • /
    • 2021
  • 기후변화로 인한 자연재해는 해마다 크게 증가하고있으며, 홍수 및 가뭄의 강도와 빈도 증가, 지구온난화로 인한 하천 건천화 등 많은 문제들이 대두되고 있다. 특히, 물 순환과정의 핵심요소로 설명되는 유출량의 변동은 용수 공급과 홍수 대응 및 관리, 하천생태계 유지를 위한 환경에 영향을 미치고 있다. 따라서, 갈수량, 풍수량 등을 산정하여 하천별 유황특성을 결정하는 방법을 사용하고 있으나, 이와같은 지표는 계측자료가 과소한 경우 하천의 유황특성을 세부적으로 이해하고 정량적으로 제시하는데에 한계가있다. 따라서, 미계측 유역에서 Soil and Water Assessment Tool (SWAT)과 같은 수리해석모델이 광범위하게 이용되고있으며, SWAT 모델은 유역의 수치표고모형, 토양 특성, 토지이용 현황, 기상 현황, 유역의 매개변수 등을 반영하여 모델이 구동되고 있다. 하지만, 광범위하게 이용되고 적용성이 입증된 모델임에도 불구하고 입력자료의 불확실성 및 조사되지 않은 영농활동 등으로 인해 결과에 불확실성이 내포되어있으며, 불확실성을 줄이기 위해 실측된 하천의 유량 자료를 이용하여 검정 및 보정작업을 거치고 있다. 모델의 보정 방법으로는 SWAT-CUP과 같은 프로그램 이용되고 있지만, 모델에서 이용되는 매개변수로는 보정할수 있는 범위가 한정적이기 때문에 모델의 정확성을 높이는데에 한계가 있다. 따라서, 본 연구에서는 선암천 유역을 대상으로 모델의 매개변수를 보정하지 않고도 머신러닝 기법을 이용하여 모델의 결과를 향상시켰다. 보정 결과, 유량의 경우 R2가 0.42에서 0.91으로 향상되었으며, 특히 고유량 구간에서의 정확성이 매우 향상되었다. 본 연구에서 평가된 SWAT+머신러닝 결합 모형은 향후 모델 구동에 필요한 입력자료가 부족한 경우와 빠른 검정 및 보정 작업이 필요할 경우 활용될수 있을것으로 판단된다.

  • PDF

기상학적 영향을 고려한 낙동강 하류 녹조 발생특성 연구 (A Study on the Characteristics of Cyanobacteria in the Downstream of Nakdong River Considering the Meteorological Effects)

  • 정우석;김영도;김성은;기서진
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.110-110
    • /
    • 2020
  • 최근 낙동강유역에서는 여름철 폭염 및 가뭄의 영향으로 조류대경보가 발령되고 있으며, 급격한 수질환경적 변화가 이루어지고 있다. 본 연구대상유역인 낙동강에서도 가뭄으로 인해 녹조가 발생하여 조류경보가 발령되었다. 남조류의 대발생은 대량 번성 및 사멸에 따라 수체 내 산소 고갈 및 유기물 증가와 같은 문제를 야기하고 있다. 또한 남조류가 분비하는 독성물질 또한 수생태계와 인체에 유해하다. 그리고 인체에는 무해하다고 밝혀졌지만 수돗물 등에서 흙냄새와 같은 좋지 않은 냄새를 유발하는 냄새물인 지오스민, 2-MIB을 분비하여 정수공급체계의 악영향을 미친다. 본 연구대상 지점인 낙동강은 다기능 보 건설로 인해 하천 수심이 증가하고 유속이 느려지면서 정체성 수역 특성을 나타내고 있다. 이는 호소성 수역 특성을 나타내고 있음과 동시에 녹조발생과 같은 수질환경적 변화가 이루어지고 있다는 것을 의미한다. 본 연구에서 시각화 분석을 통해 낙동강 하류 남조류 발생현황을 분석하였으며, 랜덤포레스트를 이용하여 지점별 남조류 발생 주요 영향인자를 도출하였다. 조류경보제 발생 등급은 발령기준으로 관심, 위험, 대발생으로 구분된다. 학습데이터로 관심단계 기준인 남조류세포수 1,000 cell/mL 보다 작게 측정된 데이터들은 관심미만의 데이터로 Normal 등급으로 구분하였다. 구분된 발생등급을 범주형 변수로 설정하여 학습 데이터를 통해 모형을 구축하고 검증 데이터를 이용하여 모형 정확성을 평가하였다. 본 연구를 통해 조류발생 주요 영향인자를 도출하고 변수별 중요도를 평가를 통해 지점별 녹조 발생특성을 비교 분석하였다.

  • PDF

Learning-to-rank 기법을 활용한 서울 경마경기 순위 예측 (Horse race rank prediction using learning-to-rank approaches)

  • 정준형;신동욱;황세용;박건웅
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.239-253
    • /
    • 2024
  • 본 연구는 learning-to-rank (LTR) 기법 중 point-wise와 pair-wise learning을 적용하여 서울 경마경기 순위 예측을 수행하였다. Point-wise learning으로는 선형 회귀와 랜덤 포레스트를 pair-wise learning으로는 RankNet, LambdaMART (XGBoost Ranker, LightGBM Ranker, CatBoost Ranker)을 활용하였다. 또한 데이터 불균형 문제를 해결하기 위해 전처리 과정에서 경주기록을 경주거리에 따라 표준화하는 방식을 채택하였으며, 모형의 예측 능력 향상을 위해 경기 정보, 기수 정보, 마필 정보, 조교사 정보 등의 다양한 데이터를 사용하였다. 그 결과 아이템 간의 순위관계를 학습할 수 있는 pair-wise learning이 point-wise learning보다 전반적으로 더 뛰어난 예측력을 보이는 것을 확인하였다. 특히 CatBoost Ranker는 제시된 모형들 중 가장 뛰어난 예측 성능을 보였다. 마지막으로 섀플리 값을 통해 CatBoost Ranker에서 경주마의 성적, 직전 경주기록, 경주마의 출발훈련 횟수, 누적 출발훈련 횟수, 질병 진단횟수 등이 상위 10개 중요 변수에 포함된 것을 확인하였다.

머신러닝 기반 고속도로 내 수소충전소 최적입지 선정 연구 (A Study on the Optimal Location Selection for Hydrogen Refueling Stations on a Highway using Machine Learning)

  • 조재혁;김성수
    • 지적과 국토정보
    • /
    • 제51권2호
    • /
    • pp.83-106
    • /
    • 2021
  • 대기오염, 지구온난화 문제 등 환경 문제의 심각성이 대두되면서 청정 연료의 관심이 커지고 있다. 그 중 수소는 기존 화석연료와는 달리 연소 시 부산물로 수분만이 발생하는 대표적인 친환경 에너지원으로 현재 다양한 분야에서 주목을 받고 있다. 물류 분야에서도 수소를 활용한 물류 네트워크를 구축하기 위해 다양한 정책적 노력이 활발히 이루어지고 있다. 이러한 수소 물류 네트워크의 구축에 있어 수소충전소의 입지 결정은 매우 중요한 문제이다. 최근 개발된 수소추진(수소연료전지) 화물차에 수소를 공급하는 충전소는 수소 기반 물류체계가 본격적으로 자리 잡는 데 있어 필수 불가결한 요소이다. 이러한 수소충전소의 최적 입지를 결정하는 선행연구는 대부분 수리적 모형에 기반한 최적화 기법만을 사용하여 수소충전소의 최적 입지를 결정하고자 하였다. 본 연구에서는 기존 연구의 동향과는 차별화하여 최적화 기법의 중요한 투입 변수 중 하나인 충전소 후보지에 대한 공간적 특성을 검토하는 방법으로 머신러닝 모형들을 활용하고 그 적용가능성을 확인하였다. 머신러닝은 다양한 분야에서 우수한 성과를 증명한 기법이지만 수소충전소의 최적 입지를 결정하는 연구 분야에서는 아직 적용된 바가 없다. 이를 위해 본 연구에서는 개별공시지가, 수소공급지와의 거리 등 전국 고속도로 휴게소와 고속도로의 무작위 지점들의 위치와 관련된 변수들을 독립변수로 선정하여 단일 머신러닝 모형과 앙상블 모형을 적용하고 그 성과를 비교하였다. 분석 결과, 랜덤포레스트(Random Forest) 모형이 가장 우수한 성과를 보였으며, 다른 모형들 또한 우수한 분류 성능을 보여 최적 입지 문제에 대해 공간적 특성을 예비적으로 검토하는 방법론으로써 머신러닝의 적용 가능성을 확인할 수 있었다. 따라서 머신러닝 모형은 수소충전소의 최적 입지 결정 분야에서 향후 최적화 기법을 적용한 연구의 예비적 검토 방법론으로 널리 활용할 수 있을 것으로 기대된다.

심박변이도를 이용한 적응적 뉴로 퍼지 감정예측 모형에 관한 연구 (Implementing an Adaptive Neuro-Fuzzy Model for Emotion Prediction Based on Heart Rate Variability(HRV))

  • 박성수;이건창
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.239-247
    • /
    • 2019
  • 감정을 정확히 예측하는 것은 환자중심의 의료디바이스 개발 및 감성관련 산업에서 매우 중요한 이슈이다. 감정예측에 관한 많은 연구 중 감정 예측에 심박 변동성과 뉴로-퍼지 접근법을 적용한 연구는 없다. 본 연구는 HRV를 이용한 ANFEP(Adaptive Neuro Fuzzy system for Emotion Prediction)을 제안한다. ANFEP의 핵심 기능은 인공 신경망과 퍼지시스템을 통합해 예측 모델을 학습하는 ANFIS(Adaptive Neuro-Fuzzy Inference System)에 기반한다. 제안 모형의 검증을 위해 50명의 실험자를 대상으로 청각자극으로 감정을 유발하고, 심박변이도를 구하여 ANFEP 모형에 입력하였다. STDRR과 RMSSD를 입력으로 하고 입력변수 당 2개의 소속함수로 하는 ANFEP모형이 가장 좋은 결과를 나타났다. 제안한 감정예측 모형을 선형회귀 분석, 서포트 벡터 회귀, 인공신경망, 랜덤 포레스트와 비교한 결과 본 제안모형이 가장 우수한 성능을 보였다. 연구 결과는 보다 적은 입력으로 신뢰성 높은 감정인식이 가능함을 입증했고, 이를 활용해 보다 정확하고 신뢰성 높은 감정인식 시스템 개발에 대한 연구가 필요하다.