• 제목/요약/키워드: 트리기반 머신러닝 모델

검색결과 25건 처리시간 0.027초

머신러닝을 활용한 브랜드별 국내 중고차 가격 예측 모델에 관한 연구 (A Study on the Prediction Models of Used Car Prices for Domestic Brands Using Machine Learning)

  • 임승준;이정호;류춘호
    • 서비스연구
    • /
    • 제13권3호
    • /
    • pp.105-126
    • /
    • 2023
  • 국내 중고차 시장은 지속적으로 성장하고 있으며, 이와 동시에 중고차 온라인 플랫폼 서비스 역시 함께 매년 시장 점유율을 확대하고 있다. 중고차 온라인 플랫폼 서비스는 차량의 제원, 점검 이력, 사고 내역, 그리고 세부 옵션 등을 서비스 이용자에게 제공하고 있다. 대부분의 기존 연구는 차량의 제원과 차량의 일부 옵션을 활용한 중고차 가격의 예측이었으며, 중고차 가격과 일부 제원 변수 간 비선형 관계임을 확인하였다. 이에 따라 연구자들은 이러한 비선형 문제를 해결하기 위해 머신러닝(Machine Learning) 모델의 실행을 제안하였으며, 그 결과 회귀(Regression) 기반 머신러닝 모델은 변수의 실질적인 영향력과 방향성을 알 수 있는 장점이 존재하였으나, 트리(Decision Tree) 기반 머신러닝 모델에 비해 비용함수 수치가 저조한 단점이 존재하였다. 본 연구는 국내 브랜드를 대상으로 차량의 제원과 차량의 옵션, 총 70여 개의 변수를 모두 활용하여 회귀 기반 머신러닝 모델과 트리 기반 머신러닝 모델을 순차적으로 실행하여 두 유형의 머신러닝 모델의 장점을 취합하고자 하였다. 이를 통해 브랜드별 변수의 실질적 영향력과 방향성을 확인한 후 브랜드별 가장 우수한 트리 기반 머신러닝 모델을 선정하였다. 본 연구의 시사점은 다음과 같다. 중고차 온라인 플랫폼 서비스를 이용하는 구매자와 판매자가 전반적인 중고차 가격 예측을 지원할 수 있다. 이에 따라 중고차 온라인 플랫폼 서비스 이용자 간 정보의 비대칭으로 인한 문제 해결 역시 지원이 가능할 것으로 기대한다.

머신러닝 기법을 활용한 낙동강 하구 염분농도 예측 (Nakdong River Estuary Salinity Prediction Using Machine Learning Methods)

  • 이호준;조민규;천세진;한정규
    • 스마트미디어저널
    • /
    • 제11권2호
    • /
    • pp.31-38
    • /
    • 2022
  • 하천의 염분 변화를 신속히 예측하는 것은 염분 침투로 인한 농업, 생태계의 피해를 예측하고 재해 방지 대책을 수립하기 위해서 중요한 작업이다. 머신러닝 기법은 물리 기반 수리 모델에 비해 계산량이 훨씬 적기 때문에, 비교적 짧은 시간에 염분농도를 예측 가능하여 물리 기반 수리 모델의 보완 기법으로 연구되고 있다. 해외에서는 머신러닝 기법 기반 염분 예측 연구들이 활발히 연구되고 있으나, 대한민국의 공공데이터에 머신러닝 기법을 적용한 연구는 충분치 않다. 낙동강 하구의 환경 정보에 관한 공공데이터와 함께, 본 연구는 여러 종류의 머신러닝 기법의 염분농도에 대한 예측 성능을 측정하였다. 실험 결과에서, 결정 트리 기반의 LightGBM 알고리즘은 평균 RMSE 0.37의 예측 정확도와 타 알고리즘 대비 2-20배 빠른 학습 속도를 보여주었다. 따라서 국내 하천의 염분농도 예측에도 머신러닝 기법을 적용할 수 있다고 판단된다.

머신러닝 기반 생애주기별 고혈압 위험 요인 분석 (Analysis of Hypertension Risk Factors by Life Cycle Based on Machine Learning)

  • 강성안;김소희;류민호
    • 한국산업정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.73-82
    • /
    • 2022
  • 고혈압과 같은 만성질환은 발병의 원인은 다양한 요인들이 복합적으로 작용하기 때문에 생애주기에 따라 차별화된 관리가 필요하다. 본 연구는 머신러닝을 이용해 고혈압 발병에 영향을 미치는 요인들의 생애주기별로 차이를 분석한다. 이를 위해, 질병관리청의 국민건강영양조사 데이터에 대한 전처리 및 변수 선택 과정을 거쳐 총 35개의 변수를 활용했다. 분석결과, 트리기반 머신러닝 모델 중 XGBoost가 중년과 노년 모두 예측 성능이 높은 모델로 나타났다. 변수중요도를 통해 도출된 생애주기별 고혈압 위험요인을 살펴보면 중년의 경우 개인특성 요인, 유전적 요인, 영양섭취 요인이 고혈압 위험요인으로 나타났고, 노년의 경우 영양섭취 요인, 식생활 요인, 생활습관 요인이 고혈압 위험요인으로 도출되었다. 본 연구 결과는 생애주기별 고혈압 관리에 유용한 기초자료로 사용될 수 있을 것으로 기대된다.

댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구 (Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction)

  • 조영식;정관수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF

머신러닝 기법을 이용한 유량 자료 생산 방법 (Estimation of River Flow Data Using Machine Learning)

  • 강노을;이지훈;이정훈;이충대
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.261-261
    • /
    • 2020
  • 물관리의 기본이 되는 연속적인 유량 자료 확보를 위해서는 정확도 높은 수위-유량 관계 곡선식 개발이 필수적이다. 수위-유량 관계곡선식은 모든 수문시설 설계의 기초가 되며 홍수, 가뭄 등 물재해 대응을 위해서도 중요한 의미를 가지고 있다. 그러나 일반적으로 유량 측정은 많은 비용과 시간이 들고, 식생성장, 단면변화 등의 통제특성(control)이 변함에 따라 구간분리, 기간분리와 같은 비선형적인 양상이 나타나 자료 해석에 어려움이 존재한다. 특히, 국내 하천의 경우 자연적 및 인위적인 환경 변화가 다양하여 지점 및 기간에 따라 세밀한 분석이 요구된다. 머신러닝(Machine Learning)이란 데이터를 통해 컴퓨터가 스스로 학습하여 모델을 구축하고 성능을 향상시키는 일련의 과정을 뜻한다. 기존의 수위-유량 관계곡선식은 개발자의 판단에 의해 데이터의 종류와 기간 등을 설정하여 회귀식의 파라미터를 산출한다면, 머신러닝은 유효한 전체 데이터를 이용해 스스로 학습하여 자료 간 상관성을 찾아내 모델을 구축하고 성능을 지속적으로 향상 시킬 수 있다. 머신러닝은 충분한 수문자료가 확보되었다는 전제 하에 복잡하고 가변적인 수자원 환경을 반영하여 유량 추정의 정확도를 지속적으로 향상시킬 수 있다는 이점을 가지고 있다. 본 연구는 머신러닝의 대표적인 알고리즘들을 활용하여 유량을 추정하는 모델을 구축하고 성능을 비교·분석하였다. 대상지역은 안정적인 수량을 확보하고 있는 한강수계의 거운교 지점이며, 사용자료는 2010~2018년의 시간, 수위, 유량, 수면폭 등 이다. 프로그램은 파이썬을 기반으로 한 머신러닝 라이브러리인 사이킷런(sklearn)을 사용하였고 알고리즘은 랜덤포레스트 회귀, 의사결정트리, KNN(K-Nearest Neighbor), rgboost을 적용하였다. 학습(train) 데이터는 입력자료 종류별로 조합하여 6개의 세트로 구분하여 모델을 구축하였고, 이를 적용해 검증(test) 데이터를 RMSE(Roog Mean Square Error)로 평가하였다. 그 결과 모델 및 입력 자료의 조합에 따라 3.67~171.46로 다소 넓은 범위의 값이 도출되었다. 그 중 가장 우수한 유형은 수위, 연도, 수면폭 3개의 입력자료를 조합하여 랜덤포레스트 회귀 모델에 적용한 경우이다. 비교를 위해 동일한 검증 데이터를 한국수문조사연보(2018년) 내거운교 지점의 수위별 수위-유량 곡선식을 이용해 유량을 추정한 결과 RMSE가 3.76이 산출되어, 머신러닝이 세분화된 수위-유량 곡선식과 비슷한 수준까지 성능을 내는 것으로 확인되었다. 본 연구는 양질의 유량자료 생산을 위해 기 구축된 수문자료를 기반으로 머신러닝 기법의 적용 가능성을 검토한 기초 연구로써, 국내 효율적인 수문자료 측정 및 수위-유량 곡선 산출에 도움이 될 수 있을 것으로 판단된다. 향후 수자원 환경 및 통제특성에 영향을 미치는 다양한 영향변수를 파악하기 위해 기상자료, 취수량 등의 입력 자료를 적용할 필요가 있으며, 머신러닝 내 비지도학습인 딥러닝과 같은 보다 정교한 모델에 대한 추가적인 연구도 수행되어야 할 것이다.

  • PDF

VAE(Variational AutoEncoder) 기반 머신러닝 모델을 활용한 체중 라이프로그 이상탐지에 관한 연구 (Study on Lifelog Anomaly Detection using VAE-based Machine Learning Model)

  • 김지용;박민서
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.91-98
    • /
    • 2022
  • 웨어러블 기기를 통해 지속적으로 수집되는 라이프로그 데이터는 많은 이상값을 포함할 수 있으므로 데이터품질을 향상시키기 위해서는 이상값을 찾아 제거하는 것이 필요하다. 일반적으로 이상치의 개수가 정상 데이터의 개수보다 적기 때문에 클래스 불균형 문제가 발생한다. 이러한 불균형 문제를 해결하기 위해 Variational AutoEncoder를 outlier에 적용하는 방법을 제안한다. 제안된 방법으로 이상치 데이터를 전처리한 후, 다수의 머신러닝 모델(분류)을 통해 검증한다. 체중 데이터를 이용한 검증 결과, 모든 분류 모델에서 성능이 향상됨을 확인하였다. 실험 결과를 바탕으로 라이프로그 체중 데이터 분석 시 본 연구에서 제안한 이상치 처리 방법을 이용하여 데이터를 전처리한 후 성능이 가장 좋은 LightGBM 모델을 적용할 것을 제안한다.

커터수명지수 예측을 위한 다중선형회귀분석과 트리 기반 머신러닝 기법 적용 (Application of Multiple Linear Regression Analysis and Tree-Based Machine Learning Techniques for Cutter Life Index(CLI) Prediction)

  • 홍주표;고태영
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.594-609
    • /
    • 2023
  • TBM 공법은 굴착면 안정성 확보 및 주변환경에 비치는 영향을 최소화하기 때문에 도심지나 하·해저터널 등에서 적용 사례가 증가하는 추세이다. 디스크 커터의 수명을 예측하는 대표적인 모델 중 NTNU모델은 커터수명지수(Cutter Life Index, CLI)를 주요 매개 변수로 활용하지만 복잡한 시험절차와 시험장비의 희귀성으로 측정에 어려움이 있다. 본 연구에서는 다중선형회귀분석과 트리 기반의 머신러닝 기법으로 암석물성을 활용하여 CLI를 예측하였다. 문헌 조사를 통해 암석의 일축압축강도, 압열인장강도, 등 가석영함량과 세르샤 마모지수 등을 포함한 데이터베이스를 구축하였고 파생변수를 계산하여 추가하였다. 다중선형회귀분석은 통계적 유의성과 다중공선성을 고려하여 입력 변수를 선정하였고 머신러닝 예측 모델은 변수 중요도를 기반으로 입력 변수를 선정하였다. 학습용과 검증용 데이터를 8:2로 나누어 모델 간 예측 성능을 비교한 결과 XGBoost가 최적의 모델로 선정되었다. 본 연구에서 도출된 다중선형회귀모델과 XGBoost모델을 선행 연구와 예측 성능을 비교하여 타당성을 확인하였다.

머신러닝 기반 고객 재구매 상품 예측 (Prediction of Products Purchase Again Using Machine Learning.)

  • 남기백;박상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.421-423
    • /
    • 2017
  • 본 연구의 목적은 머신러닝 기법을 활용하여 e-commerce 시장에서 고객의 구매패턴을 파악하여 고객이 필요로 하는 상품 추천 모델을 만들고 이를 검증한다. 일반적으로 e-commerce 시장은 무분별한 정보의 제공으로 고객은 자신이 원하는 상품을 찾아 헤매야 하고 이는 기업들의 고객유지를 저해하여 기업 손실로 이어진다. 따라서 본 논문에서는 결정트리(Decision Tree)에 boosting 기법을 활용하여 고객의 주문내역과 상품정보 등을 분석하여 특징을 추출한 후 사용자에게 상품을 추천하는 모델을 만들어 검증한다. 그 결과 f1 score가 0.3792를 나타내었고 이는 고객이 다음에 구매하려는 목록의 30% 이상을 예측하는 결과이며 이는 기업이 고객에게 필요한 상품정보를 제공해주는 서비스임을 확인할 수 있었다.

머신러닝을 이용한 교통사고 사상자 수 예측:서울시 공공데이터를 대상으로 (Prediction Of Traffic Accident Casualties Using Machine Learning: For Seoul Public Data)

  • 남명우;박두서;장영준;이홍철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.27-30
    • /
    • 2021
  • 경제 성장과 함께 자동차의 수요가 늘어남에 따라 교통사고 발생 빈도는 꾸준히 증가하고 있다. 이에, 본 연구에서는 교통사고를 야기하는 도로 및 기상환경과 같은 조건을 활용하여 기계학습 모델을 통해 서울시 교통사고 사상자 수를 예측하는 모형을 찾고자 한다. 활용한 데이터는 도로교통 공단에서 제공하는 교통사고 사상자 수 정보를 포함하는 데이터로 2015년부터 2018년도까지 데이터를 학습에 사용하였고 2019년도 데이터를 테스트 평가에 사용하였다. 실증연구를 통해 트리 기반의 모델 별 성능을 비교하였으며 본 연구에 대한 결과는 사고 발생 시 우선순위에 의한 구조활동이 가능하게 함과 도로상황 및 기상을 고려한 안전운전 가이드 지식으로 활용될 수 있다.

  • PDF

폐경 여성에서 트리기반 머신러닝 모델로부터 골다공증 예측 (Predictive of Osteoporosis by Tree-based Machine Learning Model in Post-menopause Woman)

  • 이인자;이준호
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제43권6호
    • /
    • pp.495-502
    • /
    • 2020
  • In this study, the prevalence of osteoporosis was predicted based on 10 independent variables such as age, weight, and alcohol consumption and 4 tree-based machine-learning models, and the performance of each model was compared. Also the model with the highest performance was used to check the performance by clearing the independent variable, and Area Under Curve(ACU) was utilized to evaluate the performance of the model. The ACU for each model was Decision tree 0.663, Random forest 0.704, GBM 0.702, and XGBoost 0.710 and the importance of the variable was shown in the order of age, weight, and family history. As a result of using XGBoost, the highest performance model and clearing independent variables, the ACU shows the best performance of 0.750 with 7 independent variables. This data suggests that this method be applied to predict osteoporosis, but also other various diseases. In addition, it is expected to be used as basic data for big data research in the health care field.