• 제목/요약/키워드: Ensemble model

검색결과 651건 처리시간 0.032초

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.

GloSea5 장기예측 강수량과 K-DRUM 강우-유출모형을 활용한 물관리 의사결정지원시스템 개발 (Development of decision support system for water resources management using GloSea5 long-term rainfall forecasts and K-DRUM rainfall-runoff model)

  • 송정현;조영현;김일석;이종혁
    • 한국위성정보통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.22-34
    • /
    • 2017
  • K-water의 분포형 강우-유출모형인 K-DRUM(K-water hydrologic & hydraulic Distributed RUnoff Model)은 단기예측 강수자료를 통해 댐의 예측 유출량 및 수위를 산출하는 모형으로, 장기적인 수문기상정보를 획득하기 위해서는 장기예측 강수자료를 입력자료로 사용할 필요가 있다. 본 연구에서는 2014년 국내에 도입된 기상청의 계절예측시스템인 GloSea5(Global Seasonal Forecast System version 5) 예측 강수량 앙상블을 K-DRUM의 입력자료로 사용하는 프로그램을 개발하였으며, 이를 통해 산출된 예측 유출량 앙상블 자료를 기반으로 댐 운영자에게 수문기상정보를 제공하는 웹 기반 확률장기예보 활용 물관리 의사결정지원시스템을 함께 구축하였다. GloSea5의 예측 결과를 입력자료로 사용하기 위하여 대상 댐 유역에 대해 전처리 과정을 수행한 후 편의보정기법을 적용하여 예측 강수 앙상블 자료를 산출하였으며, 이를 K-DRUM에 입력하여 수행하여 예측 유출량을 산출하였다. 이 과정에서 편의보정된 강수량과 강우-유출모형에서 산정된 예측 유출량은 그래프와 테이블로 함께 표출할 수 있도록 하였다. 본 연구의 결과를 통해 시스템의 사용자는 예측 강수량과 유출량을 토대로 댐의 방류량을 조정함으로써 댐 수위 모의 운영을 수행할 수 있게 되어 장기적인 물관리 의사결정에 도움이 될 것으로 기대된다.

기후변화에 따른 우리나라 수문 기상학적 예측의 불확실성 (Uncertainty of Hydro-meteorological Predictions Due to Climate Change in the Republic of Korea)

  • 은코모제피 템바;정상옥
    • 한국수자원학회논문집
    • /
    • 제47권3호
    • /
    • pp.257-267
    • /
    • 2014
  • 기후변화에 따른 기온과 강수량의 변화가 지표수자원에 미치는 영향은 수문기상학 연구에서 매우 중요하다. 본 연구에서는 기후변화가 우리나라 5대강 유역의 유출량에 미치는 영향을 분석하기 위하여 Catchment Modeling Toolkit의 네가지 수문기상 모형을 사용하였다. 세 가지 RCP 시나리오에 대하여 12개 GCM 모형으로부터 미래 2021에서 2040까지(2030s), 2051에서 2070까지 (2060s) 및 2081에서 2099까지(2090s) 기간에 대한 기후자료를 추출하였다. 이들 자료는 LARS-WG 방법으로 상세화 하였으며, 수문기상 모형들은 1999부터 2009까지의 관측 자료를 이용하여 보정 및 검정하였다. 본 연구에서 미래의 유출량은 사분위 범위, 전체범위 및 변동계수 값이 시공간적으로 및 수문기상 모형에 따라서 큰 불확실성을 나타내었다. 종합적으로 볼 때 미래의 유출량은 기준년도에 비하여 RCP2.6, RCP4.5 및 RCP8.5 시나리오에 대하여 10~24%, 7~30% 및 11~30% 증가할 것으로 예상되었다. 본 연구는 수분기상모형과 기후변화 예측의 불확실성을 고려한 미래의 유출량을 모의할 수 있는 방법을 제시하였다.

머신러닝 기법과 TBM 시공정보를 활용한 토압식 쉴드TBM 굴진율 예측 연구 (A Study on Prediction of EPB shield TBM Advance Rate using Machine Learning Technique and TBM Construction Information)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제30권6호
    • /
    • pp.540-550
    • /
    • 2020
  • 최근 AI 기술의 발전과 정립으로 자동화 분야에서 머신러닝 기법의 활용이 활발하게 이루어지고 있다. 머신러닝 기법의 활용에 있어 중요한 점은 데이터 특성에 따라 적합한 알고리즘이 존재한다는 점이며, 머신러닝 기법 적용을 위한 데이터세트의 분석이 필요하다. 본 연구에서는 다양한 머신러닝 기법을 기반으로 하천 하부의 토사지반을 통과하는 토압식 쉴드TBM 터널 구간의 지반정보와 굴진정보를 사용하여 토압식 쉴드TBM의 굴진율을 예측하였다. 선형회귀모델에서 모델의 통계적인 유의성과 다중공선성에서는 문제가 없었으나 결정계수가 0.76으로 나타났고 앙상블 모델과 서포트 벡터 머신에서는 0.88이상의 예측성능을 보여, 분석한 데이터세트에서 토압식 쉴드TBM 굴진성능예측에 적합한 모델은 서포트 벡터 머신임을 알 수 있었다. 현재 도출된 결과로 볼 때, 토압식 쉴드TBM의 기계데이터와 지반정보가 포함된 데이터를 활용한 굴진성능 예측 모델의 적합성은 높다고 판단된다. 추가적으로 지반조건의 다양성과 데이터양을 늘리는 연구가 필요한 것으로 판단된다.

PNU CGCM-WRF Chain을 이용한 남한지역 벼의 생육단계별 고온해 및 저온해 발생일수에 대한 예측성 연구 (A Study on the Predictability of the Number of Days of Heat and Cold Damages by Growth Stages of Rice Using PNU CGCM-WRF Chain in South Korea)

  • 김영현;최명주;심교문;허지나;조세라;안중배
    • 대기
    • /
    • 제31권5호
    • /
    • pp.577-592
    • /
    • 2021
  • This study evaluates the predictability of the number of days of heat and cold damages by growth stages of rice in South Korea using the hindcast data (1986~2020) produced by Pusan National University Coupled General Circulation Model-Weather Research and Forecasting (PNU CGCM-WRF) model chain. The predictability is accessed in terms of Root Mean Square Error (RMSE), Normalized Standardized Deviations (NSD), Hit Rate (HR) and Heidke Skill Score (HSS). For the purpose, the model predictability to produce the daily maximum and minimum temperatures, which are the variables used to define heat and cold damages for rice, are evaluated first. The result shows that most of the predictions starting the initial conditions from January to May (01RUN to 05RUN) have reasonable predictability, although it varies to some extent depending on the month at which integration starts. In particular, the ensemble average of 01RUN to 05RUN with equal weighting (ENS) has more reasonable predictability (RMSE is in the range of 1.2~2.6℃ and NSD is about 1.0) than individual RUNs. Accordingly, the regional patterns and characteristics of the predicted damages for rice due to excessive high- and low-temperatures are well captured by the model chain when compared with observation, particularly in regions where the damages occur frequently, in spite that hindcasted data somewhat overestimate the damages in terms of number of occurrence days. In ENS, the HR and HSS for heat (cold) damages in rice is in the ranges of 0.44~0.84 and 0.05~0.13 (0.58~0.81 and -0.01~0.10) by growth stage. Overall, it is concluded that the PNU CGCM-WRF chain of 01RUN~05RUN and ENS has reasonable capability to predict the heat and cold damages for rice in South Korea.

온라인 판매촉진활동 분석을 통한 고객 리뷰평점 추천 및 예측에 관한 연구 : S사 Wearable 상품중심으로 (A Study on Customer Review Rating Recommendation and Prediction through Online Promotional Activity Analysis - Focusing on "S" Company Wearable Products -)

  • 신호철
    • 한국콘텐츠학회논문지
    • /
    • 제22권4호
    • /
    • pp.118-129
    • /
    • 2022
  • 본 논문에서는 국내 온라인 기업의 Wearable 제품을 선정하고 판매 데이터를 수집해 다양한 분석과 매출 예측을 통해 판촉 활동의 전략 모델을 연구하는 데 목적이 있다. 데이터 분석을 위해 여러 가지의 알고리즘을 사용하여 분석할 것이며, 최상의 모형으로 결과를 선택할 것이다. 최상의 결과로 선택된 모형인 Gradient Boosting 모델은 지도학습을 통해 종속변수 예측에 있어서 판촉 유형, 가격, 판매 수량, 성별, 모델, 판매경로, 제품 성능, 판매 날짜, 지역 등 9개의 독립변수를 투입할 수 있게 된다. 본 연구에서는 판매촉진 유형별로 종속변수로 설정된 리뷰 값을 앙상블 분석 기법을 통해 더욱더 세부적으로 학습하고 분석 및 예측이 주목적이며, 판매촉진 활동을 통한 고객에게 할인 혜택을 주어질 경우와 주어지지 않을 경우에 리뷰 평점을 연구하는 데 목적이 있다. 분석 결과로 본다면 평가 결과는 AUC 95% 수준이며, F1도 93% 정도이다. 결국 판매촉진 활동 유형 중 가치 부가 혜택이 리뷰 수와 리뷰 평점에 영향을 준다고 것을 확인할 수 있었으며, 주요 변인들이 리뷰와 리뷰 평점의 영향을 준다는 것도 확인할 수 있었다.

Water Level Prediction on the Golok River Utilizing Machine Learning Technique to Evaluate Flood Situations

  • Pheeranat Dornpunya;Watanasak Supaking;Hanisah Musor;Oom Thaisawasdi;Wasukree Sae-tia;Theethut Khwankeerati;Watcharaporn Soyjumpa
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.31-31
    • /
    • 2023
  • During December 2022, the northeast monsoon, which dominates the south and the Gulf of Thailand, had significant rainfall that impacted the lower southern region, causing flash floods, landslides, blustery winds, and the river exceeding its bank. The Golok River, located in Narathiwat, divides the border between Thailand and Malaysia was also affected by rainfall. In flood management, instruments for measuring precipitation and water level have become important for assessing and forecasting the trend of situations and areas of risk. However, such regions are international borders, so the installed measuring telemetry system cannot measure the rainfall and water level of the entire area. This study aims to predict 72 hours of water level and evaluate the situation as information to support the government in making water management decisions, publicizing them to relevant agencies, and warning citizens during crisis events. This research is applied to machine learning (ML) for water level prediction of the Golok River, Lan Tu Bridge area, Sungai Golok Subdistrict, Su-ngai Golok District, Narathiwat Province, which is one of the major monitored rivers. The eXtreme Gradient Boosting (XGBoost) algorithm, a tree-based ensemble machine learning algorithm, was exploited to predict hourly water levels through the R programming language. Model training and testing were carried out utilizing observed hourly rainfall from the STH010 station and hourly water level data from the X.119A station between 2020 and 2022 as main prediction inputs. Furthermore, this model applies hourly spatial rainfall forecasting data from Weather Research and Forecasting and Regional Ocean Model System models (WRF-ROMs) provided by Hydro-Informatics Institute (HII) as input, allowing the model to predict the hourly water level in the Golok River. The evaluation of the predicted performances using the statistical performance metrics, delivering an R-square of 0.96 can validate the results as robust forecasting outcomes. The result shows that the predicted water level at the X.119A telemetry station (Golok River) is in a steady decline, which relates to the input data of predicted 72-hour rainfall from WRF-ROMs having decreased. In short, the relationship between input and result can be used to evaluate flood situations. Here, the data is contributed to the Operational support to the Special Water Resources Management Operation Center in Southern Thailand for flood preparedness and response to make intelligent decisions on water management during crisis occurrences, as well as to be prepared and prevent loss and harm to citizens.

  • PDF

기상청 기후예측시스템(GloSea6) - Part 2: 기후모의 평균 오차 특성 분석 (The KMA Global Seasonal forecasting system (GloSea6) - Part 2: Climatological Mean Bias Characteristics)

  • 현유경;이조한;신범철;최유나;김지영;이상민;지희숙;부경온;임소민;김혜리;류영;박연희;박형식;추성호;현승훤;황승언
    • 대기
    • /
    • 제32권2호
    • /
    • pp.87-101
    • /
    • 2022
  • In this paper, the performance improvement for the new KMA's Climate Prediction System (GloSea6), which has been built and tested in 2021, is presented by assessing the bias distribution of basic variables from 24 years of GloSea6 hindcasts. Along with the upgrade from GloSea5 to GloSea6, the performance of GloSea6 can be regarded as notable in many respects: improvements in (i) negative bias of geopotential height over the tropical and mid-latitude troposphere and over polar stratosphere in boreal summer; (ii) cold bias of tropospheric temperature; (iii) underestimation of mid-latitude jets; (iv) dry bias in the lower troposphere; (v) cold tongue bias in the equatorial SST and the warm bias of Southern Ocean, suggesting the potential of improvements to the major climate variability in GloSea6. The warm surface temperature in the northern hemisphere continent in summer is eliminated by using CDF-matched soil-moisture initials. However, the cold bias in high latitude snow-covered area in winter still needs to be improved in the future. The intensification of the westerly winds of the summer Asian monsoon and the weakening of the northwest Pacific high, which are considered to be major errors in the GloSea system, had not been significantly improved. However, both the use of increased number of ensembles and the initial conditions at the closest initial dates reveals possibility to improve these biases. It is also noted that the effect of ensemble expansion mainly contributes to the improvement of annual variability over high latitudes and polar regions.

우수한 가역적 이산화탄소 및 수소 저장성능을 가지는 공유결합성 유기적 골격구조체에 관한 다중스케일 접근법을 이용한 연구 (Covalent Organic Frameworks for Extremely High Reversible $CO_2$ and $H_2$ Uptake Capacity : A Multiscale Simulation Approach)

  • 최윤정;최정훈;최경민;강정구
    • 한국신재생에너지학회:학술대회논문집
    • /
    • 한국신재생에너지학회 2010년도 추계학술대회 초록집
    • /
    • pp.113.2-113.2
    • /
    • 2010
  • We report that the novel covalent organic frameworks (COFs) are capable of reversibly providing an extremely high uptake capacity of carbon dioxide and hydrogen at room temperature. These COFs are designed based on the multiscale simulations approach via the combination of ab initio calculations and force-field calculations. For this goal, we explore the adsorption sites of carbon dioxide and hydrogen on COFs, their porosity, as well as carbon dioxide adsorption isotherms. We identify the binding sites and energies of $CO_2$ on COFs using ab initio calculations and obtain the carbon dioxide adsorption isotherms using grand canonical ensemble Monte Carlo calculations. Moreover, the calculated adsorption isotherms are compared with the experimental values in order to build the reference model in describing the interactions between the $CO_2/H_2$ and the COFs and in predicting the $CO_2$ and $H_2$ adsorption isotherms of COFs. Finally, we design three new COFs, 2D COF-05, 3D COF-05 (ctn), and 3D COF-05 (bor), for the high capacity $CO_2/H_2$ and $H_2$ storage.

  • PDF

다중 구조적응 자기구성지도의 퍼지결합을 이용한 웹 마이닝 (Web Mining Using Fuzzy Integration of Multiple Structure Adaptive Self-Organizing Maps)

  • 김경중;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권1호
    • /
    • pp.61-70
    • /
    • 2004
  • 폭발적으로 성장하고 있는 웹은 수백만 개의 웹 문서를 포함하고 있기 때문에, 적절한 웹사이트를 찾기 어렵다. 사용자 프로파일을 사용하여 적절한 웹사이트를 추천함으로써 웹의 탐색을 개인화 할 수도 있지만 웹 컨텐츠에 대한 사용자의 평가는 사용자의 성격에 관한 다양한 측면을 표현하므로 사용자의 선호도를 예측하기 위해서는 보다 효과적인 방법이 필요하다. 사용자 프로파일은 비선형적인 특성을 가지고 있으므로 분류기를 사용하여 예측하여야 하며 다양한 특성을 예측하기 위해 분류기의 결합이 필요하다. 패턴분류와 시각화에 유용한 구조적응 자기구성지도(SASOM)는 개선된 SOM 모델로서 웹 마이닝에 적절하다. 퍼지 적분은 주관적으로 정의된 분류기의 중요도를 이용하여 결합하는 방법이다. 본 논문에서는 독립적으로 학습된 SASOM의 퍼지적분(fuzzy integral)기반 결합을 이용하여 사용자의 프로파일을 예측하고 UCI 벤치마크 데이타인 Syskill & Webert 데이타를 사용하여 그 성능을 평가한다. 실험결과 제안한 방법이 기존의 naive Bayes 분류기뿐만 아니라 SASOM의 투표결합보다 우수한 성능을 보였다.