• 제목/요약/키워드: Model Ensemble

검색결과 638건 처리시간 0.029초

연속 순위 확률 점수를 활용한 통합 앙상블 모델에 대한 기온 및 습도 후처리 모델 개발 (Enhancing Medium-Range Forecast Accuracy of Temperature and Relative Humidity over South Korea using Minimum Continuous Ranked Probability Score (CRPS) Statistical Correction Technique)

  • 복혜정;김준수;김연희;조은주;김승범
    • 대기
    • /
    • 제34권1호
    • /
    • pp.23-34
    • /
    • 2024
  • The Korea Meteorological Administration has improved medium-range weather forecasts by implementing post-processing methods to minimize numerical model errors. In this study, we employ a statistical correction technique known as the minimum continuous ranked probability score (CRPS) to refine medium-range forecast guidance. This technique quantifies the similarity between the predicted values and the observed cumulative distribution function of the Unified Model Ensemble Prediction System for Global (UM EPSG). We evaluated the performance of the medium-range forecast guidance for surface air temperature and relative humidity, noting significant enhancements in seasonal bias and root mean squared error compared to observations. Notably, compared to the existing the medium-range forecast guidance, temperature forecasts exhibit 17.5% improvement in summer and 21.5% improvement in winter. Humidity forecasts also show 12% improvement in summer and 23% improvement in winter. The results indicate that utilizing the minimum CRPS for medium-range forecast guidance provide more reliable and improved performance than UM EPSG.

LIME과 SHAP 모델 공유에 의한 모델 해석 (Model Interpretation through LIME and SHAP Model Sharing)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.177-184
    • /
    • 2024
  • 데이터가 빠른 속도로 증가하고 있는 가운데 가능한 최고의 정확도를 달성하기 위해 모든 종류의 복잡한 앙상블 및 딥 러닝 알고리즘이 사용되고 있다. 그렇지만, 이러한 모델이 알 수 없는 데이터를 예측/분류/인식/추적하는 방법과 관련하여 예측, 분류, 인식, 추적이 항상 신뢰할 수 있는 것은 아니다. 데이터 부족, 불균형 데이터 세트, 편향된 데이터 세트 등과 같은 다양한 이유가 학습 모델에 의해 포착되는 결정에 영향을 미칠 수 있다. 이와 관련하여 현재 모델의 설명 가능성에 관한 연구가 관심을 끌고 있다. 현재 설명 가능성 기법과 관련하여 LIME과 SHAP가 보편적으로 사용되고 있지만, 출력 결과들은 다소 상이한 측면을 나타내고 있다. 이에 본 연구에서는 LIME과 SHAP을 결합하는 방식을 소개하고, 데모와 관련해서 IEEE CIS 데이터 세트에서 거래를 사기로 분류할 때 LightGBM 및 Keras 모델이 내린 결정에 대한 설명 가능성을 분석한다.

후정해변 고파랑 조건하에서 파랑유속 방향전환점에서 발생하는 난류성분의 측정 (Measurement of Turbulence Properties at the Time of Flow Reversal Under High Wave Conditions in Hujeong Beach)

  • 장연식;도종대;김선신;안경모;진재율
    • 한국해안·해양공학회논문집
    • /
    • 제29권4호
    • /
    • pp.206-216
    • /
    • 2017
  • 교란운동에너지(TKE)와 레이놀즈 응력의 수직성분($-{\bar{u^{\prime}w^{\prime}}}$)에 대한 한 주기 파장 안에서의 시간변화를 관측자료를 사용하여 분석하였다. 관측자료는 동해에서 온대성저기압이 발달하였던 2017년 1월 14일부터 18일까지 동해안 후정해변에서 측정한 파랑자료를 사용하였다. 이 기간 동안 관측된 모든 파랑자료들 중에서 비슷한 형태를 갖는 수백 개의 규칙파들을 구분하였으며 이 자료를 토대로 Ensemble Average 기법을 사용하여 이 기간 파랑특성을 대표하는 세 개의 평균파를 계산하였다. 그리고 이 평균파를 기준으로 각 파의 요동을 측정하여 한 주기 동안의 교란운동에너지와 레이놀즈 응력을 계산하였다. 이렇게 계산된 자료들을 분석한 결과 교란운동에너지는 파랑의 평균유속과 비슷한 분포를 나타내었으나(즉 유속이 최대값을 나타낼 때 교란운동에너지도 최대값을 나타내었다), $-{\bar{u^{\prime}w^{\prime}}}$는 파랑의 수평유속 방향이 전환되는 '방향전환점'에서 가파르게 증가하는 경향을 나타내었다. 이러한 $-{\bar{u^{\prime}w^{\prime}}}$의 독특한 분포는 Nielsen(1992)에 의해 제안된 난류 convection 현상을 뒷받침하는 발견으로 퇴적물과 같은 물질들의 부유현상이 파랑의 '방향전환점(한 주기 안에서 파랑의 횡단방향 유속 부호가 바뀌는 시점)'에서 촉진될 수 있음을 보여준다. 이렇게 관측된 난류에너지 분포 특성을 CADMAS-SURF 모델을 사용하여 구현해 보았다. 그 결과 교란운동에너지의 경우 모델결과와 관측치 사이에 유사성이 발견되었으나 레이놀즈 응력($-{\bar{u^{\prime}w^{\prime}}}$)의 경우 모델이 '방향전환점'에서의 증가현상을 구현해 내지 못하였다. 이는 CADMAS-SURF와 같은 Reynolds-Averaged Navier-Stokes(RANS) 모델들이 가지는 한계점으로 RANS 모델의 경우 레이놀즈 응력과 같은 난류에너지가 평균유속의 분포에 강한 영향을 받기 때문인 것으로 판명되었다.

한반도 기후변화 적응 대상 식물 종풍부도 변화 예측 연구 (Prediction of Potential Species Richness of Plants Adaptable to Climate Change in the Korean Peninsula)

  • 신만석;서창완;이명우;김진용;전자영;프라딥아디카리;홍승범
    • 환경영향평가
    • /
    • 제27권6호
    • /
    • pp.562-581
    • /
    • 2018
  • 본 연구는 한반도 기후변화 적응 대상식물을 대상으로 기후변화에 따른 종풍부도 변화를 예측해 보고자 하였다. 대상종은 한반도 기후변화 적응 대상식물 중에서 특산식물 23종, 북방계식물 30종 그리고 남방계식물 36종으로 총 89종을 선정하였다. 기후변화에 따른 개별 종의 잠재서식지를 예측하여 합산하는 방식으로 종풍부도 변화를 예측하였다. 개별 종의 잠재서식지는 10개의 종분포모형 알고리즘을 함께 고려하는 앙상블모형을 구축하였다. 미래 예측 시기는 기후변화 시나리오 RCP4.5와 RCP8.5를 선정하여 2050년과 2070년을 예측하였다. 현재의 종풍부도는 국립공원, 강원도 백두대간 지역 그리고 남해 도서지역을 중심으로 높게 나타났다. 미래 예측 결과, 기존에 높은 종풍부도를 보였던 국립공원과 강원도 백두대간 지역은 낮아졌고 남해안 내륙지역은 보다 더 높아졌다. 종풍부도의 평균값을 비교해 보면 현재 기준으로 국립공원 지역이 남한 전체지역보다 높으면서 큰 차이를 보였다. 하지만 기후변화에 따라서 국립공원 지역과 남한 전체지역의 차이가 줄어들었다. 특산식물과 북방계식물의 다수가 남한지역에서 사라지고 남방계식물이 북상하면서 이와 같은 결과를 보였다. 하지만 적합한 서식지로 이주가 이루어지지 않으면 종풍부도가 급격하게 감소하였다. 분산가능성의 가정에 따라 결과가 다르게 나타났다. 본 연구의 결과는 보전 계획 수립, 보호 지역 설정, 생물종 복원 그리고 기후변화 대응 전략 및 관리 방안 등에 활용될 수 있을 것으로 판단된다.

다중 선형 회귀를 이용한 PNU/CME CGCM의 동아시아 여름철 강수예측 보정 연구 (A Correction of East Asian Summer Precipitation Simulated by PNU/CME CGCM Using Multiple Linear Regression)

  • 황윤정;안중배
    • 한국지구과학회지
    • /
    • 제28권2호
    • /
    • pp.214-226
    • /
    • 2007
  • 강수는 다양한 대기 변수들의 영향으로 나타나기 때문에 비선형성이 매우 강하다. 따라서 역학 모형을 통해 예측된 강수의 보정은 비선형 모형인 인공 신경망 등을 통해 가능할 것이지만, 인공 신경망의 경우 초기 가중치 선택, 지역 최소화 문제, 뉴런의 수 결정 등의 문제로 인한 한계가 있다. 그러므로 본 연구에서는 가장 보편적으로 사용되는 다중 선형 회귀 모형을 이용하여 CGCM에 의해 모사된 강수를 보정하였으며, 예측성을 살펴보았다. 이를 위하여 우선 PNU/CME 접합 대순환 모형(Coupled General Circulation model, CGCM)(박혜선과 안중배, 2004)을 이용하여 1979년부터 2005년까지 매해 4월부터 8월까지 5개월간 앙상블 적분을 하였다. 적분 결과 중 한반도를 포함한 동북아시아 지역$(110^{\circ}E-145^{\circ}E,\;25^{\circ}N-55^{\circ}N)$의 여름철인 6월(리드 2), 7월(리드 3), 8월(리드 4) 및 여름철 평균인 JJA(from June to August) 기간의 PNU/CME CGCM에 의해 모사된 강수를 보정하기 위해 다중 선형 회귀(Multiple Linear Regression, MLR)를 이용하였다. PNU/CME 접합 대순환 모형의 결과 중 강수, 500 hPa 연직 속도, 200 hPa 발산장, 지상 기온 등의 예측 인자와 관측 강수와의 선형적인 관계를 이용하여 MLR 모형을 구축하였다. 그리고 교차 검증(cross- validation)을 수행하여 PNU/CME 접합 대순환 모형의 결과와 교차 검증 결과를 비교하였다. 상관계수, 적중률 (hit rate), 오보율(false alarm rate) 그리고 Heidke 기술 점수(Heidke skill score) 등을 살펴본 바, 보정하지 않은 모형의 결과에 비해 MLR 모형을 이용하여 보정한 결과의 강수에 대한 예측성이 뛰어난 것을 알 수 있었다.

가뭄의 전이 현상을 고려한 수문학적 가뭄에 대한 베이지안 네트워크 기반 확률 예측 (Bayesian networks-based probabilistic forecasting of hydrological drought considering drought propagation)

  • 신지예;권현한;이주헌;김태웅
    • 한국수자원학회논문집
    • /
    • 제50권11호
    • /
    • pp.769-779
    • /
    • 2017
  • 최근 우리나라에서 빈번하게 발생되는 가뭄으로 인하여 많은 피해가 발생하고 있으며, 이에 대한 사전대응의 필요성이 커지고 있다. 가뭄에 대한 효과적인 사전대응을 위해서는 신뢰성 있는 가뭄 예측 정보가 필수적이다. 본 연구에서는 수문학적 가뭄에 대한 확률론적 예측을 수행하기 위하여 가뭄의 전이현상을 베이지안 네트워크 모형에 반영하였다. 가뭄의 전이현상을 고려한 베이지안 네트워크 기반의 가뭄 예측 모형(PBNDF)은 과거, 현재, 미래에 대한 다중 모형 앙상블 예측결과와 가뭄전이 관계를 결합하여 새로운 수문학적 가뭄 예측 결과를 생산하도록 구축되었다. 본 연구에서 PBNDF 모형은 파머수문학적 가뭄지수를 활용하여 낙동강 유역의 10개 지점을 대상으로 가뭄을 확률적으로 예측하는데 적용되었다. PBNDF 모형의 ROC 분석 결과 ROC 점수가 0.5 이상의 유의한 결과를 나타내 실제 예측 모형으로 활용가능하다는 것을 확인할 수 있었다. 또한, 기존에 개발된 모형(지속성 예측, 베이지안 네트워크 예측 모형)과 평균제곱오차의 제곱근(RMSE), 기술 점수(SS)를 활용하여 비교를 수행하였으며, 그 결과 PBNDF 모형의 RMSE는 상대적으로 낮은 값을 가지며, SS는 약 0.1~0.15 정도 높은 것으로 나타나 예측성능이 향상되었다는 것을 확인할 수 있었다.

베이지안 네트워크 및 의사결정 모형을 이용한 위성 강수자료 기반 기상학적 가뭄 전망 (Meteorological drought outlook with satellite precipitation data using Bayesian networks and decision-making model)

  • 신지예;김지은;이주헌;김태웅
    • 한국수자원학회논문집
    • /
    • 제52권4호
    • /
    • pp.279-289
    • /
    • 2019
  • 가뭄재해는 다른 재해와 다르게 광범위한 공간에 걸쳐서 충분한 강우가 발생하기 전까지 오랜 기간 동안 발생되는 특성이 있다. 위성 영상은 시공간적으로 지속적인 강수량 관측을 제공할 수 있다. 본 연구는 위성 영상 기반의 강수자료를 활용하여 기상학적 가뭄 전망 모형을 개발하였다. PERSIANN_CDR, TRMM 3B42와 GPM IMERG 영상을 활용하여 강수 자료를 구축한 뒤, 표준강수지수(SPI)를 기반으로 기상학적 가뭄을 정의하였다. 과거의 가뭄 정보와 물리적 예측 모형 기반의 가뭄 예측 결과를 결합할 수 있는 베이지안 네트워크 기반 가뭄 예측 기법을 이용하여 확률론적 가뭄 예측 결과를 생산하였으며, 가뭄 예측결과를 가뭄 전망 의사결정 모형에 적용하여 가뭄 전망 결과를 도출하였다. 가뭄 전망 정보는 가뭄 발생, 지속, 종결, 가뭄 없음의 4단계로 구분하였다. 본 연구의 가뭄 전망 결과는 ROC 분석을 통하여 물리적 예측 모형인 다중모형 앙상블(MME)을 활용한 가뭄 전망 결과와 전망 성능을 비교하였다. 그 결과, 2~3개월 가뭄 전망에 대한 가뭄 발생 및 지속의 단계에서는 MME 모형보다 높은 전망성능을 보여주었다.

데이터마이닝 기법을 활용한 노인장기요양급여 권고모형 개발 (A Recommending System for Care Plan(Res-CP) in Long-Term Care Insurance System)

  • 한은정;이정석;김동건;강임옥
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1229-1237
    • /
    • 2009
  • 노인장기요양보험에서 가장 중요한 이슈는 급여대상자의 희망, 건강 및 기능상태에 따라 어떤 급여를 제공할 것인가 이다. 이를 해결하고자 노인장기요양보험의 보험자인 국민건강보험 공단은 급여대상자에게 '표준장기요양이용계획서'를 제공하고 있다. 본 연구에서는 표준장기요양이용계획 작성의 효율화 방안을 마련하고자 노인장기요양보험 3차 시범사업 표준이용계획 자료를 활용하여 노인장기요양급여 권고모형을 개발하였다. 모형개발에는 데이터마이닝의 의사결정나무모형, 로지스틱회귀모형, 앙상블 모형의 배깅과 부스팅 기법을 사용하였고, 이 중 실무자가 이해하기 쉬운 의사결정나무를 채택하여 권고모형을 설명 하였다. 본 연구는 노인장기요양보험 제도의 이용계획 수립의 객관성 및 과학성을 확보하고 이용계획 업무를 효율화하는 데에 기여할 것으로 기대된다.

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구 (Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration)

  • 안동욱;임춘성
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.23-34
    • /
    • 2019
  • 최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

  • PDF

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.