• 제목/요약/키워드: Model Ensemble

검색결과 638건 처리시간 0.037초

BCG 신호 최적화를 통한 주행중 운전자 수면 상태 분류에 관한 연구 (A Study On The Classification Of Driver's Sleep State While Driving Through BCG Signal Optimization)

  • 박진수;정지성;양철승;이정기
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.905-910
    • /
    • 2022
  • 졸음운전은 교통사고 발생률을 높이고 사망사고로 이어지기 때문에 많은 사회적 관심이 필요하다. 졸음운전으로 인한 사고 건수는 매년 증가하고 있다. 따라서 전 세계적으로 이 문제를 해결하기 위해 다양한 생체신호 측정을 위한 연구가 수행되고 있다. 본 논문에서는 그 중에 비접촉 방식의 생체신호 분석에 중점을 두고 있다. 주행중인 차량에서는 엔진, 타이어, 차체 진동 등 다양한 노이즈가 발생한다. 압전센서로 주행중인 차량에서 운전자의 심박수와 호흡수를 측정하기 위해 차량 진동을 완충할 수 있는 센서 플레이트를 설계했고 차량에서 발생하는 노이즈를 줄일 수 있었다. 또한 압전센서의 신호 기반 CNN-LSTM 앙상블 학습 기법으로 모델을 추출하여 운전자가 수면중인지 아닌지 분류하는 시스템을 개발했다. 수면 상태를 학습시키기 위해 30초마다 피험자의 생체 신호를 획득하였고, 797개의 데이터를 비교 분석하였다.

기후 예보 모델의 동북아시아 봄철 가뭄 예측성 연구 (Assessment of Seasonal Forecast Skill of Springtime Droughts over Northeast Asia in Climate Forecast Models)

  • 감종훈;김병희
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.42-42
    • /
    • 2023
  • 최근 IPCC 6차 보고서에서는 전 지구의 온도가 0.5℃가 증가할 때마다 기상학적 가뭄 지역이 증가하며, 인위적 강제력은 가뭄 현상의 강도와 빈도를 증가하는 것으로 밝혔다. 봄철(3월-5월) 동남아시아(남중국, 필리핀 등)에 비해 상대적으로 건조한 동북아시아(동중국, 한반도, 일본) 지역은 가뭄에 취약하며 기후 변화에 따라 가뭄으로 인한 피해가 커질 것으로 전망된다. 그러므로 이 지역은 봄철 가뭄으로 인한 피해를 완화하기 위해 봄철 강수량에 대한 신뢰할 만한 계절적 예보 기술이 꼭 필요하다. 본 연구에서는 1992-2022년 봄철의 Standardized Precipitation Index(SPI) 값을 기준으로 2001년과 2011년 동북아시아 가뭄이 발생한 것을 확인하였으며, 각 해의 3월에 관측된 기상학적 초기 조건으로부터 다중 기후 예보 모델들의 봄철 강수량의 계절적 예측성을 정량적으로 평가하였다. 관측자료로부터 2001년 가뭄은 동북아시아 대기 상층의 저기압성 순환의 강화로 인한 제트류(Jet stream)의 강화와 연관되어 있었으며, 2011년 가뭄은 제트류 강화와 함께 태평양 열대 지역 기류 강화가 동반되어 발생하였음을 알 수 있었다. North American Multi-Model Ensemble 기후 예보 모델들은 2011년 가뭄에 비해 2001년 가뭄에 대한 예측성이 높았으며, 그 이유로는 대기 상층 순환의 예측성과 연관이 있음을 밝혔다. 또한, 봄철 대기-해양 상호 패턴을 관측과 유사하게 재현한 GFDL-SPEARS 모델이 가뭄 해의 대기 상층 저기압성 순환과 강수 예측성이 가장 높은 것을 보였다. 본 연구의 결과들을 통해 동북아시아 봄철 가뭄과 같은 극한 기상의 강수량 예측성 향상에 있어서 기후 예보 모델들의 현실적인 대기-해양 결합 과정 모사 능력의 중요성을 밝혔다. 본 연구에서 제안된 방안들은 기후 예측 모델 개선을 위한 전략적인 정보를 제공할 것으로 보인다.

  • PDF

대체모형을 이용한 자료동화기법 개발 (Development of data assimilation technique using a surrogate model)

  • 김종호;쩐옥빈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.381-381
    • /
    • 2020
  • 자료동화(Data Assimilation) 기법은 실시간 수문학적 예측에 있어 정확도 향상을 위해 필수적인 과정이다. 가장 대중적으로 사용되는 기법들 중 하나가 모델 상태변수와 매개변수를 동시에 업데이트할 수 있는 이중 앙상블 칼만 필터(Dual Ensemble Kalman Filter)이다. 이 방법은 정확도 개선 및 적용의 용이성 때문에 많은 연구 분야에서 사용되어져 왔지만, 앙상블을 생성하는 과정에서 상당시간이 소요되는 단점이 존재한다. 본 연구에서는 상태변수와 매개변수를 동시에 업데이트 하면서 홍수 예측의 정확성을 보장할 뿐만 아니라, 앙상블 생성에 있어 계산 효율을 크게 향상시킬 수 있는 기법을 제안한다. Polynomial Chaos Expansion(PCE) 기법을 사용하여 앙상블 칼만 필터를 모방(mimic)할 수 있는 새로운 대체필터(Surrogate Filter)를 개발하는 것을 목표로 한다. 구체적으로 대체필터를 구성하기 위한 다양한 필터를 설계하였다. 첫째 시간에 대해서 PCE가 변화하지 않는 '불변 필터'(즉, 전체 예측기간에 대해 하나의 필터를 사용하여 자료동화할 수 있는 대체필터)와, 매 시간마다 PCE가 변화하는 '시변 필터'(즉, 예측하는 매 시간마다 새로운 필터를 생성해야 하는 대체필터)를 설계하여 적용성, 정확성, 예측성 등을 비교하였다. 또한, PCE의 하이퍼 매개변수를 최적화하기 위한 최적의 프레임 워크가 제안되어, 대체필터를 구축하는 데 효율을 높이고 PCE의 과적합(overfitting) 현상을 피할 수 있도록 하였다. 본 연구에서 제안된 기법은 기존 단일 및 이중 앙상블 칼만 필터(EnKF)의 결과와 비교 검증하였으며, 그 결과는 다음과 같다. (1) 대체필터의 대부분은 원래 EnKF와 비슷한 정도의 불확실성을 설명할 수 있음; (2) 모든 대체 필터는 선행시간이 짧은 경우의 예측에 있어 우수한 결과를 제공하며, 시변 필터가 불변 필터보다 더 정확한 예측 결과를 제공함; (3) 대체필터는 원래 앙상블 칼만필터보다 최대 500배 빠른 속도로 성능을 향상시킬 수 있음. 제안된 대체필터는 자료동화를 수행하는 기존필터와 비슷한 정도의 정확성, 매우 향상된 효율성을 보장함을 확인할 수 있었다.

  • PDF

정형·비정형 우도를 이용한 LENS-GRM 불확실성 해석 (A study on the uncertainty analysis of LENS-GRM using formal and informal likelihood measure)

  • 이상협;추인교;유영욱;정영훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.317-317
    • /
    • 2020
  • 수재해는 수자원 인프라의 부족 및 관리 미흡 등 많은 요인들이 있지만 강우의 유무와 크기가 가장 원초적인 요인들 중 하나이다. 정확한 강우량 추정 및 강우발생시간 예측은 수재해로 인한 피해를 예방하고 빠르게 대처할 수 있다. 그러나 강우예측에는 많은 불확실성을 내포하고 있기 때문에 이러한 불확실성을 이해하고 줄여 나가는 것이 필요하다. 최근 컴퓨터의 성능의 발전에 비례해 강우 예측 자료들도 점진적으로 발전을 거듭하고 있다. 이를 강우-유출 모형에 적용시 유출량 예측의 정확성 또한 비례하여 한층 더 발전할 수 있을 것이다. 하지만 신뢰성이 낮은 입력자료를 대상으로 하는 유출해석 모형은 많은 불확실성을 내포할 것이다. 따라서 본 연구에서는 위천 유역에 대해 LENS(Limited area ENsemble prediction System) 강우앙상블 예측자료의 적용성을 검토하고 그리드 기반 강우 유출 모델 GRM(Grid based Rainfall-runoff Model) 에 적용하여 유출예측의 불확실성을 평가하고자 하였다. 또한 강우예측 및 유출예측은 수 많은 매개변수를 포함하며 최종적인 예측은 더 큰 불확실한 범위로 산출될 수 있다. 이에 따라 본 연구에서는 Python3 기반 코딩으로 LENS 자료 구축 및 GRM 모형의 매개변수 보정을 각 2000회 씩에 걸쳐 총 2회 실시하여 수문학적, 지형학적 인자에 따른 불확실성 범위를 보정하고자 하였다. 매개변수의 보정은 비정형우도(Informal likelihood) NSE, 정형우도(Formal likelihood) Lognormal(Log-likelihood function)의 우도에 따른 행위모델을 산정하여 보정하였다. 따라서 본 연구에서는 선행연구들을 참고한 정형, 비정형 우도의 임계치를 이용한 불확실성해석에 적용하였으며 이는 사용자의 행위모델선정 임계치 범위 선정으로 인한 불확실성을 줄여나감에 기여할 수 있을것으로 사료된다.

  • PDF

AutoFe-Sel: A Meta-learning based methodology for Recommending Feature Subset Selection Algorithms

  • Irfan Khan;Xianchao Zhang;Ramesh Kumar Ayyasam;Rahman Ali
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1773-1793
    • /
    • 2023
  • Automated machine learning, often referred to as "AutoML," is the process of automating the time-consuming and iterative procedures that are associated with the building of machine learning models. There have been significant contributions in this area across a number of different stages of accomplishing a data-mining task, including model selection, hyper-parameter optimization, and preprocessing method selection. Among them, preprocessing method selection is a relatively new and fast growing research area. The current work is focused on the recommendation of preprocessing methods, i.e., feature subset selection (FSS) algorithms. One limitation in the existing studies regarding FSS algorithm recommendation is the use of a single learner for meta-modeling, which restricts its capabilities in the metamodeling. Moreover, the meta-modeling in the existing studies is typically based on a single group of data characterization measures (DCMs). Nonetheless, there are a number of complementary DCM groups, and their combination will allow them to leverage their diversity, resulting in improved meta-modeling. This study aims to address these limitations by proposing an architecture for preprocess method selection that uses ensemble learning for meta-modeling, namely AutoFE-Sel. To evaluate the proposed method, we performed an extensive experimental evaluation involving 8 FSS algorithms, 3 groups of DCMs, and 125 datasets. Results show that the proposed method achieves better performance compared to three baseline methods. The proposed architecture can also be easily extended to other preprocessing method selections, e.g., noise-filter selection and imbalance handling method selection.

하이브리드 Auto-sklearn 앙상블 모델을 이용한 댐 유입량 예측 및 평가 (Dam Inflow Prediction and Evaluation Using Hybrid Auto-sklearn Ensemble Model)

  • 이서로;배주현;이관재;양동석;홍지영;김종건;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.307-307
    • /
    • 2022
  • 최근 기후변화와 댐 상류 토지이용 변화 등과 같은 다양한 원인에 의해 댐 유입량의 변동성이 증가하면서 댐 관리 및 운영조작 의사 결정에 어려움이 발생하고 있다. 따라서 이러한 댐 유입량의 변동 특성을 반영하여 댐 유입량을 정확하고 효율적으로 예측할 수 있는 방안이 필요한 실정이다. 머신러닝 기술이 발전하면서 Auto-ML(Automated Machine Learning)이 다양한 분야에서 활용되고 있다. Auto-ML은 데이터 전처리, 최적 알고리즘 선택, 하이퍼파라미터 튜닝, 모델 학습 및 평가 등의 모든 과정을 자동화하는 기술이다. 그러나 아직까지 수문 분야에서 댐 유입량을 예측하기 위한 모델을 개발하는데 있어서 Auto-ML을 활용한 사례는 부족하고, 특히 댐 유입량의 예측 정확성을 확보하기 위해 High-inflow and low-inflow 의 변동 특성을 고려한 하이브리드 결합 방식을 통해 Auto-ML 기반 앙상블 모델을 개발하고 평가한 연구는 없다. 본 연구에서는 Auto-ML의 패키지 중 Auto-sklearn을 통해 홍수기, 비홍수기 유입량 변동 특성을 반영한 하이브리드 앙상블 댐 유입량 예측 모델을 개발하였다. 소양강댐을 대상으로 적용한 결과, 하이브리드 Auto-sklearn 앙상블 모델의 댐 유입량 예측 성능은 R2 0.868, RMSE 66.23 m3/s, MAE 16.45 m3/s로 단일 Auto-sklearn을 통해 구축 된 앙상블 모델보다 전반적으로 우수한 것으로 나타났다. 특히 FDC (Flow Duration Curve)의 저수기, 갈수기 구간에서 두 모델의 유입량 예측 경향은 큰 차이를 보였으며, 하이브리드 Auto-sklearn 모델의 예측 값이 관측 값과 더욱 유사한 것으로 나타났다. 이는 홍수기, 비홍수기 구간에 대한 앙상블 모델이 독립적으로 구축되는 과정에서 각 모델에 대한 하이퍼파라미터가 최적화되었기 때문이라 판단된다. 향후 본 연구의 방법론은 보다 정확한 댐 유입량 예측 자료를 생성하기 위한 방안 수립뿐만 아니라 다양한 분야의 불균형한 데이터셋을 이용한 앙상블 모델을 구축하는데도 유용하게 활용될 수 있을 것으로 사료된다.

  • PDF

FubaoLM : 연쇄적 사고 증류와 앙상블 학습에 의한 대규모 언어 모델 자동 평가 (FubaoLM : Automatic Evaluation based on Chain-of-Thought Distillation with Ensemble Learning)

  • 김희주;전동현;권오준;권순환;김한수;이인권;김도현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.448-453
    • /
    • 2023
  • 대규모 언어 모델 (Large Language Model, LLM)을 인간의 선호도 관점에서 평가하는 것은 기존의 벤치마크 평가와는 다른 도전적인 과제이다. 이를 위해, 기존 연구들은 강력한 LLM을 평가자로 사용하여 접근하였지만, 높은 비용 문제가 부각되었다. 또한, 평가자로서 LLM이 사용하는 주관적인 점수 기준은 모호하여 평가 결과의 신뢰성을 저해하며, 단일 모델에 의한 평가 결과는 편향될 가능성이 있다. 본 논문에서는 엄격한 기준을 활용하여 편향되지 않은 평가를 수행할 수 있는 평가 프레임워크 및 평가자 모델 'FubaoLM'을 제안한다. 우리의 평가 프레임워크는 심층적인 평가 기준을 통해 다수의 강력한 한국어 LLM을 활용하여 연쇄적 사고(Chain-of-Thought) 기반 평가를 수행한다. 이러한 평가 결과를 다수결로 통합하여 편향되지 않은 평가 결과를 도출하며, 지시 조정 (instruction tuning)을 통해 FubaoLM은 다수의 LLM으로 부터 평가 지식을 증류받는다. 더 나아가 본 논문에서는 전문가 기반 평가 데이터셋을 구축하여 FubaoLM 효과성을 입증한다. 우리의 실험에서 앙상블된 FubaoLM은 GPT-3.5 대비 16% 에서 23% 향상된 절대 평가 성능을 가지며, 이항 평가에서 인간과 유사한 선호도 평가 결과를 도출한다. 이를 통해 FubaoLM은 비교적 적은 비용으로도 높은 신뢰성을 유지하며, 편향되지 않은 평가를 수행할 수 있음을 보인다.

  • PDF

Students' Performance Prediction in Higher Education Using Multi-Agent Framework Based Distributed Data Mining Approach: A Review

  • M.Nazir;A.Noraziah;M.Rahmah
    • International Journal of Computer Science & Network Security
    • /
    • 제23권10호
    • /
    • pp.135-146
    • /
    • 2023
  • An effective educational program warrants the inclusion of an innovative construction which enhances the higher education efficacy in such a way that accelerates the achievement of desired results and reduces the risk of failures. Educational Decision Support System (EDSS) has currently been a hot topic in educational systems, facilitating the pupil result monitoring and evaluation to be performed during their development. Insufficient information systems encounter trouble and hurdles in making the sufficient advantage from EDSS owing to the deficit of accuracy, incorrect analysis study of the characteristic, and inadequate database. DMTs (Data Mining Techniques) provide helpful tools in finding the models or forms of data and are extremely useful in the decision-making process. Several researchers have participated in the research involving distributed data mining with multi-agent technology. The rapid growth of network technology and IT use has led to the widespread use of distributed databases. This article explains the available data mining technology and the distributed data mining system framework. Distributed Data Mining approach is utilized for this work so that a classifier capable of predicting the success of students in the economic domain can be constructed. This research also discusses the Intelligent Knowledge Base Distributed Data Mining framework to assess the performance of the students through a mid-term exam and final-term exam employing Multi-agent system-based educational mining techniques. Using single and ensemble-based classifiers, this study intends to investigate the factors that influence student performance in higher education and construct a classification model that can predict academic achievement. We also discussed the importance of multi-agent systems and comparative machine learning approaches in EDSS development.

빅데이터 기반 2형 당뇨 예측 알고리즘 개발 (Development of Type 2 Prediction Prediction Based on Big Data)

  • 심현;김현욱
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.999-1008
    • /
    • 2023
  • 당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.

그래프 분류 기반 특징 선택을 활용한 작물 수확량 예측 (Crop Yield Estimation Utilizing Feature Selection Based on Graph Classification)

  • 옴마킨;이성근
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1269-1276
    • /
    • 2023
  • 작물 수확량 예측은 토양, 비, 기후, 대기 및 이들의 관계와 같은 다양한 측면으로 인해 다국적 식사와 강력한 수요에 필수적이며, 기후 변화는 농업 생산량에 영향을 미친다. 본 연구에서는 온도, 강수량, 습도 등의 데이터 세트를 운영한다. 현재 연구는 농부와 농업인을 지원하기 위해 다양한 분류기를 사용한 기능 선택에 중점을 두고 있다. 특징 선택 접근법을 활용한 작물 수확량 추정은 96% 정확도를 나타내었다. 특징 선택은 기계학습 모델의 성능에 영향을 미친다. 현재 그래프 분류기의 성능은 81.5%를 나타내며, 특징 선택이 없는 Random Forest 회귀 분석은 78%의 정확도를 나타냈다. 또한, 특징 선택이 없는 의사결정 트리 회귀 분석은 67%의 정확도를 유지하였다. 본 논문은 제시된 10가지 알고리즘을 대상으로 특징 선택 중요성에 대한 실험결과를 나타내었다. 이러한 결과는 작물 분류 연구에 적합한 모델을 선택하는 데 도움이 될 것으로 기대된다.