• 제목/요약/키워드: Model Ensemble

검색결과 643건 처리시간 0.023초

앙상블 기법을 활용한 대학생 중도탈락 예측 모형 개발 (A Study on the Development of University Students Dropout Prediction Model Using Ensemble Technique)

  • 박상성
    • 디지털산업정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.109-115
    • /
    • 2021
  • The number of freshmen at universities is decreasing due to the recent decline in the school-age population, and the survival of many universities is threatened. To overcome this situation, universities are seeking ways to use big data within the school to improve the quality of education. A study on the prediction of dropout students is a representative case of using big data in universities. The dropout prediction can prepare a systematic management plan by identifying students who will drop out of school due to reasons such as dropout or expulsion. In the case of actual on-campus data, a large number of missing values are included because it is collected and managed by various departments. For this reason, it is necessary to construct a model by effectively reflecting the missing values. In this study, we propose a university student dropout prediction model based on eXtreme Gradient Boost that can be applied to data with many missing values and shows high performance. In order to examine the practical applicability of the proposed model, an experiment was performed using data from C University in Chungbuk. As a result of the experiment, the prediction performance of the proposed model was found to be excellent. The management strategy of dropout students can be established through the prediction results of the model proposed in this paper.

Preemptive Failure Detection using Contamination-Based Stacking Ensemble in Missiles

  • Seong-Mok Kim;Ye-Eun Jeong;Yong Soo Kim;Youn-Ho Lee;Seung Young Lee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권5호
    • /
    • pp.1301-1316
    • /
    • 2024
  • In modern warfare, missiles play a pivotal role but typically spend the majority of their lifecycle in long-term storage or standby mode, making it difficult to detect failures. Preemptive detection of missiles that will fail is crucial to preventing severe consequences, including safety hazards and mission failures. This study proposes a contamination-based stacking ensemble model, employing the local outlier factor (LOF), to detect such missiles. The proposed model creates multiple base LOF models with different contamination values and combines their anomaly scores to achieve a robust anomaly detection. A comparative performance analysis was conducted between the proposed model and the traditional single LOF model, using production-related inspection data from missiles deployed in the military. The experimental results showed that, with the contamination parameter set to 0.1, the proposed model exhibited an increase of approximately 22 percentage points in accuracy and 71 percentage points in F1-score compared to the single LOF model. This approach enables the preemptive identification of potential failures, undetectable through traditional statistical quality control methods. Consequently, it contributes to lower missile failure rates in real battlefield scenarios, leading to significant time and cost savings in the military industry.

FCM을 적용한 결함심각도 기반 앙상블 모델 (Defect Severity-based Ensemble Model using FCM)

  • 이나영;권기태
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권12호
    • /
    • pp.681-686
    • /
    • 2016
  • 소프트웨어 결함 예측은 프로젝트의 효율적인 관리와 성공에 있어 중요한 요소이다. 이 결함은 심각도에 따라 프로젝트에 영향을 미치는 정도가 다르다. 그러나 기존 연구는 결함 유무만 관심을 두고 심각도를 고려하지 않는다. 본 논문에서는 소프트웨어 관리 효율과 품질 향상을 위해 FCM을 적용한 결함 심각도 기반 앙상블 모델을 제안한다. 제안된 모델은 FCM으로 NASA PC4의 결함심각도를 재분류한다. 그리고 RF(Random Forest)로 심각도에 영향을 주는 입력 column을 선별하여 데이터 핵심 결함 요인을 추출한다. 또한 10-fold 교차검증으로 파라미터를 변경해 모델 성능을 평가한다. 실험 결과는 다음과 같다. 첫째, 결함심각도가 58,40,80에서 30,20,128로 재분류되었다. 둘째, 심각도에 영향을 주는 중요한 입력 column은 정확도와 노드 불순도 측면에서 BRANCH_COUNT였다. 셋째, 성능평가는 트리수가 작고 고려할 변수가 많을수록 좋은 성능을 보였다.

최적선형보정을 이용한 앙상블 유량예측 시스템의 개선 (Improvement of the Ensemble Streamflow Prediction System Using Optimal Linear Correction)

  • 정대일;이재경;김영오
    • 한국수자원학회논문집
    • /
    • 제38권6호
    • /
    • pp.471-483
    • /
    • 2005
  • 일단위 강우-유출모형인 SSARR모형을 이용하여 한강, 낙동강, 섬진강유역에 월 앙상블 유량예측 시스템을 구축하였다. 우선 SSARR모형의 월 평균 유출량에 대한 모의정확성을 평가한 결과 한강과 낙동강유역에서는 과소추정하는 경향이 뚜렷하였으며, 섬진강유역에서는 모의오차의 분산이 커 정확성 개선이 필요하였다. 최적선형 보정기법을 적용하여 SSARR모형의 모의유량을 보정한 결과, 섬진강을 제외한 한강과 낙동강유역의 검증지점에서는 모의 정확성이 크게 개선되었다. 또한 1998년부터 2003년까지 월 앙상블 유량예측을 실시하여 예측 정확성을 평가하였다. 한강과 낙동강유역에서 최적선형 보정기법을 이용할 경우 앙상블 유량예측 정확성이 크게 개선되었으나, 섬진강유역은 개선효과가 미비하였다.

Word2Vec과 앙상블 합성곱 신경망을 활용한 영화추천 시스템의 정확도 개선에 관한 연구 (A Study on the Accuracy Improvement of Movie Recommender System Using Word2Vec and Ensemble Convolutional Neural Networks)

  • 강부식
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.123-130
    • /
    • 2019
  • 웹 추천기법에서 가장 많이 사용하는 방식 중의 하나는 협업필터링 기법이다. 협업필터링 관련 많은 연구에서 정확도를 개선하기 위한 방안이 제시되어 왔다. 본 연구는 Word2Vec과 앙상블 합성곱 신경망을 활용한 영화추천 방안에 대해 제안한다. 먼저 사용자, 영화, 평점 정보에서 사용자 문장과 영화 문장을 구성한다. 사용자 문장과 영화 문장을 Word2Vec에 입력으로 넣어 사용자 벡터와 영화 벡터를 구한다. 사용자 벡터는 사용자 합성곱 모델에 입력하고, 영화 벡터는 영화 합성곱 모델에 입력한다. 사용자 합성곱 모델과 영화 합성곱 모델은 완전연결 신경망 모델로 연결된다. 최종적으로 완전연결 신경망의 출력 계층은 사용자 영화 평점의 예측값을 출력한다. 실험결과 전통적인 협업필터링 기법과 유사 연구에서 제안한 Word2Vec과 심층 신경망을 사용한 기법에 비해 본 연구의 제안기법이 정확도를 개선함을 알 수 있었다.

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.

레이더 강우 앙상블과 유출 블랜딩 기법을 이용한 최적 유출 수문곡선 산정 (Estimation of optimal runoff hydrograph using radar rainfall ensemble and blending technique of rainfall-runoff models)

  • 이명진;강나래;김종성;김형수
    • 한국수자원학회논문집
    • /
    • 제51권3호
    • /
    • pp.221-233
    • /
    • 2018
  • 최근 기후변화로 인한 국지성 호우 및 태풍 피해가 자주 발생하고 있다. 이와 같은 피해를 저감하기 위해서는 정확한 강우의 예측과 홍수량 산정이 필요하다. 그러나 지점 및 레이더 강우 시 공간적 오차를 포함하고 있고, 유출 모형에 의한 유출수문곡선 역시 보정을 실시하더라도 관측유량과 오차를 가지고 있어 불확실성이 존재한다. 따라서 본 연구에서는 확률론적 강우 앙상블을 생성하여 강우의 불확실성을 확인하였다. 또한 유출 결과를 통해 수문 모형의 불확실성을 확인하였고, 블랜딩 기법을 이용하여 하나의 통합된 유출 수문곡선을 제시하였다. 생성된 강우앙상블은 강우강도 및 지형적인 영향으로 레이더가 과소 관측이 될 때, 강우 앙상블의 불확실성이 큰 것을 확인하였고, 블랜딩 기법을 적용하여 산정된 최적 유출 수문곡선은 유출모형의 불확실성을 크게 줄이는 것으로 나타났다. 본 연구 결과를 활용한다면, 정확한 홍수량 산정 및 예측을 통해 집중호우로 인한 피해를 줄일 수 있을 것으로 판단된다.

Molecular Dynamics Simulation Studies of Benzene, Toluene, and p-Xylene in NpT Ensemble: Thermodynamic, Structural, and Dynamic Properties

  • Kim, Ja-Hun;Lee, Song-Hi
    • Bulletin of the Korean Chemical Society
    • /
    • 제23권3호
    • /
    • pp.447-453
    • /
    • 2002
  • In this paper we have presented the results of thermodynamic, structural, and dynamic properties of model systems for liquid benzene, toluene and p-xylene in an isobaric-isothermal (NpT) ensemble at 283.15, 303.15, 323.15, and 343.15 K using molecular dynamics (MD) simulation. This work is initiated to compensate for our previous canonical (NVT) ensemble MD simulations [Bull. Kor. Chem. Soc. 2001, 23, 441] for the same systems in which the calculated pressures were too low. The calculated pressures in the NpT ensemble MD simulations are close to 1 atm and the volume of each system increases with increasing temperature. The first and second peaks in the center of mass g(r) diminish gradually and the minima increase as usual for the three liquids as the temperature increases. The three peaks of the site-site gC-C(r) at 283.15 K support the perpendicular structure of nearest neighbors in liquid benzene. Two self-diffusion coefficients of liquid benzene via the Einstein equation and via the Green-Kubo relation are in excellent agreement with the experimental measures. The self-diffusion coefficients of liquid toluene and p-xylene are in accord with the trend that the self-diffusion coefficient decreases with increasing number of methyl group. The friction constants calculated from the force auto-correlation (FAC) function with the assumption that the fast random force correlation ends at time which the FAC has the first negative value give a correct qualitative trends: decrease with increase of temperature and increase with the number of methyl group. The friction constants calculated from the FAC's are always less than those obtained from the friction-diffusion relation which reflects that the random FAC decays slower than the total FAC as described by Kubo [Rep. Prog. Phys. 1966, 29, 255].

Path Loss Prediction Using an Ensemble Learning Approach

  • Beom Kwon;Eonsu Noh
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.1-12
    • /
    • 2024
  • 경로 손실(Path Loss)을 예측하는 것은 셀룰러 네트워크(Cellular Network)에서 기지국(Base Station) 의 설치 위치 선정 등 무선망 설계에 중요한 요인 중 하나다. 기존에는 기지국의 최적 설치 위치를 결정하기 위해 수많은 현장 테스트(Field Tests)를 통해 경로 손실 값을 측정했다. 따라서 측정에 많은 시간이 소요된다는 단점이 있었다. 이러한 문제를 해결하기 위해 본 연구에서는 머신러닝(Machine Learning, ML) 기반의 경로 손실 예측 방법을 제안한다. 특히, 경로 손실 예측 성능을 향상시키기 위해서 앙상블 학습(Ensemble Learning) 접근법을 적용하였다. 부트스트랩 데이터 세트(Bootstrap Dataset)을 활용하여 서로 다른 하이퍼파라미터(Hyperparameter) 구성을 갖는 모델들을 얻고, 이 모델들을 앙상블하여 최종 모델을 구축했다. 인터넷상에 공개된 경로 손실 데이터 세트를 활용하여 제안하는 앙상블 기반 경로 손실 예측 방법과 다양한 ML 기반 방법들의 성능을 평가 및 비교했다. 실험 결과, 제안하는 방법이 기존 방법들보다 우수한 성능을 달성하였으며, 경로 손실 값을 가장 정확하게 예측할 수 있다는 것을 입증하였다.

앙상블모형을 이용한 공백기술예측 (Vacant Technology Forecasting using Ensemble Model)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제21권3호
    • /
    • pp.341-346
    • /
    • 2011
  • 공백기술예측은 기술경영 분야에서 중요하게 다루어지는 주제이다. 다양한 분야에서 현재까지의 기술개발결과를 분석하여 상대적으로 연구개발이 이루어지지 못한 분야를 찾아내어 개발하는 것은 국가와 기업의 발전에 중요한 영향을 미친다. 현재 특허는 기술개발결과에 대한 가장 객관적인 데이터 중 하나이다. 본 논문에서는 특허데이터를 이용하여 공백기술을 정량적으로 예측할 수 있는 방법에 대하여 연구한다. 하나의 정량적 기술예측모형이 완벽하다는 보장을 할 수 없기 때문에 본 연구에서는 여러 가지 모형들의 결과를 결합하여 예측하는 앙상블모형을 제안한다. 통계적 분석기법과 기계학습 알고리즘을 결합하여 보다 객관적이고 정확한 공백기술예측모형을 구축한다. 제안방법의 객관적인 성능평가를 위하여 각 기술분야에 대하여 최초 특허가 이루어진 시점부터 최근까지 출원, 등록된 특허데이터를 이용한다.