• 제목/요약/키워드: 앙상블 학습 기법

검색결과 95건 처리시간 0.025초

협업필터링과 스태킹 모형을 이용한 상품추천시스템 개발 (Development of Product Recommender System using Collaborative Filtering and Stacking Model)

  • 박성종;김영민;안재준
    • 융합정보논문지
    • /
    • 제9권6호
    • /
    • pp.83-90
    • /
    • 2019
  • 사람들은 자신의 더 나은 선택을 위하여 끊임없이 노력한다. 이러한 이유로 추천시스템이 개발되었으며, 1990년대 초반부터 계속해서 발전하고 있다. 그 중, 협업필터링 기법은 추천시스템 분야에서 우수한 성능을 보였으며, 기계학습이 등장하면서 기계학습을 이용한 추천시스템에 관한 연구가 활발히 진행되었다. 본 연구는 앙상블 방법 중에서 스태킹 모형을 사용하여 추천시스템을 구축하며, 실제 고객의 상품 구매 데이터를 활용하여 협업필터링과 기계학습 기반 스태킹 모형으로 추천시스템을 개발하였다. 제시한 모형의 추천 성능은 기존의 협업필터링과 기계학습 기반 추천시스템과 비교하여 모형의 우수성을 확인하며, 연구결과는 스태킹 모형을 이용한 추천시스템 모형의 추천 성능이 개선됨을 확인하였다. 향후 본 연구에서 제안한 모형은 개인이나 기업이 더 나은 선택을 하여 상품을 추천할 때 도움을 줄 것으로 기대한다.

데이터 증강 기법의 앙상블을 통한 레이블 불균형 해 소: 설명 가능한 신용평가 모델을 중심으로 (Mitigiating Data Imbalance via Ensembled Data Augmentation: An Explainable Credit Scoring Models)

  • 정지영;이소연;용예린;김민준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.483-486
    • /
    • 2023
  • 최근 금융 분야는 예측 모델의 복잡성으로 인한 블랙박스 문제와 금융 규제에 대한 관심이 높아지고 있다. 이에 따라 금융 업계는 신뢰성과 투명성을 강조하며, 특히 신용평가 분야에서 설명 가능한 모델 연구가 활발히 진행되고 있다. 또한, 해당 분야에서 소수 클래스에 대해 충분히 학습하지 못하고 다수 클래스에 과적합 될 수 있는 데이터 불균형 문제 역시 강조되고 있다. 이는 제 2종 오류(Type 2 Error)를 최소화해야 하는 상황에서 더욱 부각되며, 대출 상환 능력이 낮은 고객을 최대한 식별해야 하는 개인 신용평가 문제에서 매우 중요한 화두로 떠오르고 있다. 본 논문에서는 어텐션 메커니즘을 활용하여 모델의 설명 가능성을 개선하고, 분석 결과를 해석하는 데 도움이 되고자 한다. 더 나아가, SMOTE, GAN, ADASYN 등 총 다섯 가지 데이터 증강 기법을 실험하여, 이를 앙상블 하였을 때 소수 클래스 레이블에 대한 분류 정확도를 크게 개선할 수 있음을 확인하였다.

호우 영향예보를 위한 수문학적 정량강우예측(HQPF) 개선 연구 (An Improvement Study on the Hydrological Quantitative Precipitation Forecast (HQPF) for Rainfall Impact Forecasting)

  • 신윤후;김성민;지용근;이영미;김병식
    • 한국방재안전학회논문집
    • /
    • 제15권4호
    • /
    • pp.87-98
    • /
    • 2022
  • 최근 짧은 시간 동안 많은 강우가 내리는 국지성 집중호우가 빈번히 발생하고 이로 인한 침수피해가 증가하고 있다. 국지성 집중호우로 인한 피해를 예방하기 위하여 기상청이 제공하는 지역 앙상블 예측시스템(Local ENsemble prediction System, LENS)과 관측자료와 동네예보 자료를 활용한 기계학습과 확률 매칭(Probability Matching, PM) 기법을 이용하여 수문학적 정량강우예측정보(Hydrological Quantative Precipitation Forecast, HQPF)을 개발하였다. 국지성 집중호우로 인한 침수피해 대비를 위한 호우 영향정보로 HQPF를 생산하고 있지만, 낮은 강우강도에 대하여 과대예측하는 경향이 나타났다. 본 연구에서는 HQPF의 예측정확도 향상과 과대예측 성향을 개선하기 위하여 머신러닝 학습자료 기간확대, 앙상블 기법 분석 및 확률매칭(PM) 기법 프로세스 변경을 통하여 HQPF 개선하였다. 개선된 HQPF의 예측성능을 평가하기 위해 2021년 8월 27일 ~ 2021년 9월 3일 장마전선으로 인한 호우 사례를 대상으로 예측성능 검증을 수행하였다. 10 mm 이하의 강우에 대하여 예측정확도가 크게 향상되었고, 관측과 유사한 발생가능성 및 강우영역을 예측하는 등 과대예측 성향이 개선되었음을 확인하였다.

데이터 증강 및 앙상블 기법을 이용한 딥러닝 기반 GPR 공동 탐지 모델 성능 향상 연구 (Improving the Performance of Deep-Learning-Based Ground-Penetrating Radar Cavity Detection Model using Data Augmentation and Ensemble Techniques)

  • 최용욱;서상진;장한길로;윤대웅
    • 지구물리와물리탐사
    • /
    • 제26권4호
    • /
    • pp.211-228
    • /
    • 2023
  • 방조제의 모니터링에는 지구물리학적 비파괴 검사인 GPR (Ground Penetrating Radar) 탐사가 주로 이용된다. GPR 반응은 상황에 따라 복잡한 양상을 보이므로 자료의 처리와 해석은 전문가의 주관적 판단에 의존하며, 이는 오 탐지의 가능성을 불러옴과 동시에 시간이 오래 걸린다는 단점이 있다. 따라서 딥 러닝을 이용하여 GPR 탐사자료의 공동을 탐지하는 다양한 연구들이 수행되고 있다. 딥 러닝 기반 방법은 데이터 기반 방법으로써 풍부한 자료가 필요하나 GPR 탐사의 경우 비용 등의 이유로 학습에 이용할 현장 자료가 부족하다. 따라서 본 논문에서는 데이터 증강 전략을 이용하여 딥 러닝 기반 방조제 GPR 탐사자료 공동 탐지 모델을 개발하였다. 다년간 동일한 방조제에서 탐사 자료를 사용하여 데이터 세트를 구축하였으며, 컴퓨터 비전 분야의 객체 탐지 모델 중 YOLO (You Look Only Once) 모델을 이용하였다. 데이터 증강 전략을 비교 및 분석함으로써 최적의 데이터 증강 전략을 도출하였고, 초기 모델 개발 후 앵커 박스 클러스터링, 전이 학습, 자체 앙상블, 모델 앙상블 기법을 단계적으로 적용하여 최종 모델 도출 후 성능을 평가하였다.

경향성 변화에 대응하는 딥러닝 기반 초미세먼지 중기 예측 모델 개발 (Development of a Deep Learning-based Midterm PM2.5 Prediction Model Adapting to Trend Changes)

  • 민동준;김혜림;이상근
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.251-259
    • /
    • 2024
  • 초미세먼지, 특히 지름이 2.5㎛ 이하인 PM2.5는 인체 건강과 경제에 큰 피해를 주는 오염물질이다. 본 연구는 대한민국 서울 지역을 중심으로, 2017년부터 2022년까지 자료를 수집하여 PM2.5 데이터 분석 및 데이터 경향성 변화 추이를 분석하고, PM2.5 중기 예측 모델을 개발하는 것을 목표로 한다. 수집, 생산된 대기질 및 기상 데이터, 재분석 데이터, 수치모델 예측 데이터를 바탕으로, 모델을 학습하고 이를 통합한 경향성 변화에도 대응할 수 있는 앙상블 기법을 제안한다. 본 연구에서 제안하는 앙상블 기법은 PM2.5 농도 예측 성능 면에서 기존 모델 대비 미래 D+3~D+6 예측일 F1 Score 기준 평균 2019년 약 42.16%, 2021년 약 58.92%, 2022년 약 34.79% 높은 성능을 보였다. 제안한 모델은 변화하는 환경 조건에도 성능을 유지함으로써 안정적인 예측을 가능하게 하며, 기존 딥러닝 기반 PM2.5 단기 예측보다 먼 예측을 수행하는 중기 예측 모델을 제시한다.

ECG를 통한 Feature Ensemble 기반 Wolff Parkinson White 증후군 분류 (Feature Ensemble-based Wolff Parkinson White Syndrome classification through ECG)

  • 오규태;김인기;김범준;전영훈;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.169-171
    • /
    • 2023
  • Wolff Parkinson White Syndrome(WPW)은 일반인과는 다르게 선천적으로 심방과 심실 사이에 부전도로(Accessory Pathway)가 존재하여 정상 전도와 비교하였을 때, 빠른 속도로 심실을 자극하여 부정맥을 일으키는 것을 의미한다. WPW는 부정맥이 주된 증상이기는 하나, 평소에는 무증상인 경우가 많고, 성인이 되어 갑작스럽게 발생하는 경우가 존재하기 때문에 인지하지 못하고 살아가는 환자들이 많다는 것이 특징이다. 이러한 특징은 갑작스러운 건강 악화가 타인의 생명에 악영향을 줄 수 있는 트럭 운전기사나 의사와 같은 직업군 등의 경우 WPW를 조기에 발견하고 치료해 위험을 사전에 방지하는 것이 매우 중요하다. 따라서, 본 논문에서는 Electrocardiogram(ECG) 데이터를 기반으로 WPW를 자동으로 분류하기 위한 Feature Ensemble 기반 심층 학습 프레임워크를 제안한다. 제안된 기법의 경우 단일 1D-CNN과 GRU를 이용한 기법 대비 F1-Score, Accuracy 기준의 성능 향상을 달성하였기에 본 Task에 적합함을 보여준다.

  • PDF

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.

스태킹 앙상블 모델을 이용한 시간별 지상 오존 공간내삽 정확도 향상 (Improved Estimation of Hourly Surface Ozone Concentrations using Stacking Ensemble-based Spatial Interpolation)

  • 김예진;강은진;조동진;이시우;임정호
    • 한국지리정보학회지
    • /
    • 제25권3호
    • /
    • pp.74-99
    • /
    • 2022
  • 지상 오존은 차량 및 산업 현장에서 배출된 질소화합물(Nitrogen oxides; NOx)과 휘발성 유기화합물(Volatile Organic Compounds; VOCs)의 광화학 반응을 통해 생성되어 식생 및 인체에 악영향을 끼친다. 국내에서는 실시간 오존 모니터링을 수행하고 있지만 관측소 기반으로, 미관측 지역의 공간 분포 분석에 어려움이 있다. 본 연구에서는 스태킹 앙상블 기법을 활용하여 매시간 남한 지역의 지상 오존 농도를 1.5km의 공간해상도로 공간내삽하였고, 5-fold 교차검증을 수행하였다. 스태킹 앙상블의 베이스 모델로는 코크리깅(Cokriging), 다중 선형 회귀(Multi-Linear Regression; MLR), 랜덤 포레스트(Random Forest; RF), 서포트 벡터 회귀(Support Vector Regression; SVR)를 사용하였다. 각 모델의 정확도 비교 평가 결과, 스태킹 앙상블 모델이 연구 기간 내 시간별 평균 R 및 RMSE이 0.76, 0.0065ppm으로 가장 높은 성능을 보여주었다. 스태킹 앙상블 모델의 지상 오존 농도 지도는 복잡한 지형 및 도시화 변수의 특징이 잘 드러나며 더 넓은 농도 범위를 보여주었다. 개발된 모델은 매시간 공간적으로 연속적인 공간 지도를 산출할 수 있을 뿐만 아니라 8시간 평균치 산출 및 시계열 분석에 있어서도 활용 가능성이 클 것으로 기대된다.

스텍앙상블과 인접 넷플로우를 활용한 침입 탐지 시스템 (Intrusion Detection System Utilizing Stack Ensemble and Adjacent Netflow)

  • 성지현;이권용;이상원;석민재;김세린;조학수
    • 정보보호학회논문지
    • /
    • 제33권6호
    • /
    • pp.1033-1042
    • /
    • 2023
  • 본 논문은 네트워크에서 침입 행위를 하는 플로우를 탐지하는 네트워크 침입 탐지 시스템을 제안한다. 대다수 연구에 활용되는 데이터세트는 시계열 정보를 포함하고 있지 않으며, 공격 사례가 적은 공격은 샘플 데이터 수가 부족해 탐지율 향상이 어렵다. 하지만 탐지 방안에 대해 연구 결과가 부족한 상황이다. 본 연구에서는 ANN(Artificial Neural Network) 모델과 스택 앙상블 기법을 활용한 선행 연구를 토대로 하였다. 앞서 언급한 문제점을 해결하기 위해 인접 플로우를 활용하여 시계열 정보를 추가하고 희소 공격의 샘플을 강화하여 학습하여 탐지율을 보강하였다.

기계학습을 활용한 소셜 텍스트의 주요 정보 추출 기법 (Extracting Significant Information from Social Text using Machine Learning)

  • 김소현;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.742-745
    • /
    • 2016
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 데이터로부터 유용한 데이터를 추출하는 작업은 매우 중요하다. 이에 본 논문은 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한 뒤 태그의 깊이 특징을 이용하여 주요 본문을 찾는 방법을 제안한다. 직접 수집한 데이터를 이용한 실험에서 태그 분류 정확도가 0.990, 본문을 찾아낸 문서의 비율이 80.5%로 나왔다.