• 제목/요약/키워드: Ensemble learning technique

검색결과 73건 처리시간 0.018초

영작문 자동채점 시스템 개발에서 학습데이터 부족 문제 해결을 위한 앙상블 기법 적용의 효과 (Effect of Application of Ensemble Method on Machine Learning with Insufficient Training Set in Developing Automated English Essay Scoring System)

  • 이경호;이공주
    • 정보과학회 논문지
    • /
    • 제42권9호
    • /
    • pp.1124-1132
    • /
    • 2015
  • 일반적으로, 교사 학습 알고리즘이 적절히 학습되기 위해서는 레이블의 편향이 없는 충분한 양의 학습데이터가 필요하다. 그러나 영작문 자동채점 시스템 개발을 위한 충분하고 편향되지 않은 학습데이터를 수집하는 것은 어려운 일이다. 또한 영어 작문 평가의 경우, 전체적인 답안 수준에 대한 다면적인 평가가 이루어진다. 적고 편향되기 쉬운 학습데이터와 이를 이용한 여러 평가영역에 대한 학습모델을 생성해야하기 때문에, 이를 위한 적절한 기계학습 알고리즘을 결정하기 어렵다. 본 논문에서는 이러한 문제를 앙상블학습을 통해 완화할 수 있음을 실험에 통해 보이고자 한다. 실제 중, 고등학교 학생들을 대상으로 시행된 단문형 영작문 채점 결과를 학습데이터 개수와 편향성을 조절하여 실험하였다. 학습데이터의 개수 변화와 편향성 변화의 실험 결과, 에이다부스트 알고리즘을 적용한 결과를 투표로 결합한 앙상블 기법이 다른 알고리즘들 보다 전반적으로 더 나은 성능을 나타냄을 실험을 통해 나타내었다.

드론 항공영상을 이용한 딥러닝 기반 앙상블 토지 피복 분할 알고리즘 개발 (Development of Deep Learning Based Ensemble Land Cover Segmentation Algorithm Using Drone Aerial Images)

  • 박해광;백승기;정승현
    • 대한원격탐사학회지
    • /
    • 제40권1호
    • /
    • pp.71-80
    • /
    • 2024
  • 이 연구에서는 무인 항공기(Unmanned Aerial Vehicle, UAV)가 캡처한 이미지의 의미론적 토지 피복 분할 성능을 향상시키기 위한 앙상블 학습 기법을 제안하고 있다. 도시 계획과 같은 분야에서 UAV 사용이 증가함에 따라 토지 피복 분할을 위한 딥러닝 분할 방법을 활용한 기술 개발이 활발히 이루어지고 있다. 이 연구는 대표적인 분할 모델인 U-Net, DeepLabV3 그리고 Fully Convolutional Network (FCN)를 사용하여 분할 예측 성능을 개선하는 방법을 제안한다. 제안된 접근 방식은 세 가지 분할 모델의 훈련 손실, 검증 정확도 및 클래스별 점수를 통합하여 앙상블 모델을 개발하고 전반적인 예측 성능을 향상시킨다. 이 방법은 건물, 도로, 주차장, 논, 밭, 나무, 빈 공간, 미분류 영역을 포함하는 일곱 가지 클래스가 있는 토지 피복 분할 문제에 적용하여 평가하였다. 앙상블 모델의 성능은 mean Intersection over Union (mIoU)으로 평가하였으며, 제안된 앙상블 모델과 기존의 세 가지 분할 방법을 비교한 결과 mIoU 성능이 향상되었음이 나타났다. 따라서 이 연구는 제안된 기술이 의미론적 분할 모델의 성능을 향상시킬 수 있음을 확인하였다.

앙상블 기법을 활용한 온라인 음식 상품 리뷰 감성 분석 (Sentiment analysis of online food product review using ensemble technique)

  • 김한민;박경보
    • 디지털융복합연구
    • /
    • 제17권4호
    • /
    • pp.115-122
    • /
    • 2019
  • 온라인 마켓에서 소비자는 다양한 상품을 접하고 이에 대한 의견을 자유롭게 기술한다. 소비자의 상품 리뷰가 다른 소비자와 온라인 마켓의 성공에 큰 영향을 주는 만큼 온라인 마켓은 판매 상품에 대한 소비자의 감성을 정확하게 분석할 필요가 있다. 데이터 분석 기법 중 하나인 텍스트 마이닝은 상품에 대한 소비자 리뷰를 분석하여 상품을 효율적으로 관리할 수 있게 해준다. 선행 연구들은 데이터 도메인과 사이즈에 따라 분석 결과의 정확도가 다르게 나타남에도 불구하고 특정 도메인과 2만개 미만의 데이터를 분석해왔다. 또한, 분석의 정확도를 향상 시킬 수 있는 추가 요인에 대한 연구는 거의 수행하지 않았다. 본 연구는 앙상블 기법을 활용하여 기존 연구에서 주로 다루지 않은 음식 상품 도메인의 72,530개 리뷰 데이터를 분석하였다. 또한, 분석 정확도 향상과 관련하여 요약 리뷰의 영향력을 살펴보았다. 연구 결과, 본 연구는 기존 연구와 다르게 부스팅 앙상블 기법이 가장 높은 분석 정확도를 보인다는 사실을 발견하였다. 또한, 요약 리뷰는 분석의 정확도 향상에 기여하는 것으로 나타났다.

A Study on Korean Sentiment Analysis Rate Using Neural Network and Ensemble Combination

  • Sim, YuJeong;Moon, Seok-Jae;Lee, Jong-Youg
    • International Journal of Advanced Culture Technology
    • /
    • 제9권4호
    • /
    • pp.268-273
    • /
    • 2021
  • In this paper, we propose a sentiment analysis model that improves performance on small-scale data. A sentiment analysis model for small-scale data is proposed and verified through experiments. To this end, we propose Bagging-Bi-GRU, which combines Bi-GRU, which learns GRU, which is a variant of LSTM (Long Short-Term Memory) with excellent performance on sequential data, in both directions and the bagging technique, which is one of the ensembles learning methods. In order to verify the performance of the proposed model, it is applied to small-scale data and large-scale data. And by comparing and analyzing it with the existing machine learning algorithm, Bi-GRU, it shows that the performance of the proposed model is improved not only for small data but also for large data.

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.

Application of couple sparse coding ensemble on structural damage detection

  • Fallahian, Milad;Khoshnoudian, Faramarz;Talaei, Saeid
    • Smart Structures and Systems
    • /
    • 제21권1호
    • /
    • pp.1-14
    • /
    • 2018
  • A method is proposed to detect structural damages in the presence of damping using noisy data. This method uses Frequency Response Function (FRF) and Mode-Shapes as the input parameters for a system of Couple Sparse Coding (CSC) to study the healthy state of the structure. To obtain appropriate patterns of FRF for CSC training, Principal Component Analysis (PCA) technique is adopted to reduce the full-size FRF to overcome over-fitting and convergence problems in machine-learning training. To verify the proposed method, a numerical two-story frame structure is employed. A system of individual CSCs is trained with FRFs and mode-shapes, and then termed ensemble to detect the health condition of the structure. The results demonstrate that the proposed method is accurate in damage identification even in presence of up to 20% noisy data and 5% unconsidered damping ratio. Furthermore, it can be concluded that CSC ensemble is highly efficient to detect the location and the severity of damages in comparison to the individual CSC trained only with FRF data.

앙상블 Voting 기법을 활용한 배추 가격 예측에 관한 연구 (A Study on the Prediction of Cabbage Price Using Ensemble Voting Techniques)

  • 이창민;송성광;정성욱
    • 융합정보논문지
    • /
    • 제12권3호
    • /
    • pp.1-10
    • /
    • 2022
  • 배추와 같은 채소류는 자연재해의 영향을 많이 받기 때문에 폭우나 병해와 같은 재해로 인해 가격 변동이 심해져 농가 경제에 영향을 미치게 된다. 이러한 문제를 해결하기 위해서 농산물 가격 예측을 위한 다양한 노력이 행해졌지만 극심한 가격 예측 변동을 예측하기는 어렵다. 본 연구에서는 단일 분류기를 결합하여 다양한 여러 개의 분류기를 통해 최종 예측 결과를 결정하는 방식인 앙상블 Voting 기법으로 배추 가격을 분석하였다. 또한 시계 열 분석 방법인 LSTM과 부스팅 기법인 XGBoost와 RandomForest로 결과 비교를 하였다. 가격 데이터는 일별 데이터를 사용하였고 배추 가격에 영향을 주는 기상정보와 물가지수 등을 사용하였다. 연구 결과로는 실제값과 예측값의 차이를 보여주는 RMSE 값이 약 236 수준이다. 이 연구를 활용하여 농산물 가격 예측과 같은 다른 시계 열 분석 연구 모델 선정에 활용할 수 있을 것으로 기대된다.

XGboost 기반의 WiFi 신호를 이용한 실내 측위 기법 (Indoor positioning method using WiFi signal based on XGboost)

  • 황치곤;윤창표;김대진
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.70-75
    • /
    • 2022
  • 위치를 정확하게 측정하는 것은 다양한 서비스를 제공하는 데 필요하다. 실내 측위를 위한 데이터는 스마트 폰의 앱을 통해 WiFi 장치로부터 RSSI 값을 측정한다. 이렇게 측정된 데이터는 기계학습의 원시 데이터가 된다. 특징 데이터는 측정된 RSSI 값이고, 레이블은 측정한 위치에 대한 공간의 이름으로 한다. 이를 위한 기계학습 기법은 분류에 효율적인 기법을 적용하여 WiFi 신호만으로 정확한 위치를 예측하는 기법을 연구하고자 한다. 앙상블은 하나의 모델보다 다양한 모델을 통하여 더 정확한 예측값을 구하는 기법으로, bagging과 boosting이 있다. 이 중 Boosting은 샘플링한 데이터를 바탕으로 모델링한 결과를 통해 모델의 가중치를 조정하는 기법으로, 다양한 알고리즘이 있다. 본 연구는 위 기법 중 XGboost를 이용하고, 다른 앙상블 기법과 이용한 수행결과를 바탕으로 성능을 평가한다.

앙상블 머신러닝 모델 기반 유튜브 스팸 댓글 탐지 (Ensemble Machine Learning Model Based YouTube Spam Comment Detection)

  • 정민철;이지현;오하영
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.576-583
    • /
    • 2020
  • 이 논문은 최근 엄청난 성장을 하고 있는 유튜브의 댓글 중 스팸 댓글을 판별하는 기법을 제안한다. 유튜브에서는 광고를 통한 수익 창출이 가능하기 때문에 인기 동영상에서 자신의 채널이나 동영상을 홍보하거나 영상과 관련 없는 댓글을 남기는 스패머(spammer)들이 나타났다. 유튜브에서는 자체적으로 스팸 댓글을 차단하는 시스템을 운영하고 있지만 여전히 제대로 차단하지 못한 스팸 댓글들이 있다. 따라서, 유튜브 스팸 댓글 판별에 대한 관련 연구들을 살펴 보고 인기 동영상인 싸이, 케이티 페리, LMFAO, 에미넴, 샤키라의 뮤직비디오 댓글 데이터에 6가지 머신러닝 기법(의사결정나무, 로지스틱 회귀분석, 베르누이 나이브 베이즈, 랜덤 포레스트, 선형 커널을 이용한 서포트 벡터 머신, 가우시안 커널을 이용한 서포트 벡터 머신)과 이들을 결합한 앙상블 모델로 스팸 탐지 실험을 진행하였다.

외재적 변수를 이용한 딥러닝 예측 기반의 도시가스 인수량 예측 (Deep Learning Forecast model for City-Gas Acceptance Using Extranoues variable)

  • 김지현;김지은;박상준;박운학
    • 한국가스학회지
    • /
    • 제23권5호
    • /
    • pp.52-58
    • /
    • 2019
  • 본 연구에서는 국내 도시가스 인수량에 대한 예측 모델을 개발하였다. 국내의 도시가스 회사는 KOGAS에 차년도 수요를 예측하여 보고해야 하므로 도시가스 인수량 예측은 도시가스 회사에 중요한 사안이다. 도시가스 사용량에 영향을 미치는 요인은 용도구분에 따라 다소 상이하나, 인수량 데이터는 용도별 구분이 어렵기 때문에 특정 용도에 관계없이 영향을 주는 요인으로 외기온도를 고려하여 모델개발을 실시하였다.실험 및 검증은 JB주식회사의 2008년부터 2018년까지 총 11년 치 도시가스 인수량 데이터를 사용하였으며, 전통적인 시계열 분석 중 하나인 ARIMA(Auto-Regressive Integrated Moving Average)와 딥러닝 기법인 LSTM(Long Short-Term Memory)을 이용하여 각각 예측 모델을 구축하고 두 방법의 단점을 최소화하기 위하여 다양한 앙상블(Ensemble) 기법을 사용하였다. 본 연구에서 제안한 일별 예측의 오차율 절댓값 평균은 Ensemble LSTM 기준 0.48%, 월별 예측의 오차율 절댓값 평균은 2.46%, 1년 예측의 오차율 절댓값 평균은 5.24%임을 확인하였다.