• 제목/요약/키워드: Random Forest Classification

검색결과 299건 처리시간 0.023초

Word2vec과 앙상블 분류기를 사용한 효율적 한국어 감성 분류 방안 (Effective Korean sentiment classification method using word2vec and ensemble classifier)

  • 박성수;이건창
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.133-140
    • /
    • 2018
  • 감성 분석에서 정확한 감성 분류는 중요한 연구 주제이다. 본 연구는 최근 많은 연구가 이루어지는 word2vec과 앙상블 방법을 이용하여 효과적으로 한국어 리뷰를 감성 분류하는 방법을 제시한다. 연구는 20 만 개의 한국 영화 리뷰 텍스트에 대해, 품사 기반 BOW 자질과 word2vec를 사용한 자질을 생성하고, 두 개의 자질 표현을 결합한 통합 자질을 생성했다. 감성 분류를 위해 Logistic Regression, Decision Tree, Naive Bayes, Support Vector Machine의 단일 분류기와 Adaptive Boost, Bagging, Gradient Boosting, Random Forest의 앙상블 분류기를 사용하였다. 연구 결과로 형용사와 부사를 포함한 BOW자질과 word2vec자질로 구성된 통합 자질 표현이 가장 높은 감성 분류 정확도를 보였다. 실증결과, 단일 분류기인 SVM이 가장 높은 성능을 나타내었지만, 앙상블 분류기는 단일 분류기와 비슷하거나 약간 낮은 성능을 보였다.

땅밀림 위험지 평가를 위한 기계학습 분류모델 비교 (A Performance Comparison of Machine Learning Classification Methods for Soil Creep Susceptibility Assessment)

  • 이제만;서정일;이진호;임상준
    • 한국산림과학회지
    • /
    • 제110권4호
    • /
    • pp.610-621
    • /
    • 2021
  • 지진 발생과 집중호우에 의해 땅밀림형 산사태 유형으로 분류되는 땅밀림 현상이 전국적으로 광범위하게 나타나고 있다. 산림청은 땅밀림으로 인한 인명 및 재산 피해를 예방하기 위해 땅밀림 우려지 현장조사 판정표를 통해 땅밀림 발생 위험지를 사전에 파악하고 있다. 한편 최근에는 컴퓨터 기술의 발달로 인공지능의 한 분야인 기계학습 분류기법을 이용하여 산지재해 취약성을 평가하거나 자연재해를 예측하고 있다. 따라서 이 연구에서는 기계학습 분류기법인 k-Nearest Neighbor(k-NN), Naive Bayes(NB), Random Forest(RF), 그리고 Support Vector Machine(SVM) 분류모델을 이용하여 땅밀림 발생 위험등급을 분류하였다. 한국치산기술협회의 2018~2020년 조사 자료 4,618개 중에서 땅밀림 현상의 발생 여부를 고려하여 발생지 총 146개소, 그리고 미발생지 146개소를 임의추출하여 292개 자료를 선정하였으며, 이 중 70%에 해당하는 204개소 자료를 훈련자료로 하여 모델을 구축하였다. 전체 자료의 30%에 해당하는 88개 검증자료에 대해 모델을 평가한 결과, k-NN은 0.727, NB는 0.750, RF는 0.807, 그리고 SVM은 0.750의 분류정확도를 보였다. 또한, Kappa 상관계수는 각각 0.534, 0.580, 0.673 및 0.585, 그리고 AUC는 각각 0.872, 0.912, 0.943 및 0.834로 계산되었다. 따라서 땅밀림 위험지역 판정을 위한 기계학습 분류모델은 RF, NB, SVM, 그리고 k-NN 순으로 높은 성능을 보였다. 기계학습 분류모델은 향후 산지토사재해의 예방 및 대응을 위한 기초자료로 활용 가능하며, 땅밀림 재해 관리 및 피해 경감에 위한 정책 개발에 필요한 정보를 제공할 것이다.

기계학습을 이용한 수출신용보증 사고예측 (The Prediction of Export Credit Guarantee Accident using Machine Learning)

  • 조재영;주지환;한인구
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 2021
  • 2020년 8월 정부는 한국판 뉴딜을 뒷받침하기 위한 공공기관의 역할 강화방안으로서 각 공공기관별 역량을 바탕으로 5대 분야에 걸쳐 총 20가지 과제를 선정하였다. 빅데이터(Big Data), 인공지능 등을 활용하여 대국민 서비스를 제고하고 공공기관이 보유한 양질의 데이터를 개방하는 등의 다양한 정책을 통해 한국판 뉴딜(New Deal)의 성과를 조기에 창출하고 이를 극대화하기 위한 다양한 노력을 기울이고 있다. 그중에서 한국무역보험공사(KSURE)는 정책금융 공공기관으로 국내 수출기업들을 지원하기 위해 여러 제도를 운영하고 있는데 아직까지는 본 기관이 가지고 있는 빅데이터를 적극적으로 활용하지 못하고 있는 실정이다. 본 연구는 한국무역보험공사의 수출신용보증 사고 발생을 사전에 예측하고자 공사가 보유한 내부 데이터에 기계학습 모형을 적용하였고 해당 모형 간에 예측성과를 비교하였다. 예측 모형으로는 로지스틱(Logit) 회귀모형, 랜덤 포레스트(Random Forest), XGBoost, LightGBM, 심층신경망을 사용하였고, 평가 기준으로는 전체 표본의 예측 정확도 이외에도 표본별 사고 확률을 구간으로 나누어 높은 확률로 예측된 표본과 낮은 확률로 예측된 경우의 정확도를 서로 비교하였다. 각 모형별 전체 표본의 예측 정확도는 70% 내외로 나타났고 개별 표본을 사고 확률 구간별로 세부 분석한 결과 양 극단의 확률구간(0~20%, 80~100%)에서 90~100%의 예측 정확도를 보여 모형의 현실적 활용 가능성을 보여주었다. 제2종 오류의 중요성 및 전체적 예측 정확도를 종합적으로 고려할 경우, XGBoost와 심층신경망이 가장 우수한 모형으로 평가되었다. 랜덤포레스트와 LightGBM은 그 다음으로 우수하며, 로지스틱 회귀모형은 가장 낮은 성과를 보였다. 본 연구는 한국무역보험공사의 빅데이터를 기계학습모형으로 분석해 업무의 효율성을 높이는 사례로서 향후 기계학습 등을 활용하여 실무 현장에서 빅데이터 분석 및 활용이 활발해지기를 기대한다.

머신러닝 기법을 활용한 대졸 구직자 취업 예측모델에 관한 연구 (Study on the Prediction Model for Employment of University Graduates Using Machine Learning Classification)

  • 이동훈;김태형
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권2호
    • /
    • pp.287-306
    • /
    • 2020
  • Purpose Youth unemployment is a social problem that continues to emerge in Korea. In this study, we create a model that predicts the employment of college graduates using decision tree, random forest and artificial neural network among machine learning techniques and compare the performance between each model through prediction results. Design/methodology/approach In this study, the data processing was performed, including the acquisition of the college graduates' vocational path survey data first, then the selection of independent variables and setting up dependent variables. We use R to create decision tree, random forest, and artificial neural network models and predicted whether college graduates were employed through each model. And at the end, the performance of each model was compared and evaluated. Findings The results showed that the random forest model had the highest performance, and the artificial neural network model had a narrow difference in performance than the decision tree model. In the decision-making tree model, key nodes were selected as to whether they receive economic support from their families, major affiliates, the route of obtaining information for jobs at universities, the importance of working income when choosing jobs and the location of graduation universities. Identifying the importance of variables in the random forest model, whether they receive economic support from their families as important variables, majors, the route to obtaining job information, the degree of irritating feelings for a month, and the location of the graduating university were selected.

아파트 하자 보수 시설공사 세부공종 머신러닝 분류 시스템에 관한 연구 (Classifying Sub-Categories of Apartment Defect Repair Tasks: A Machine Learning Approach)

  • 김은혜;지홍근;김지나;박은일;엄재용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권9호
    • /
    • pp.359-366
    • /
    • 2021
  • 대한민국 건설사들은 아파트 하자 정보를 축적하고 보수작업을 관리하기 위한 시스템을 운영하는데 상당한 인력과 비용을 투자하고 있다. 본 연구에서는 하자 접수 상세내용 텍스트 데이터를 이용하여 하자 보수 시설공사에 따른 세부공종을 분류하는 머신러닝 모델을 제안한다. 두 가지 단어 임베딩(Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF))과 두 가지 분류기(Support Vector Machine, Random Forest)를 통해 한국어로 작성된 65만건 이상의 하자 접수데이터로부터 하자보수 시설공사 세부공종을 분류했다. 특히, 이번 연구에서는 특정 시설공사(마감공사)의 9개 세부공종(가전제품, 도배공사, 도장공사, 미장공사, 석공사, 수장공사, 옥내가구공사, 주방기구공사, 타일공사)을 분류하는 이진분류 모델과 다중 분류 모델을 연구했다. 그 결과, TF-IDF와 Random Forest를 사용한 두가지 분류 모델에서 90%이상의 정확도, 정밀도, 재현율 및 F1점수를 확인했다.

기계학습 알고리즘에 기반한 뇌파 데이터의 감정분류 및 정확도 향상에 관한 연구 (A research on the emotion classification and precision improvement of EEG(Electroencephalogram) data using machine learning algorithm)

  • 이현주;신동일;신동규
    • 인터넷정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구에서는 공개된 뇌파 데이터인 DEAP(A Database for Emotion Analysis using Physiological Signals) 데이터 세트를 활용한 감정분류 분석 및 정확도 향상에 대한 실험을 진행하였다. 실험에는 32명에 대한 32개의 뇌파측정 채널 데이터가 모두 사용되었다. 전처리과정에서는 뇌파 데이터에 대한 256Hz 샘플링작업을 진행하였고, 유한 임펄스 응답 필터를 사용하여 주파수 대역별로 쎄타(4-8Hz), 슬로 알파(8-10Hz), 알파(8-12Hz), 베타(12-30Hz), 감마(31-45Hz) 파형에 대한 데이터를 추출하였다. 추출한 데이터는 시간-주파수 변형을 통하여 데이터의 상태를 구분한 후에, 독립성분분석방법을 통해 잡음(Artifact)을 제거하여 데이터를 정제했다. 도출된 데이터는 분류기 기계학습 알고리즘 실험을 시행할 수 있도록 CSV 파일로 변형 하였으며, 감정분류에는 Arousal-Valence 평면을 사용하였다. 감정은 "긍정적(Positive)", "부정적(Negative)" 이외에 평온한 상태로 존재하는 "중립적(Neutral)"의 3가지 상태로 분류하였다. 정확도를 개선하기 위해서 랜덤 포레스트(Random Forest) 알고리즘에 속성 선택적 분류기(Attribute Selected Classifier: ASC) 방식에 의해 선택된 속성을 적용하여 실험하였다. 정확도는 "각성(Arousal)" 부분에서 Koelstra의 결과보다 "32.48%" 높은 결과가 도출되었고, Liu의 실험의 "정서가(Valence)"와 비교해보면 ASC(Random Forest) 결과가 "8.13%" 더 높은 결과를 도출하였다. 정확도를 개선하기 위해 ASC 방식을 적용한 랜덤 포레스트 분류기 실험결과에서는 전체평균을 기준으로 기존 연구 결과와 대비하여 "2.68%" 높은 정확도가 도출되었다.

하천 내 지표 피복 분류를 위한 Sentinel-2 영상 기반 랜덤 포레스트 기법의 적용성 연구 - 내성천을 사례로 - (Application study of random forest method based on Sentinel-2 imagery for surface cover classification in rivers - A case of Naeseong Stream -)

  • 안성기;이찬주;김용민;최훈
    • 한국수자원학회논문집
    • /
    • 제57권5호
    • /
    • pp.321-332
    • /
    • 2024
  • 하천 공간의 지표 피복 현황 파악은 하천 관리 및 홍수 재해 예방에 필수적이다. 기존 조사 방법은 전문가에 의한 식생 판독을 통한 식생도 작도 방법이나 식생지수를 활용하는 방법이 활용되어 왔으나, 역동적으로 변화하는 하천 환경을 반영하기에 한계가 있다. 이러한 배경에서 본 연구는 내성천을 대상으로 위성영상 자료를 활용한 랜덤 포레스트 기법을 활용하여 다수 연도의 하천 내 식생 분포를 파악하고, 적용성을 검토하였다. 원격탐사 자료 Sentinel-2 위성 영상을 사용하였으며, 지상 참값(ground truth)은 2016년 내성천 지표 피복 자료를 활용하였다. 랜덤 포레스트 머신러닝 알고리듬을 활용하여 미리 선정된 10개 샘플링 영역으로부터 분류군 별로 1,000개의 표본을 추출하여 훈련 및 검증하였으며, 민감도 분석, 연도별 지표 피복 분석, 정확도 분석을 통하여 적용성을 평가하였다. 연구 결과, 검증 자료 기반의 정확도는 85.1%로 나타났다. 트리 수, 샘플 수, 하천 구역에 대한 민감도 분석 결과, 각각 30개, 800개, 하류에서 효율성이 높았다. 지표 분류 유형은 6개 항목에서 높은 정확도를 보여 지표 피복 분류 결과가 실제 하천 환경을 잘 반영하는 것으로 나타났다. 정확도 분석 결과, 전체 샘플 중 14.9%의 경계오류와 내부오류를 확인하였으며, 지표 피복 분류 중 산발 식생과 초본 식생을 제외한 항목들은 높은 정확도를 보였다. 본 연구에서는 단일 하천을 대상으로 적용하였지만, 보다 정확하고 많은 자료의 구축을 위해서는 다수의 하천에 대해 지표 피복 분류 기법의 적용이 요구된다.

한국 프로배구 연맹의 경기 예측 및 영향요인 분석 (Matching prediction on Korean professional volleyball league)

  • 김희숙;이나경;이지윤;송종우
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.323-338
    • /
    • 2024
  • 본 연구는 한국 프로배구 리그를 체계적으로 분석하고 대표적인 머신러닝 분류 방법을 활용하여 경기 결과를 예측하고자 한다. 이를 위해 2012/2013 시즌부터 2022/2023 시즌까지의 남자 프로배구와 여자 프로배구 리그 경기 데이터를 수집하였으며, 이 데이터는 경기 세부 내용을 상세하게 포함하고 있다. 데이터는 각 경기를 두 팀으로 분리한 경우와 홈팀을 기준으로 상대팀과의 성과 차이로 데이터를 가공한 경우로 두 가지 다른 데이터 구조를 모델에 적용했다. 이를 통해 남자 프로배구와 여자 프로배구 각각에 대해 총 4개의 예측 모형을 구축했다. 경기 종료 전에는 모형에서 사용하는 세부 변수 값들을 알 수 없기 때문에, 오늘 경기 직전까지의 3~4 경기의 결과를 전처리하여 이를 변수로 사용했다. 본 연구에서는 Decision Tree, Logistic Regression, Bagging, Random Forest, Xgboost, Adaboost, Light GBM 같은 다양한 머신러닝 기법을 분류에 활용하여, Random Forest를 사용한 모델이 가장 우수한 예측 성능을 보였다. 최종 선택한 모형에 대해 변수 중요도 그림과 부분 의존도 그림을 확인한 결과 성별과 데이터 구조에 따라 중요한 변수들이 다른 것으로 나타났지만, 공통적으로 세트 성공 수, 블로킹 득점, 범실 개수가 가장 중요한 변수임을 알 수 있었다. 본 승패 예측 모델은 사후적 예측이 아닌 경기 종료 전 사전 예측이 가능한 모형이라는 점에서 차별성을 가지며, 우리의 분석이 한국 프로배구 팀들에게 전략적 추론이 될 수 있을 것이라 기대한다.

Deep Learning based Scrapbox Accumulated Status Measuring

  • Seo, Ye-In;Jeong, Eui-Han;Kim, Dong-Ju
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.27-32
    • /
    • 2020
  • 본 논문에서는 금속스크랩이 쌓이는 스크랩박스의 적치 상태를 측정하는 알고리즘을 제안한다. 적치 상태 측정 문제를 다중 클래스 분류 문제로 정의하여, 딥러닝 기법을 이용해 스크랩박스 촬영 영상만으로 적치 상태를 구분하도록 하였다. Transfer Learning 방식으로 학습을 진행하였으며, 딥러닝 모델은 NASNet-A를 이용하였다. 더불어 분류 모델의 정확도를 높이기 위해 학습된 NASNet-A에 랜덤포레스트 분류기를 결합하였으며, 후처리를 통해 안전성을 높였다. 현장에서 수집된 4,195개의 데이터로 테스트한 결과 NASNet-A만 적용했을때 정확도 55%를 보였으며, 제안 방식인 Random Forest를 결합한 NASNet은 88%로 향상된 정확도를 달성하였다.

심층 신경망모형을 사용한 미세먼지 PM10의 예측 (Prediction of fine dust PM10 using a deep neural network model)

  • 전성현;손영숙
    • 응용통계연구
    • /
    • 제31권2호
    • /
    • pp.265-285
    • /
    • 2018
  • 본 연구에서는 미세먼지 $PM_{10}$의 4가지 분류 등급인 '좋음, 보통, 나쁨, 매우 나쁨' 그리고 2가지 분류 등급인 '좋음 혹은 보통, 나쁨 혹은 매우 나쁨'을 예측하기 위해서 심층 신경망모형을 사용하였다. 2010년부터 2015년까지 국내 6개 대도시 지역에서 관측한 일별 미세먼지 데이터에 대하여 기존 분류기법인 신경망모형, 다항 로지스틱 회귀모형, Support Vector Machine, Random Forest을 적용했을 때에 비해서 심층 신경망모형의 정확도는 더 높아졌다.