• 제목/요약/키워드: random forest algorithm

검색결과 217건 처리시간 0.028초

초분광 영상의 Morphological Attribute Profiles와 추가 밴드를 이용한 감독분류의 정확도 평가 (Accuracy Evaluation of Supervised Classification by Using Morphological Attribute Profiles and Additional Band of Hyperspectral Imagery)

  • 박홍련;최재완
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.9-17
    • /
    • 2017
  • 초분광 영상(hyperspectral imagery)은 주성분분석이나 최소잡음비율 등을 이용하여 자료의 차원과 잡음을 감소시켜 토지피복분류에 사용되는 것이 일반적이다. 최근에는 분광정보와 공간적 특성을 가진 다양한 입력 자료를 이용한 감독분류에 관한 연구가 활발히 진행되고 있다. 본 연구에서는 초분광 영상을 이용한 토지피복분류를 위해 principle component(PC) 밴드와 normalized difference vegetation index(NDVI) 자료를 감독분류의 입력자료로 활용하였다. NDVI 자료는 초분광 영상에서 추출된 PC 밴드가 포함하고 있지 않는 추가적인 정보를 활용하여 식생지역에 대한 토지피복분류 정확도를 높이고자 사용하였으며, morphological filter를 통해 각 밴드의 extended attribute profiles(EAP)를 제작하여 분류를 위한 입력 자료로 사용하였다. 감독분류기법은 random forest 알고리즘을 이용하였으며, EAP를 기반으로 다양한 입력 자료의 적용에 따른 분류정확도를 비교하고자 하였다. 연구지역으로는 두 대상지를 선정하였으며, 영상 내에서 취득한 참조자료를 이용하여 정량적인 평가를 수행하였다. 본 연구에서 제안한 기법의 분류정확도는 85.72%와 91.14%로 다른 입력 자료들을 이용한 경우와 비교하여 가장 높은 분류정확도를 나타냈다. 향후, 초분광 영상을 이용한 토지피복분류의 정확도를 높이기 위한 분류 알고리즘 개발과 대상지역 특성에 맞는 추가 입력자료 개발에 관한 연구가 필요할 것으로 사료된다.

균형 랜덤 포레스트를 이용한 이륜차 보험사기 적발 모형 개발 (Bike Insurance Fraud Detection Model Using Balanced Randomforest Algorithm)

  • 김승훈;이수일;김태호
    • 디지털융복합연구
    • /
    • 제20권2호
    • /
    • pp.241-250
    • /
    • 2022
  • COVID-19 여파로 인한 비대면 서비스와 가정 재정 불안정성의 증가로 이륜차 보험사기 발생이 예상되고 있다. 이와 함께 보험사기 수법도 갈수록 교묘해지고 있다. 하지만 비대면 배달 수요와 연관된 이륜차 교통사고와 보험사기 적발 모형 관련 연구는 매우 미흡한 실정이다. 이에 본 연구는 보험사기의 표본 편중문제를 해결하기 위해 균형 랜덤포레스트 알고리즘을 이용하고 보험사기 조사 전문가의 정성적인 판단 기준을 반영한 변수를 모델에 포함하여 적용성을 향상시키며 적발력 높은 이륜차 보험사기 모형을 개발하고자 한다. 보험사기 적발 모형 개발 결과, 기존의 비균형 랜덤 포레스트 모형에 비해 균형 랜덤 포레스트가 보험 사기혐의자를 분류하는 데 있어 통계적으로 우수한 점을 확인할 수 있었다. 특히, 총 26개의 변수를 토대로 탐색적 변수 조합을 적용한 모형의 예측 성능이 가장 높았지만 일부 변수만을 사용한 확인적 모형의 예측 성능도 크게 떨어지지 않은 와중에, 정성적인 보험사기 전문가가 선정한 변수만을 사용한 확인적 모형은 예측력이 떨어지는 것을 확인하였다. 또한, 총 26개의 변수 중 운전자 성별, 연령, 운전자 피보험자 일치 여부, 미수선 청구금액, 대인보험금 등이 중요한 변수로 확인되어 이를 활용해 이륜차 보험사기 혐의자 선별을 위한 적극적인 대처가 필요해 보인다.

머신러닝 기반의 강우추정 방법 개발 (Development of Machine Learning Based Precipitation Imputation Method)

  • 한희찬;김창주;김동현
    • 한국습지학회지
    • /
    • 제25권3호
    • /
    • pp.167-175
    • /
    • 2023
  • 강우 데이터는 습지관리, 수문모의, 수자원 관리와 같은 다양한 분야에서 활용되는 필수 입력자료 중 하나이다. 강우 데이터를 활용하여 효율적인 수자원관리를 위해서는 기본적으로 데이터의 결측률을 최소화 시킴으로써 최대한 많은 데이터를 확보하는 것이 필수적이다. 또한 미계측 지역에 대한 강우 데이터를 확보한다면 보다 효율적인 수문모의가 가능하다. 그러나 결측 강우 데이터는 주로 통계학적 기법에 의해 추정되어 왔다. 본 연구의 목적은 데이터 간의 상관관계를 기반으로 새로운 데이터를 예측할 수 있는 머신러닝 알고리즘을 활용하여 결측 강우 데이터를 복원할 수 있는 새로운 방법을 제안하고자 한다. 또한, 기존의 통계적 방법들과 비교하여 머신러닝 기법의 결측 강우 데이터 복원을 위한 활용가치를 평가하고자 한다. 평가를 위해 대표적인 머신러닝 알고리즘인 Artificial Neural Network (ANN)과 Random Forest (RF)을 적용하였다. 강우의 발생 유무를 분류하는 성능은 RF 알고리즘이 ANN 알고리즘보다 강우 발생유무의 분류 정확도가 높은 것으로 나타났다. 분류 모형의 평가 지표인 F1-score나 Accuracy값이 RF는 0.80, 0.77인 반면에, ANN은 0.76, 0.71로 계산되었다. 또한 강우량을 추정하는 성능 역시 RF가 ANN 알고리즘보다 보다 높은 정확도를 보였다. RF과 ANN 알고리즘의 RMSE은 2.8mm/day과 2.9mm/day이고, R2값은 0.73, 0.68으로 계산되었다.

이종센서 위성영상과 머신 러닝을 활용한 광릉지역 주요 수종 분류 모델 개발 (The Development of Major Tree Species Classification Model using Different Satellite Images and Machine Learning in Gwangneung Area)

  • 임중빈;김경민;김명길
    • 대한원격탐사학회지
    • /
    • 제35권6_2호
    • /
    • pp.1037-1052
    • /
    • 2019
  • 저자는 접근불능지역인 북한의 임상도 제작을 위한 첫 단계로 Hyperion과 Sentinel-2 위성영상과 질감정보와 지형정보를 활용하여 정확도 98% 이상의 잣나무 및 낙엽송 분류모델을 개발한 바 있다. 북한의 주요 수종 점유율을 고려해 볼 때, 낙엽송(점유율 17.5%), 잣나무(5.8%) 뿐만 아니라 소나무(12.7%), 전나무(8.2%), 참나무류(29.5%)의 점유율이 크므로 수종분류 모델의 확장이 필요하다. 따라서 본 연구에서는 기존의 2개 수종에서 주요 5개 수종으로 분류모델을 확장하기 위해 분광정보와 침엽수 및 활엽수의 수관특성을 고려한 질감정보 및 수종별 생육특성을 고려한 지형정보를 투입하여 방법론을 개선하였다. 연구대상지인 광릉지역의 임상도에서 수종별 위치정보를 취득하여 11,039개의 훈련자료와 2,330개의 검증자료를 구축하였다. 분광정보는 Sentinel-2 영상을 통해 획득하였으며 질감정보는 고해상도인 PlanetScope 영상을, 지형정보는 북한지역으로의 확장 가능성을 고려하여 SRTM DEM을 활용하였다. 머신 러닝 모델은 기존 연구에서 정확도가 검증된 Random Forest 알고리즘을 활용하였다. 분류 결과 전체 80%(Kappa지수 0.80) 정확도로 수종이 분류되었다. 향후 백두산 지역과 남북 고성지역을 대상으로 본 연구에서 개발된 수종분류모델의 확장성을 검토하여 한반도 지역의 수종 분류 모델을 개발하고자 한다.

POSE-VIWEPOINT ADAPTIVE OBJECT TRACKING VIA ONLINE LEARNING APPROACH

  • Mariappan, Vinayagam;Kim, Hyung-O;Lee, Minwoo;Cho, Juphil;Cha, Jaesang
    • International journal of advanced smart convergence
    • /
    • 제4권2호
    • /
    • pp.20-28
    • /
    • 2015
  • In this paper, we propose an effective tracking algorithm with an appearance model based on features extracted from a video frame with posture variation and camera view point adaptation by employing the non-adaptive random projections that preserve the structure of the image feature space of objects. The existing online tracking algorithms update models with features from recent video frames and the numerous issues remain to be addressed despite on the improvement in tracking. The data-dependent adaptive appearance models often encounter the drift problems because the online algorithms does not get the required amount of data for online learning. So, we propose an effective tracking algorithm with an appearance model based on features extracted from a video frame.

Use of a Machine Learning Algorithm to Predict Individuals with Suicide Ideation in the General Population

  • Ryu, Seunghyong;Lee, Hyeongrae;Lee, Dong-Kyun;Park, Kyeongwoo
    • Psychiatry investigation
    • /
    • 제15권11호
    • /
    • pp.1030-1036
    • /
    • 2018
  • Objective In this study, we aimed to develop a model predicting individuals with suicide ideation within a general population using a machine learning algorithm. Methods Among 35,116 individuals aged over 19 years from the Korea National Health & Nutrition Examination Survey, we selected 11,628 individuals via random down-sampling. This included 5,814 suicide ideators and the same number of non-suicide ideators. We randomly assigned the subjects to a training set (n=10,466) and a test set (n=1,162). In the training set, a random forest model was trained with 15 features selected with recursive feature elimination via 10-fold cross validation. Subsequently, the fitted model was used to predict suicide ideators in the test set and among the total of 35,116 subjects. All analyses were conducted in R. Results The prediction model achieved a good performance [area under receiver operating characteristic curve (AUC)=0.85] in the test set and predicted suicide ideators among the total samples with an accuracy of 0.821, sensitivity of 0.836, and specificity of 0.807. Conclusion This study shows the possibility that a machine learning approach can enable screening for suicide risk in the general population. Further work is warranted to increase the accuracy of prediction.

Double-Bagging Ensemble Using WAVE

  • Kim, Ahhyoun;Kim, Minji;Kim, Hyunjoong
    • Communications for Statistical Applications and Methods
    • /
    • 제21권5호
    • /
    • pp.411-422
    • /
    • 2014
  • A classification ensemble method aggregates different classifiers obtained from training data to classify new data points. Voting algorithms are typical tools to summarize the outputs of each classifier in an ensemble. WAVE, proposed by Kim et al. (2011), is a new weight-adjusted voting algorithm for ensembles of classifiers with an optimal weight vector. In this study, when constructing an ensemble, we applied the WAVE algorithm on the double-bagging method (Hothorn and Lausen, 2003) to observe if any significant improvement can be achieved on performance. The results showed that double-bagging using WAVE algorithm performs better than other ensemble methods that employ plurality voting. In addition, double-bagging with WAVE algorithm is comparable with the random forest ensemble method when the ensemble size is large.

인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별 (Facebook Spam Post Filtering based on Instagram-based Transfer Learning and Meta Information of Posts)

  • 김준홍;서덕성;김해동;강필성
    • 대한산업공학회지
    • /
    • 제43권3호
    • /
    • pp.192-202
    • /
    • 2017
  • This study develops a text spam filtering system for Facebook based on two variable categories: keywords learned from Instagram and meta-information of Facebook posts. Since there is no explicit labels for spam/ham posts, we utilize hash tags in Instagram to train classification models. In addition, the filtering accuracy is enhanced by considering meta-information of Facebook posts. To verify the proposed filtering system, we conduct an empirical experiment based on a total of 1,795,067 and 761,861 Facebook and Instagram documents, respectively. Employing random forest as a base classification algorithm, experimental result shows that the proposed filtering system yield 99% and 98% in terms of filtering accuracy and F1-measure, respectively. We expect that the proposed filtering scheme can be applied other web services suffering from massive spam posts but no explicit spam labels are available.

클래스 불균형 데이터에 적합한 기계 학습 기반 침입 탐지 시스템 (Machine Learning Based Intrusion Detection Systems for Class Imbalanced Datasets)

  • 정윤경;박기남;김현주;김종현;현상원
    • 정보보호학회논문지
    • /
    • 제27권6호
    • /
    • pp.1385-1395
    • /
    • 2017
  • 본 논문에서는 정상과 이상 트래픽이 불균형적으로 발생하는 상황에서 기계 학습 기반의 효과적인 침입 탐지 시스템에 관한 연구 결과를 소개한다. 훈련 데이터의 패턴을 학습하여 정상/이상 패킷을 탐지하는 기계 학습 기반의 IDS에서는 훈련 데이터의 클래스 불균형 정도에 따라 탐지 성능이 현저히 차이가 날 수 있으나, IDS 개발 시 이러한 문제에 대한 고려는 부족한 실정이다. 클래스 불균형 데이터가 발생하는 환경에서도 우수한 탐지 성능을 제공하는 기계 학습 알고리즘을 선정하기 위하여, 본 논문에서는 Kyoto 2006+ 데이터셋을 이용하여 정상 대 침입 클래스 비율이 서로 다른 클래스 불균형 훈련 데이터를 구축하고 다양한 기계 학습 알고리즘의 인식 성능을 분석하였다. 실험 결과, 대부분의 지도 학습 알고리즘이 좋은 성능을 보인 가운데, Random Forest 알고리즘이 다양한 실험 환경에서 최고의 성능을 보였다.

Prediction of dynamic soil properties coupled with machine learning algorithms

  • Dae-Hong Min;Hyung-Koo Yoon
    • Geomechanics and Engineering
    • /
    • 제37권3호
    • /
    • pp.253-262
    • /
    • 2024
  • Dynamic properties are pivotal in soil analysis, yet their experimental determination is hampered by complex methodologies and the need for costly equipment. This study aims to predict dynamic soil properties using static properties that are relatively easier to obtain, employing machine learning techniques. The static properties considered include soil cohesion, friction angle, water content, specific gravity, and compressional strength. In contrast, the dynamic properties of interest are the velocities of compressional and shear waves. Data for this study are sourced from 26 boreholes, as detailed in a geotechnical investigation report database, comprising a total of 130 data points. An importance analysis, grounded in the random forest algorithm, is conducted to evaluate the significance of each dynamic property. This analysis informs the prediction of dynamic properties, prioritizing those static properties identified as most influential. The efficacy of these predictions is quantified using the coefficient of determination, which indicated exceptionally high reliability, with values reaching 0.99 in both training and testing phases when all input properties are considered. The conventional method is used for predicting dynamic properties through Standard Penetration Test (SPT) and compared the outcomes with this technique. The error ratio has decreased by approximately 0.95, thereby validating its reliability. This research marks a significant advancement in the indirect estimation of the relationship between static and dynamic soil properties through the application of machine learning techniques.