• 제목/요약/키워드: Random Forest (RF)

검색결과 182건 처리시간 0.031초

Improved Prediction of Coreceptor Usage and Phenotype of HIV-1 Based on Combined Features of V3 Loop Sequence Using Random Forest

  • Xu, Shungao;Huang, Xinxiang;Xu, Huaxi;Zhang, Chiyu
    • Journal of Microbiology
    • /
    • 제45권5호
    • /
    • pp.441-446
    • /
    • 2007
  • HIV-1 coreceptor usage and phenotype mainly determined by V3 loop are associated with the disease progression of AIDS. Predicting HIV-1 coreceptor usage and phenotype facilitates the monitoring of R5-to-X4 switch and treatment decision-making. In this study, we employed random forest to predict HIV-1 biological phenotype, based on 37 random features of V3 loop. In comparison with PSSM method, our RF predictor obtained higher prediction accuracy (95.1% for coreceptor usage and 92.1% for phenotype), especially for non-B non-C HIV-l subtypes (96.6% for coreceptor usage and 95.3% for phenotype). The net charge, polarity of V3 loop and five V3 sites are seven most important features for predicting HIV-1 coreceptor usage or phenotype. Among these features, V3 polarity and four V3 sites (22, 12, 18 and 13) are first reported to have high contribution to HIV-1 biological phenotype prediction.

Unveiling the mysteries of flood risk: A machine learning approach to understanding flood-influencing factors for accurate mapping

  • Roya Narimani;Shabbir Ahmed Osmani;Seunghyun Hwang;Changhyun Jun
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.164-164
    • /
    • 2023
  • This study investigates the importance of flood-influencing factors on the accuracy of flood risk mapping using the integration of remote sensing-based and machine learning techniques. Here, the Extreme Gradient Boosting (XGBoost) and Random Forest (RF) algorithms integrated with GIS-based techniques were considered to develop and generate flood risk maps. For the study area of NAPA County in the United States, rainfall data from the 12 stations, Sentinel-1 SAR, and Sentinel-2 optical images were applied to extract 13 flood-influencing factors including altitude, aspect, slope, topographic wetness index, normalized difference vegetation index, stream power index, sediment transport index, land use/land cover, terrain roughness index, distance from the river, soil, rainfall, and geology. These 13 raster maps were used as input data for the XGBoost and RF algorithms for modeling flood-prone areas using ArcGIS, Python, and R. As results, it indicates that XGBoost showed better performance than RF in modeling flood-prone areas with an ROC of 97.45%, Kappa of 93.65%, and accuracy score of 96.83% compared to RF's 82.21%, 70.54%, and 88%, respectively. In conclusion, XGBoost is more efficient than RF for flood risk mapping and can be potentially utilized for flood mitigation strategies. It should be noted that all flood influencing factors had a positive effect, but altitude, slope, and rainfall were the most influential features in modeling flood risk maps using XGBoost.

  • PDF

Utilizing the GOA-RF hybrid model, predicting the CPT-based pile set-up parameters

  • Zhao, Zhilong;Chen, Simin;Zhang, Dengke;Peng, Bin;Li, Xuyang;Zheng, Qian
    • Geomechanics and Engineering
    • /
    • 제31권1호
    • /
    • pp.113-127
    • /
    • 2022
  • The undrained shear strength of soil is considered one of the engineering parameters of utmost significance in geotechnical design methods. In-situ experiments like cone penetration tests (CPT) have been used in the last several years to estimate the undrained shear strength depending on the characteristics of the soil. Nevertheless, the majority of these techniques rely on correlation presumptions, which may lead to uneven accuracy. This research's general aim is to extend a new united soft computing model, which is a combination of random forest (RF) with grasshopper optimization algorithm (GOA) to the pile set-up parameters' better approximation from CPT, based on two different types of data as inputs. Data type 1 contains pile parameters, and data type 2 consists of soil properties. The contribution of this article is that hybrid GOA - RF for the first time, was suggested to forecast the pile set-up parameter from CPT. In order to do this, CPT data and related bore log data were gathered from 70 various locations across Louisiana. With an R2 greater than 0.9098, which denotes the permissible relationship between measured and anticipated values, the results demonstrated that both models perform well in forecasting the set-up parameter. It is comprehensible that, in the training and testing step, the model with data type 2 has finer capability than the model using data type 1, with R2 and RMSE are 0.9272 and 0.0305 for the training step and 0.9182 and 0.0415 for the testing step. All in all, the models' results depict that the A parameter could be forecasted with adequate precision from the CPT data with the usage of hybrid GOA - RF models. However, the RF model with soil features as input parameters results in a finer commentary of pile set-up parameters.

울진 소광리 금강소나무 고사발생 특성 분석 및 위험지역 평가 (Risk Assessment of Pine Tree Dieback in Sogwang-Ri, Uljin)

  • 김은숙;이보라;김재범;조낭현;임종환
    • 한국산림과학회지
    • /
    • 제109권3호
    • /
    • pp.259-270
    • /
    • 2020
  • 최근 20년 동안 고온, 건조 등 이상기상 현상이 빈발해지면서 병해충으로 인한 피해가 아닌 생리적 스트레스로 인한 소나무 피해 사례가 지속적으로 보고되고 있다. 2014년도에는 울진 소광리 산림유전자원보호구역 내에 금강소나무(Pinus densiflora for. erecta Uyeki)의 집단고사가 발견되어 이에 대한 원인 구명과 산림관리방안 마련이 요구되었다. 이에 본 연구는 2008~2015년 항공사진에서 발견된 울진 소광리 금강소나무 고사 피해 발생 지역의 지형 및 임분 특성을 파악하여 고사 발생의 영향 요인을 도출하고 이를 기반으로 전체 지역의 고사피해 발생 위험지역을 예측하는 것을 목표로 하였다. 소나무 고사발생 지점 정보와 해발고도, 경사 등의 지형정보, 영급, 경급 등의 임분 정보 등 총 14개의 설명변수를 이용하여 고사발생 예측모델을 구축하였다. 모형 개발에는 Decision Tree, Random Forest (RF), Support Vector Machine (SVM) 등 기계학습 기법을 적용하였으며, RF와 SVM가 정확도 93% 이상으로 좋은 성능을 보였다. 소나무 고사와 관련된 주요 변수 분석 결과, 소나무 고사의 지형적인 취약지역은 해발고도가 높은 동시에 일사량이 높으며 수분 조건이 불리한 지역이었으며, 임분 특성 중에서는 특히 5~15m 높이의 수직적 임분밀도가 높은 소나무림, 그리고 영급이 높은 소나무림에서 고사 위험성이 높다고 평가되었다. RF와 SVM 모형 예측에 따라, 소나무 고사위험도가 높은 지역의 면적은 연구대상지 전체 소나무림 면적의 약 9.5%, 115ha로 평가되었다. 본 연구의 고사위험도 평가 결과는 금강소나무 취약지역의 현황을 조사하고 아직 피해가 발생하지 않은 취약지역에 대한 적극적인 기후변화 적응 산림관리를 수행하기 위한 기반자료로 활용될 수 있다.

저수지 CO2 배출량 산정을 위한 기계학습 모델의 적용 (Applications of Machine Learning Models for the Estimation of Reservoir CO2 Emissions)

  • 유지수;정세웅;박형석
    • 한국물환경학회지
    • /
    • 제33권3호
    • /
    • pp.326-333
    • /
    • 2017
  • The lakes and reservoirs have been reported as important sources of carbon emissions to the atmosphere in many countries. Although field experiments and theoretical investigations based on the fundamental gas exchange theory have proposed the quantitative amounts of Net Atmospheric Flux (NAF) in various climate regions, there are still large uncertainties at the global scale estimation. Mechanistic models can be used for understanding and estimating the temporal and spatial variations of the NAFs considering complicated hydrodynamic and biogeochemical processes in a reservoir, but these models require extensive and expensive datasets and model parameters. On the other hand, data driven machine learning (ML) algorithms are likely to be alternative tools to estimate the NAFs in responding to independent environmental variables. The objective of this study was to develop random forest (RF) and multi-layer artificial neural network (ANN) models for the estimation of the daily $CO_2$ NAFs in Daecheong Reservoir located in Geum River of Korea, and compare the models performance against the multiple linear regression (MLR) model that proposed in the previous study (Chung et al., 2016). As a result, the RF and ANN models showed much enhanced performance in the estimation of the high NAF values, while MLR model significantly under estimated them. Across validation with 10-fold random samplings was applied to evaluate the performance of three models, and indicated that the ANN model is best, and followed by RF and MLR models.

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

랜덤 포레스트를 이용한 심전도 기반 생체 인증 (ECG-based Biometric Authentication Using Random Forest)

  • 김정균;이강복;홍상기
    • 전자공학회논문지
    • /
    • 제54권6호
    • /
    • pp.100-105
    • /
    • 2017
  • 본 논문은 개인 인증 알고리즘에 관한 것으로 심전도를 이용한 생체 인증 방식은 특정 보정기준점을 추출하는 방법과 그렇지 않은 방법으로 분류할 수 있으며 본 논문에서 제안하는 방법은 특정 보정기준점을 추출하지 않는 방법으로 이산 코사인 변환과 랜덤 포레스트 분류기를 사용하였다. 심전도 신호는 R-Peak 점을 기준으로 단일 심박으로 나누었으며 각 심박의 특징 추출을 위해 이산 코사인 변환을 적용하였다. 이산 코사인 변환 계수는 정보가 저주파에 집중되는 특성이 있으므로 초기 저주파에 해당하는 40까지 값을 특징으로 랜덤 포레스트 분류기를 구성하였다. 랜덤 포레스트는 의사결정 트리의 앙상블 분류기로 결정 트리를 기본으로 하고 있으므로 빠른 학습 속도와 많은 양의 데이터 처리 능력, 다양한 클래스를 분류할 수 있어 실생활에 적용 가능하며 무엇보다 ID의 승인과 거절을 위한 임계값을 분류기 내부에서 조절할 수 있어 오 분류에 강건한 알고리즘을 구성할 수 있다. 18개의 심전도 파일로 구성된 MIT-BIT Normal Sinus Rhythm 데이터베이스를 선정하여 성능을 평가하였으며 99.99%의 심전도 인식률을 보였다.

기계학습 기법을 이용한 CNC 공구 마모도 예측에 관한 연구 (A Study on the Prediction of CNC Tool Wear Using Machine Learning Technique)

  • 이강배;박성호;성상하;박도명
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.15-21
    • /
    • 2019
  • 4차 산업혁명이 주목받고 있다. 특히 스마트 팩토리는 제조 분야에서 그 필요성이 강조되고 있다. 현재 제조 분야에서 CNC(Computerized Numeric Controller: 컴퓨터 수치 제어)에 관한 연구가 활발히 진행 중이다. 국내에서는 CNC 설비에 음향 센서, 진동 센서 등 여러 가지 센서를 부착하여 소음, 진동 등 설비 관련 데이터를 수집하는 방안에 관한 연구가 존재한다. 본 연구는 CNC 머신에서 발생하는 데이터를 중심으로 머신러닝 기법을 활용하여 설비 가동 조건이 공구 마모도에 미치는 영향을 분석한다. CNC 설비에서 발생하는 X축, Y축, Z축의 힘, 이동 속도 등 다양한 데이터를 수집한다. 데이터 탐색 기법을 통해 데이터의 특성 및 분포를 분석하였다. 데이터를 RF(Random Forest), XGB(Extreme Gradient Boost), SVM(Support Vector Machine)을 이용하여 CNC 설비 가동 조건이 공구 마모도에 미치는 영향을 분석하였다. 본 연구의 결과는 CNC 설비 가동에서 최적의 조건을 찾고, 이를 바탕으로 품질 향상 및 기계 손상을 예방하는데 활용될 수 있을 것으로 기대된다.

GLCM 기반 UAV 영상의 감독분류를 이용한 저수구역 내 농경지 탐지 (Detection of Cropland in Reservoir Area by Using Supervised Classification of UAV Imagery Based on GLCM)

  • 김규문;최재완
    • 한국측량학회지
    • /
    • 제36권6호
    • /
    • pp.433-442
    • /
    • 2018
  • 저수구역은 계획된 홍수위에 의하여 둘러싸인 지역 혹은 댐의 계획된 홍수위 내에 있는 지역으로 정의된다. 본 연구에서는 저수구역 내 농경지를 탐지하기 위하여, 대표적인 기계학습 기법인 RF (Random Forest) 기반의 감독 분류 방법을 적용하였다. 저수구역 내의 농경지를 효과적으로 분류하기 위하여, 질감정보를 정량화하기 위한 대표적인 기법인 GLCM (Gray Level Co-occurrence Matrix)과 NDWI (Normalized Difference Water Index), NDVI (Normalized Difference Vegetation Index)를 추가적인 입력자료로 활용하였다. 특히, 질감정보를 생성하는데 사용된 윈도우 크기가 농경지의 분류 정확도에 미치는 영향을 분석하여, 저수구역 내의 농경지를 효과적으로 분류하기 위한 방법론을 제시하였다. 실험결과, UAV 영상을 이용한 분류결과를 통하여 취득된 다중분광영상과 NDVI, NDWI, GLCM 영상들을 이용하여 저수구역 내의 농경지를 효과적으로 탐지할 수 있음을 확인하였다. 또한, GLCM의 윈도우 크기가 분류정확도를 향상시키기 위한 중요한 변수임을 확인하였다.

Predicting the Invasion Potential of Pink Muhly (Muhlenbergia capillaris) in South Korea

  • Park, Jeong Soo;Choi, Donghui;Kim, Youngha
    • Proceedings of the National Institute of Ecology of the Republic of Korea
    • /
    • 제1권1호
    • /
    • pp.74-82
    • /
    • 2020
  • Predictions of suitable habitat areas can provide important information pertaining to the risk assessment and management of alien plants at early stage of their establishment. Here, we predict the invasion potential of Muhlenbergia capillaris (pink muhly) in South Korea using five bioclimatic variables. We adopt four models (generalized linear model, generalized additive model, random forest (RF), and artificial neural network) for projection based on 630 presence and 600 pseudo-absence data points. The RF model yielded the highest performance. The presence probability of M. capillaris was highest within an annual temperature range of 12 to 24℃ and with precipitation from 800 to 1,300 mm. The occurrence of M. capillaris was positively associated with the precipitation of the driest quarter. The projection map showed that suitable areas for M. capillaris are mainly concentrated in the southern coastal regions of South Korea, where temperatures and precipitation are higher than in other regions, especially in the winter season. We can conclude that M. capillaris is not considered to be invasive based on a habitat suitability map. However, there is a possibility that rising temperatures and increasing precipitation levels in winter can accelerate the expansion of this plant on the Korean Peninsula.