• 제목/요약/키워드: Random Forest

검색결과 984건 처리시간 0.028초

A Mixed-effects Height-Diameter Model for Pinus densiflora Trees in Gangwon Province, Korea

  • Lee, Young Jin;Coble, Dean W.;Pyo, Jung Kee;Kim, Sung Ho;Lee, Woo Kyun;Choi, Jung Kee
    • 한국산림과학회지
    • /
    • 제98권2호
    • /
    • pp.178-182
    • /
    • 2009
  • A new mixed-effects model was developed that predicts individual-tree total height for Pinus densiflora trees in Gangwon province as a function of individual-tree diameter (cm). The mixed-effects model contains two random-effects parameters. Maximum likelihood estimation was used to fit the model to 560 height-diameter observations of individual trees measured throughout Gwangwon province in 2007 as part of the National Forest Inventory Program in Korea. The new model is an improvement over fixed-effects models because it can be calibrated to a local area, such as an inventory plot or individual stand. The new model also appears to be an improvement over the Forest Resources Evaluation and Prediction Program for the ten calibration trees used in this study. An example is provided that describes how to estimate the random-effects parameters using ten calibration trees.

Forest Vertical Structure Mapping from Bi-Seasonal Sentinel-2 Images and UAV-Derived DSM Using Random Forest, Support Vector Machine, and XGBoost

  • Young-Woong Yoon;Hyung-Sup Jung
    • 대한원격탐사학회지
    • /
    • 제40권2호
    • /
    • pp.123-139
    • /
    • 2024
  • Forest vertical structure is vital for comprehending ecosystems and biodiversity, in addition to fundamental forest information. Currently, the forest vertical structure is predominantly assessed via an in-situ method, which is not only difficult to apply to inaccessible locations or large areas but also costly and requires substantial human resources. Therefore, mapping systems based on remote sensing data have been actively explored. Recently, research on analyzing and classifying images using machine learning techniques has been actively conducted and applied to map the vertical structure of forests accurately. In this study, Sentinel-2 and digital surface model images were obtained on two different dates separated by approximately one month, and the spectral index and tree height maps were generated separately. Furthermore, according to the acquisition time, the input data were separated into cases 1 and 2, which were then combined to generate case 3. Using these data, forest vetical structure mapping models based on random forest, support vector machine, and extreme gradient boost(XGBoost)were generated. Consequently, nine models were generated, with the XGBoost model in Case 3 performing the best, with an average precision of 0.99 and an F1 score of 0.91. We confirmed that generating a forest vertical structure mapping model utilizing bi-seasonal data and an appropriate model can result in an accuracy of 90% or higher.

반복측정자료 분석을 위한 혼합모형의 적용성 검토: 강원지역 굴참나무 임분을 대상으로 (Applicability Evaluation of a Mixed Model for the Analysis of Repeated Inventory Data : A Case Study on Quercus variabilis Stands in Gangwon Region)

  • 표정기;이상태;서경원;이경재
    • 한국산림과학회지
    • /
    • 제104권1호
    • /
    • pp.111-116
    • /
    • 2015
  • 본 연구의 목적은 임의효과(random effect)를 포함하는 혼합모형(mixed model)을 이용하여 흉고직경과 수고의 변화량을 평가하는데 있다. 강원도 굴참나무 임분을 대상으로 흉고직경과 수고를 조사하고 3년 후 동일 임분을 재조사하였다. 혼합모형에서 굴참나무의 흉고직경-수고 관계는 고정효과(fixed effect)이고 초기측정과 반복측정의 흉고직경과 수고 차이를 임의효과로 설정하였다. 임의효과에 따른 모형의 적합도를 검정하기 위하여 아카이케의 정보기준(akaike information criterion, AIC)을 참고하고 반복 측정에 따른 분산-공분산 행렬과 오차항을 산정하였다. 추정된 공분산은 -0.0291이고 오차항은 0.1007을 나타내었다. 분산-공분산 행렬을 이용한 임의효과가 포함된 모형의 AIC(=-215.5)는 고정효과를 고려한 모형의 AIC(=-154.4)에 비해 낮은 수치를 나타내었다. 이러한 결과는 범주형 자료의 임의효과가 모형 개발에 반영되는 결과인 것으로 조사되었다. 그러므로, 본 연구에서 적용된 혼합모형은 반복 측정 자료를 이용한 모형 개발에 활용이 가능한 것으로 판단된다.

영화 관객 수 예측을 위한 기계학습 기법의 성능 평가 연구 (A Study on the Performance Evaluation of Machine Learning for Predicting the Number of Movie Audiences)

  • 정찬미;민대기
    • 한국전자거래학회지
    • /
    • 제25권2호
    • /
    • pp.49-63
    • /
    • 2020
  • 영화 제작에 막대한 비용이 투입되지만 관객수요는 매우 불확실하기 때문에 개선된 수요예측은 수익 개선을 위한 의사결정의 중요 수단으로 활용될 수 있다. 본 연구에서는 영화의 개봉 후 수요를 예측함에 있어 기계학습 기법의 적용 타당성을 예측 성능의 관점에서 검증하였다. 분석결과를 종합하면 다음과 같다. 첫째, 대안변수에 대한 통계적 검증 결과 기본 영화 특성(감독, 배우)과 함께 개봉 후 2주차까지의 스크린수, 상영횟수, 관객수, 주요 배우에 대한 관심도 등 시계열 자료가 수요예측에 유의미한 것을 확인하였다. 둘째, Random Forest Classifier와 SVM(Support Vector Machine) 등 분류 기반 기계학습 기법과 Random Forest Regressor와 k-NN Regressor와 같은 회귀모형 기반 기계학습 기법에 적용하여 예측 성능을 평가한 결과, Random Forest 기법이 우수한 결과를 보였다. 셋째, 누적관객수가 1분위보다 작은 영화에서 회귀모형 기반 기법은 낮은 예측 정확도를 보였으며, 분류기반 기법은 반대로 가장 우수한 결과를 얻었다. 즉, 영화 수요의 분포 특성에 따라서 차별화된 기계학습 기법을 적용하는 것이 필요하다.

자기조직화지도(Self-organizing map)와 랜덤 포레스트 분석(Random forest)을 이용한 논습지에 도래하는 수조류 군집 특성 파악 (Patterning Waterbird Assemblages on Rice Fields Using Self-Organizing Map and Random Forest)

  • 남형규;최승혜;유정칠
    • 한국환경농학회지
    • /
    • 제34권3호
    • /
    • pp.168-177
    • /
    • 2015
  • BACKGROUND: In recent year, there has been great concern regarding agricultural land uses and their importance for the conservation of biodiversity. Rice fields are managed unique wetland for wildlife, especially waterbirds. A comprehensive monitoring of the waterbird assemblage to understand patterning changes was attempted for rice ecosystem in South Korea. This rice ecosystem has been recognized as one of the most important for waterbirds conservation. METHODS AND RESULTS: Biweekly monitoring was implemented for the 4 years from April 2009 to March 2010, from April 2011 to March 2014. 32 species of waterbirds were observed. Self-organizing map (SOM) and random forest were applied to the waterbirds dataset to identify the characteristics in waterbirds distribution. SOM and random forest analysis clearly classified into four clusters and extract ecological information from waterbird dataset. Waterbird assemblages represented strong seasonality and habitat use according to waterbird group such as shorebirds, herons and waterfowl. CONCLUSION: Our results showed that the combination of SOM and random forest analysis could be useful for ecosystem assessment and management. Furthermore, we strongly suggested that a strict management strategy for the rice fields to conserve the waterbirds. The strategy could be seasonally and species specific.

악성코드 패밀리 분류를 위한 API 특징 기반 앙상블 모델 학습 (API Feature Based Ensemble Model for Malware Family Classification)

  • 이현종;어성율;황두성
    • 정보보호학회논문지
    • /
    • 제29권3호
    • /
    • pp.531-539
    • /
    • 2019
  • 본 논문에서는 악성코드 패밀리 분류를 위한 훈련 데이터의 특징을 제안하고, 앙상블 모델을 이용한 다중 분류 성능을 분석한다. 악성코드 실행 파일로부터 API와 DLL 데이터를 추출하여 훈련 데이터를 구성하며, 의사 결정 트리기반 Random Forest와 XGBoost 알고리즘으로 모델을 학습한다. 악성코드에서 빈번히 사용되는 API와 DLL 정보를 분석하며, 고차원의 훈련 데이터 특징을 저차원의 특징 표현으로 변환시켜, 악성코드 탐지와 패밀리 분류를 위한 API, API-DLL, DLL-CM 특징을 제안한다. 제안된 특징 선택 방법은 데이터 차원 축소와 빠른 학습의 장점을 제공한다. 성능 비교에서 악성코드 탐지율은 Random Forest가 93.0%, 악성코드 패밀리 분류 정확도는 XGBoost가 92.0%, 그리고 정상코드를 포함하는 테스트 오탐률은 Random Forest와 XGBoost가 3.5%이다.

SMOTE와 Light GBM 기반의 불균형 데이터 개선 기법 (Imbalanced Data Improvement Techniques Based on SMOTE and Light GBM)

  • 한영진;조인휘
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.445-452
    • /
    • 2022
  • 디지털 세상에서 불균형 데이터에 대한 클래스 분포는 중요한 부분이며 사이버 보안에 큰 의미를 차지한다. 불균형 데이터의 비정상적인 활동을 찾고 문제를 해결해야 한다. 모든 트랜잭션의 패턴을 추적할 수 있는 시스템이 필요하지만, 일반적으로 패턴이 비정상인 불균형 데이터로 기계학습을 하면 소수 계층에 대한 성능은 무시되고 저하되며 예측 모델은 부정확하게 편향될 수 있다. 본 논문에서는 불균형 데이터 세트를 해결하기 위한 접근 방식으로 Synthetic Minority Oversampling Technique(SMOTE)와 Light GBM 알고리즘을 이용하여 추정치를 결합하여 대상 변수를 예측하고 정확도를 향상시켰다. 실험 결과는 Logistic Regression, Decision Tree, KNN, Random Forest, XGBoost 알고리즘과 비교하였다. 정확도, 재현율에서는 성능이 모두 비슷했으나 정밀도에서는 2개의 알고리즘 Random Forest 80.76%, Light GBM 97.16% 성능이 나왔고, F1-score에서는 Random Forest 84.67%, Light GBM 91.96% 성능이 나왔다. 이 실험 결과로 Light GBM은 성능이 5개의 알고리즘과 비교하여 편차없이 비슷하거나 최대 16% 향상됨을 접근 방식으로 확인할 수 있었다.

Easy and Quick Survey Method to Estimate Quantitative Characteristics in the Thin Forests

  • Mirzaei, Mehrdad;Bonyad, Amir Eslam;Bijarpas, Mahboobeh Mohebi;Golmohamadi, Fatemeh
    • Journal of Forest and Environmental Science
    • /
    • 제31권2호
    • /
    • pp.73-77
    • /
    • 2015
  • Acquiring accurate quantitative and qualitative information is necessary for the technical and scientific management of forest stands. In this study, stratification and systematic random sampling methods were used to estimation of quantitative characteristics in study area. The estimator ($((E%)^2xT)$) was used to compare the systematic random and stratified sampling methods. 100 percent inventory was carried out in an area of 400 hectares; characteristics as: tree density, crown cover (canopy), and basal area were measured. Tree density of stands was compared through systemic random and stratified sampling methods. Findings of the study reveal that stratified sampling method gives a better representation of estimates than systematic random sampling.

임목재적(林木材積) 산정(算定)을 위(爲)한 Simple Random Sampling과 Two-stage P.P.S. Sampling 방법(方法)의 비교(比較) (Comparison of Simple Random Sampling and Two-stage P.P.S. Sampling Methods for Timber Volume Estimation)

  • 김재수
    • 한국산림과학회지
    • /
    • 제65권1호
    • /
    • pp.68-73
    • /
    • 1984
  • Simple random sampling과 P.P.S. sampling의 효율을 비교하기 위하여 오스트리아 Salzburg 부근의 침엽수 장령림 임분에서 임목조사를 실시하였다. 축적 1:10,000의 흑백 적외선 사진을 판독하여, 조사 임지를 제지, 유령림, 너도 밤나무 장령림, 침엽수 장령림으로 구분하고, 침엽수 장령림 내에서 random sampling에 의한 99개의 표본점과 P.P.S. sampling에 의한 75개의 표본점을 흉고 단면적 제수 4인 Relascope에 의하여 야외 조사한 자료를 비교한 결과는 다음과 같다. 1) random sampling에 의한 임분 재적의 추정치는 $422.0m^3/ha$이었고, P.P.S. sampling에 의해서는 $433.5m^3/ha$이었으나 이들간의 통계적 유의성은 없었다. 2) 5 %의 허용 오차내에서는 P.P.S. sampling에 의하여는 170점, random sampling에 의하여는 237점이 필요하였다. 3) P.P.S. sampling은 random sampling에 비하여 야외 조사 시간을 17% 감소시킬 수 있었다.

  • PDF