• 제목/요약/키워드: forest statistics

검색결과 317건 처리시간 0.025초

A comparison of imputation methods using machine learning models

  • Heajung Suh;Jongwoo Song
    • Communications for Statistical Applications and Methods
    • /
    • 제30권3호
    • /
    • pp.331-341
    • /
    • 2023
  • Handling missing values in data analysis is essential in constructing a good prediction model. The easiest way to handle missing values is to use complete case data, but this can lead to information loss within the data and invalid conclusions in data analysis. Imputation is a technique that replaces missing data with alternative values obtained from information in a dataset. Conventional imputation methods include K-nearest-neighbor imputation and multiple imputations. Recent methods include missForest, missRanger, and mixgb ,all which use machine learning algorithms. This paper compares the imputation techniques for datasets with mixed datatypes in various situations, such as data size, missing ratios, and missing mechanisms. To evaluate the performance of each method in mixed datasets, we propose a new imputation performance measure (IPM) that is a unified measurement applicable to numerical and categorical variables. We believe this metric can help find the best imputation method. Finally, we summarize the comparison results with imputation performances and computational times.

국립산림과학원 제주시험림의 서어나무 수간형태와 수간곡선식 추정 (Development of Stem Profile and Taper Equation for Carpinus laxiflora in Jeju Experimental Forests of Korea Forest Research Institute)

  • 정영교;김대현;김철민
    • 농업생명과학연구
    • /
    • 제44권4호
    • /
    • pp.1-7
    • /
    • 2010
  • 본 연구는 난대산림연구소의 제주시험림에 있는 서어나무 (Carpinus laxiflora)에 대한 개체목의 수간곡선식 추정 및 재적표를 개발하기 위하여 수행하였다. 최적의 추정식을 선택하기 위하여 Max & Burkhart식, Kozak식 및 Lee식을 적용하여 수간곡선식을 유도한 후, 각 식의 직경 추정에 대한 검정 통계량 및 실측치와 추정치간의 오차분포를 검증하였다. 그 결과 Max & Burkhart식 및 Lee식이 특정 구간에서 과대치 또는 과소 추정치를 보인데 반하여 Kozak식은 전구간에서 고른 분포를 보였다. 추정력이 가장 좋은 Kozak식을 활용하여 수피포함 재적표를 작성하였다.

Using Reliability Tools to Characterize Wood Strand Thickness of Oriented Strand Board Panels

  • Chastain, J.S.;Young, T.M.;Guess, F.M.;Leo, R.V.
    • International Journal of Reliability and Applications
    • /
    • 제10권2호
    • /
    • pp.89-99
    • /
    • 2009
  • Oriented Strand Board (OSB) is an important engineered wood product used in housing construction which has a lower environmental impact or "carbon footprint." In this paper, reliability and statistical tools are applied to gain insights on the strand thickness of OSB panels. An OSB panel consists of several hundred wood strands that are resinated and pressed. The variability of OSB strand thickness for six manufacturers in the Eastern United States is examined as a whole, as well as individually. Little research exists on OSB strand thickness across mills even though strand thickness variability has been documented in laboratory experiments to greatly influence the dimensional stability of OSB panels. Our aims are to quantify and characterize strand thickness, plus apply reliability techniques, such as Kaplan-Meier curves, to characterize the probability of strand thickness. We further explore graphically and statistically the thickness of the strands.

  • PDF

Exploring Reliability of Oriented Strand Board's Tensile and Stiffness Strengths

  • Wang, Y.;Young, T.M.;Guess, F.M.;Leon, R.V.
    • International Journal of Reliability and Applications
    • /
    • 제8권1호
    • /
    • pp.111-124
    • /
    • 2007
  • In this paper, we apply insightful statistical reliability tools to manage and seek improvements in the strengths of Oriented Strand Board (OSB). As a part of the OSB manufacturing process, the product undergoes destructive testing at various intervals to determine compliance with customers' specifications. Workers perform these tests on sampled cross sections of the OSB panel to measure the tensile strength, also called internal bond (IB), in pounds per square inches until failure. Additional stiffness strength tests include parallel and perpendicular elasticity indices (EI), which are taken from cross sectional samples of the OSB panel in the parallel and perpendicular directions with respect to the orientation of the wood strands. We explore both graphically and statistically these "pressure-to-failures" of OSB. Also, we briefly comment on reducing sources of variability in the IB and EI of OSB.

  • PDF

다양한 분류기법을 이용한 네트워크상의 P2P 데이터 분류실험 (Network Classification of P2P Traffic with Various Classification Methods)

  • 한석완;황진수
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.1-8
    • /
    • 2015
  • 인터넷 트래픽의 증가로 인하여 네트워크의 보안 문제가 중요한 문제로 대두되고 있다. 그 중에서도 특히 P2P 트래픽의 증가는 모든 서버의 관리자에게는 해결해야할 중요한 문제로 대두되고 있다. 서버에서 네트워크 트래픽을 조사하여 문제가 있는 트래픽을 미리 차단하는 것은 서비스 품질의 향상과 자원의 효율적인 사용 측면에서 바람직하나 오가는 패킷의 내부정보를 조사하는 것은 개인정보보호 차원에서 문제가 있을 수 있으며 시간과 노력이 많이 소요되므로 요즘은 통계적인 기계학습의 방법을 이용하여 이상 트래픽을 찾아내는 연구가 주를 이루고 있다. 본 연구에서는 최근의 기계학습방법 중에서 널리 쓰이는 방법들을 비교 연구하여 그 결과 랜덤포리스트(random forest)라고 불리는 방법의 우수함을 보였다.

앙상블 학습과 온도 변수를 이용한 A 호텔의 전력소모량 예측 (Prediction of electricity consumption in A hotel using ensemble learning with temperature)

  • 김재휘;김재희
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.319-330
    • /
    • 2019
  • 과거의 전력소모량을 분석하여 미래의 전력소모량을 예측하는 것은 에너지 계획과 정책 결정에 있어 많은 이점을 가져다준다. 기계학습은 최근 전력소모량을 예측하는 분석 방법으로 많이 사용하고 있다. 그중 앙상블 학습은 모형의 과적합 현상을 방지하고 분산을 줄여 예측의 정확성을 높이는 방법으로 알려져 있다. 하지만 일별 데이터에 앙상블 학습을 적용했을 때 분석 방법의 특성으로 인해 피크를 잘 나타내지 못하고 중심값으로 예측하는 단점을 보였다. 본 연구에서는 앙상블 학습 전에 온도 변수와의 상관성을 고려하여 선형모형으로 적합함으로써 앙상블 학습의 단점을 보완한다. 그리고 9개의 모형을 비교한 결과 온도 변수를 선형모형으로 적합하고 랜덤포레스트를 사용한 모형이 결과가 가장 좋음을 보여준다.

Exploring modern machine learning methods to improve causal-effect estimation

  • Kim, Yeji;Choi, Taehwa;Choi, Sangbum
    • Communications for Statistical Applications and Methods
    • /
    • 제29권2호
    • /
    • pp.177-191
    • /
    • 2022
  • This paper addresses the use of machine learning methods for causal estimation of treatment effects from observational data. Even though conducting randomized experimental trials is a gold standard to reveal potential causal relationships, observational study is another rich source for investigation of exposure effects, for example, in the research of comparative effectiveness and safety of treatments, where the causal effect can be identified if covariates contain all confounding variables. In this context, statistical regression models for the expected outcome and the probability of treatment are often imposed, which can be combined in a clever way to yield more efficient and robust causal estimators. Recently, targeted maximum likelihood estimation and causal random forest is proposed and extensively studied for the use of data-adaptive regression in estimation of causal inference parameters. Machine learning methods are a natural choice in these settings to improve the quality of the final estimate of the treatment effect. We explore how we can adapt the design and training of several machine learning algorithms for causal inference and study their finite-sample performance through simulation experiments under various scenarios. Application to the percutaneous coronary intervention (PCI) data shows that these adaptations can improve simple linear regression-based methods.

북한(北韓) 지역(地域) 산림면적(山林面積) 변화(變化)의 규모(規模)와 특성(特性) (Content and Characteristics of Forest Cover Changes in North Korea)

  • 이규성;정미령;윤정숙
    • 한국산림과학회지
    • /
    • 제88권3호
    • /
    • pp.352-363
    • /
    • 1999
  • 북한의 산림면적 변화에 대한 규모와 특성을 파악하기 위하여 1910년 제작된 조선임야분포지도와 그동안 국내외에 발표된 다양한 통계자료를 종합 분석하였다. 또한 지형적으로나 지리적 특성이 서로 대조적인 평양주변지역과 혜산주변지역에 대하여 1973년부터 약 10년 주기로 촬영된 Landsat 위성영상자료를 처리하여 각 시점의 토지피복도를 작성하여 산림변화의 공간적 특성을 분석하였다. 1990년대 이전에 발표된 북한 전체의 산림면적은 약 $89,000km^2$에서부터 $98,000km^2$까지 다양하게 나타나고 있으나, 조사방법의 불투명성으로 인하여 신뢰도에 많은 의문이 있다. 1991년 두 종류의 위성영상을 이용하여 북한 전 지역의 산림면적을 추정한 결과 위성자료와 처리방법이 달랐음에도 불구하고 매우 비슷한 산림면적을 보여주는데 추정된 산림면적은 그 이전의 자료에 비하여 뚜렷한 감소 경향을 보여주고 있다. 가장 최근 북한에 의하여 유엔에 보고된 산림면적은 $75,519km^2$로서 1991년 위성자료 추정치와 비교하였을 때 약 $10,000km^2$의 급격한 감소를 보였다. 평양과 혜산지역에 대한 위성영상자료의 분석 결과도 매우 유사한 변화특성을 보여주고 있다. 1980년대에는 1973년 자료에 비하여 다소의 감소가 있었으나 1993년 영상에서는 산림이 급격히 감소하였다. 이와 같은 북한의 산림면적 변화는 1990년대부터 악화된 북한의 경제 사정과 최근 빈번히 발생하고 있는 대규모 자연재해 현상과 관련이 있다고 판단된다. 북한지역의 위성영상 분석에 있어서 가장 중요한 특정은 산지임에도 불구하고 임목이 거의 분포하지 않는 무립목지가 상당히 많이 분포하고 있으며, 이러한 무립목지는 잠재적인 황폐화 가능지로서 이 지역의 현황을 보다 정확하게 파악하기 위한 추가적인 노력이 필요하다.

  • PDF

環境因子의 空間分析을 통한 南韓지역의 山林植生帶 구분/지리정보시스템(GIS)에 의한 접근 (Classification of Forest Vegetation Zone over Southern Part of Korean Peninsula Using Geographic Information Systems)

  • Lee, Kyu-Sung;Byong-Chun Lee;Joon Hwan Shin
    • The Korean Journal of Ecology
    • /
    • 제19권5호
    • /
    • pp.465-476
    • /
    • 1996
  • There are several environmental variables that may be influential to the spatial distribution of forest vegetation. To create a map of forest vegetation zone over southern part of Korean Peninsula, digital map layers were produced for each of environmental variables that include topography, geographic locations, and climate. In addition, an extensive set of field survey data was collected at relatively undisturbed forests and they were introduced into the GIS database with exact coordinates of survey sites. Preliminary statistical analysis on the survey data showed that the environmental variables were significantly different among the previously defined five forest vegetation zones. Classification of the six layers of digital map representing environmental variables was carried out by a supervised classifier using the training statistics from field survey data and by a clustering algorithm. Although the maps from two classifiers were somewhat different due to the classification procedure applied, they showed overall patterns of vertical and horizontal distribution of forest zones. considering the spatial contents of many ecological studies, GIS can be used as an important tool to manage and analyze spatial data. This study discusses more about the generation of digital map and the analysis procedure rather than the outcome map of forest vegetation zone.

  • PDF

Estimating Wood Weight Change on Air Drying Times for Three Coniferous Species of South Korea

  • Lee, Daesung;Choi, Jungkee
    • Journal of Forest and Environmental Science
    • /
    • 제32권3호
    • /
    • pp.262-269
    • /
    • 2016
  • The purposes of this study are to calculate the green and dried weight using wood discs, to figure out weight change on air drying times, and to develop the model of wood disc weight change for Larix kaempferi, Pinus koraiensis, and Pinus densiflora. The variables affecting the weight change were investigated, and the pattern of weight change over time was figured out through linear models. When comparing the stem green weight calculated using wood discs in this study with the weight table of Korea Forest Service, the weight was not significantly different for L. kaempferi and P. koraiensis. On the other hand, in comparison of stem dried weight, the weight was significantly different in all of three species. In addition, various measurement factors were examined to figure out the relationship with weight change, and air drying times and disc diameter were found as significant independent variables. Finally, two linear models were developed to estimate air drying times of three species, fit statistics were significant for practical use.