• 제목/요약/키워드: Mean Squared Error, MSE

검색결과 174건 처리시간 0.02초

회귀나무 모형을 이용한 패널데이터 분석 (Panel data analysis with regression trees)

  • 장영재
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1253-1262
    • /
    • 2014
  • 회귀나무 (regression tree)는 독립변수로 이루어진 공간을 재귀적으로 분할하고 해당 영역에서 종속변수의 최선의 예측값을 찾고자 하는 비모수적 방법론이다. 회귀나무 모형이 제안된 이래 로지스틱 회귀나무모형이나 분위수 회귀나무모형과 같이 유연하고 다양한 모형적합을 위한 연구가 진행되어 왔다. 최근에 들어서는 Sela와 Simonoff (2012)의 RE-EM 알고리즘, Loh와 Zheng (2013)의 GUIDE 등 패널데이터와 관련하여 진일보한 나무모형 알고리즘도 제안되었다. 본 논문에서는 각 알고리즘을 소개하고 특징을 살펴보는 한편, 실험 데이터를 생성하여 평균제곱오차 (mean squared error)를 바탕으로 예측력을 비교하였다. 분석결과, RE-EM 알고리즘의 예측력이 상대적으로 우수하게 나타났다. 이 알고리즘을 통해 기업경기실사지수 업종별 패널자료를 분석한 결과 최근의 업황에 가장 큰 영향을 미치는 요소는 매출 실적으로 나타났으며 매출 상위 그룹의 경우 비제조업이 제조업에 비해 업황에 대한 판단이 긍정적인 것으로 나타났다.

Development of Diameter Growth Models by Thinning Intensity of Planted Quercus glauca Thunb. Stands

  • Jung, Su Young;Lee, Kwang Soo;Kim, Hyun Soo
    • 인간식물환경학회지
    • /
    • 제24권6호
    • /
    • pp.629-638
    • /
    • 2021
  • Background and objective: This study was conducted to develop diameter growth models for thinned Quercus glauca Thunb. (QGT) stands to inform production goals for treatment and provide the information necessary for the systematic management of this stands. Methods: This study was conducted on QGT stands, of which initial thinning was completed in 2013 to develop a treatment system. To analyze the tree growth and trait response for each thinning treatment, forestry surveys were conducted in 2014 and 2021, and a one-way analysis of variance (ANOVA) was executed. In addition, non-linear least squares regression of the PROC NLIN procedure was used to develop an optimal diameter growth model. Results: Based on growth and trait analyses, the height and height-to-diameter (H/D) ratio were not different according to treatment plot (p > .05). For the diameter of basal height (DBH), the heavy thinning (HT) treatment plot was significantly larger than the control plot (p < .05). As a result of the development of diameter growth models by treatment plot, the mean squared error (MSE) of the Gompertz polymorphic equation (control: 2.2381, light thinning: 0.8478, and heavy thinning: 0.8679) was the lowest in all treatment plots, and the Shapiro-Wilk statistic was found to follow a normal distribution (p > .95), so it was selected as an equation fit for the diameter growth model. Conclusion: The findings of this study provide basic data for the systematic management of Quercus glauca Thunb. stands. It is necessary to construct permanent sample plots (PSP) that consider stand status, location conditions, and climatic environments.

기계학습 기반 지진 취약 철근콘크리트 골조에 대한 신속 내진성능 등급 예측모델 개발 연구 (Machine Learning-based Rapid Seismic Performance Evaluation for Seismically-deficient Reinforced Concrete Frame)

  • 강태욱;강재도;오근영;신지욱
    • 한국지진공학회논문집
    • /
    • 제28권4호
    • /
    • pp.193-203
    • /
    • 2024
  • Existing reinforced concrete (RC) building frames constructed before the seismic design was applied have seismically deficient structural details, and buildings with such structural details show brittle behavior that is destroyed early due to low shear performance. Various reinforcement systems, such as fiber-reinforced polymer (FRP) jacketing systems, are being studied to reinforce the seismically deficient RC frames. Due to the step-by-step modeling and interpretation process, existing seismic performance assessment and reinforcement design of buildings consume an enormous amount of workforce and time. Various machine learning (ML) models were developed using input and output datasets for seismic loads and reinforcement details built through the finite element (FE) model developed in previous studies to overcome these shortcomings. To assess the performance of the seismic performance prediction models developed in this study, the mean squared error (MSE), R-square (R2), and residual of each model were compared. Overall, the applied ML was found to rapidly and effectively predict the seismic performance of buildings according to changes in load and reinforcement details without overfitting. In addition, the best-fit model for each seismic performance class was selected by analyzing the performance by class of the ML models.

산림 총일차생산량 예측의 공간적 확장을 위한 인공위성 자료와 기계학습 알고리즘의 활용 (Application of Machine Learning Algorithm and Remote-sensed Data to Estimate Forest Gross Primary Production at Multi-sites Level)

  • 이보라;김은숙;임종환;강민석;김준
    • 대한원격탐사학회지
    • /
    • 제35권6_2호
    • /
    • pp.1117-1132
    • /
    • 2019
  • 산림생태계 내의 총일차생산량은 산림 자원 생산량과 직결되고, 산림생태계의 건강성, 산림식물계절 및 생태계 서비스의 중요한 지표가 된다. 이 연구에서는 인공위성 자료와 기계학습 알고리즘을 활용하여 우리 나라의 산림유역의 총일차생산량을 연구하였다. 에디공분산 타워가 있는 6개 지점에서의 MODIS (Moderate Resolution Imaging Spectroradiometer) 산출물과 에디공분산타워의 총일차생산성으로 연구기간의 75%-80%에 해당하는 자료로 기계학습 알고리즘을 훈련하고 나머지 기간으로 구축된 모델의 총일차생산성 예측 결과를 검증하였다. 모델을 구축할 때 MODIS 지상 산출물과 대기 산출물을 조합하여 새로운 입력자료(e.g., 포화수증기압차)를 모델의 입력자료(Processed MODIS)로 사용하였을 때와 이러한 과정 없이 QC(Quality control)만 거친 MODIS 산출물을 그대로 입력자료(Unprocessed MODIS)로 사용하였을 때의 총일차생산량을 비교해 보고 그 활용 가능성에 대해 고찰하였다. 추가로 MODIS 총일차생산량 산출물(MYD17)과 에디공분산 총일차생산성 및 기계학습 알고리즘 기반의 총일차생산성과의 상관관계를 보고 그 적합성에 대해 논의하였다. 이 연구에서 사용된 기계학습 알고리즘은 Support Vector Machine (SVM)으로 산림생태계 연구에서 가장 많이 사용되고 있는 기계학습 알고리즘 중 하나이다. 기계학습 알고리즘 기반(SVM 모델)의 총일차생산량 예측 결과는 MODIS 총일차생산량 산출물(MYD17)보다 에디공분산 총일차생산량과 전반적으로 높은 상관관계를 보였고 특히 식생 성장을 시작하는 시점의 값을 좀더잘 예측하는 결과를 보였다. 단일 지역에서 Unprocessed MODIS 입력자료로 훈련된 SVM 모델 결과는 피어슨 상관계수 0.75 - 0.95 (p < 0.001), 6개의 연구 지점에서 훈련된 SVM 모델 결과는 피어슨 상관계수 0.77 - 0.94 (p < 0.001) 사이를 보였다. 이 결과는 훈련 자료에 다양한 이벤트들이 포함되면 모델의 예측력이 향상되는 가능성을 보여주었고 위성영상의 산출물을 재계산하여 새로운 산출물을 내는 과정을 거친 위성 자료가 아니어도 그 예측력에는 크게 문제가 없음을 보여주었다.