• 제목/요약/키워드: Mean-Squared Error

검색결과 708건 처리시간 0.023초

다변량 지구과학 데이터와 가우시안 혼합 모델을 이용한 공간 분포 추정 (Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data)

  • 김호림;유순영;윤성택;김경호;이군택;이정호;허철호;류동우
    • 자원환경지질
    • /
    • 제55권4호
    • /
    • pp.353-366
    • /
    • 2022
  • 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICP-AES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICP-AES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다 변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다.

누가분포함수를 활용한 강우강도식의 국내 적용성 평가 (Application of Intensity-Duration-Frequency Curve to Korea Derived by Cumulative Distribution Function)

  • 김규태;김태순;김수영;허준행
    • 대한토목학회논문집
    • /
    • 제28권4B호
    • /
    • pp.363-374
    • /
    • 2008
  • 국내에서 수공구조물의 설계를 위한 확률강우량을 산정하기 위해서 널리 사용되는 강우강도식은 주로 회귀분석을 적용한 형태가 일반적이지만, 본 연구에서는 각 지점별 적정확률분포형의 누가분포함수를 활용하여 강우강도식의 형태를 결정하고, 매개변수는 유전자알고리즘을 적용하여 추정하는 강우강도식을 제안하고자 한다. 기존에 사용하던 강우강도식과의 정확도 비교를 위하여 기상청 22개 지점에 대한 재현기간, 지속기간별 평균제곱근오차, 평균제곱근 상대오차를 검토한 결과 누가분포함수를 활용한 강우강도식이 더 높은 정확도를 가짐을 보였으며, 또한, 최근의 집중호우에 대한 영향을 살펴보기 위하여 2006년 까지의 강우자료를 이용하여 기존의 회귀식에 의한 방법과 누가분포함수를 활용한 경우의 결과값을 비교한 결과 이 경우에도 누가분포함수를 활용한 강우강도식의 정확도가 더 높음을 알 수 있었다. 결과적으로 본 연구에서 제안된 누가분포함수를 활용한 강우강도식은 기존의 회귀분석을 활용한 강우강도식보다 정확도면에서 우수하다고 할 수 있으며, 국내에 충분히 적용가능한 형태의 강우강도식이라고 판단된다.

Prediction of Postoperative Lung Function in Lung Cancer Patients Using Machine Learning Models

  • Oh Beom Kwon;Solji Han;Hwa Young Lee;Hye Seon Kang;Sung Kyoung Kim;Ju Sang Kim;Chan Kwon Park;Sang Haak Lee;Seung Joon Kim;Jin Woo Kim;Chang Dong Yeo
    • Tuberculosis and Respiratory Diseases
    • /
    • 제86권3호
    • /
    • pp.203-215
    • /
    • 2023
  • Background: Surgical resection is the standard treatment for early-stage lung cancer. Since postoperative lung function is related to mortality, predicted postoperative lung function is used to determine the treatment modality. The aim of this study was to evaluate the predictive performance of linear regression and machine learning models. Methods: We extracted data from the Clinical Data Warehouse and developed three sets: set I, the linear regression model; set II, machine learning models omitting the missing data: and set III, machine learning models imputing the missing data. Six machine learning models, the least absolute shrinkage and selection operator (LASSO), Ridge regression, ElasticNet, Random Forest, eXtreme gradient boosting (XGBoost), and the light gradient boosting machine (LightGBM) were implemented. The forced expiratory volume in 1 second measured 6 months after surgery was defined as the outcome. Five-fold cross-validation was performed for hyperparameter tuning of the machine learning models. The dataset was split into training and test datasets at a 70:30 ratio. Implementation was done after dataset splitting in set III. Predictive performance was evaluated by R2 and mean squared error (MSE) in the three sets. Results: A total of 1,487 patients were included in sets I and III and 896 patients were included in set II. In set I, the R2 value was 0.27 and in set II, LightGBM was the best model with the highest R2 value of 0.5 and the lowest MSE of 154.95. In set III, LightGBM was the best model with the highest R2 value of 0.56 and the lowest MSE of 174.07. Conclusion: The LightGBM model showed the best performance in predicting postoperative lung function.

임상에서 발생할 수 있는 문제 상황에서의 성향 점수 가중치 방법에 대한 비교 모의실험 연구 (A simulation study for various propensity score weighting methods in clinical problematic situations)

  • 정시성;민은정
    • 응용통계연구
    • /
    • 제36권5호
    • /
    • pp.381-397
    • /
    • 2023
  • 대부분의 임상시험에서 가장 대표적으로 사용되는 실험설계는 무작위화로, 치료 효과를 정확하게 추정하기 위해 이용된다. 그러나 무작위화가 이루어지지 않은 관찰연구의 경우 치료군과 대조군의 비교로 얻는 치료효과에는 환자 간의 특성 등 여러 조정되지 않은 차이로 인해 편향이 발생한다. 성향 점수 가중치는 이러한 문제점을 해결하기 위해 널리쓰이는 방법으로 치료 효과를 추정하는데에 있어 교란요인을 조정하여 편향을 최소화하도록 하는 방법이다. 성향 점수를 이용한 가중치 방법 중 가장 널리 알려진 역확률 가중치는 관찰된 공변량이 주어졌을 때 특정 치료에 할당될 조건부 확률의 역에 비례하는 가중치를 할당한다. 그러나 이 방법은 극단적인 성향 점수에 의해 종종 방해 받아 편향된 추정치와 과도한 분산을 초래한다는 점이 알려져있어 이러한 문제를 완화하기 위해 절사 역확률 가중치, 중복 가중치, 일치 가중치를 포함한 여러 가지 대안 방법이 제안되었다. 본 논문에서는 제한된 중복, 잘못 지정된 성향 점수 모델 및 예측과 반대되는 치료 등 다양한 문제상황에서 여러 성향 점수 가중치 방법의 성능을 비교하는 시뮬레이션 비교연구를 수행하였다. 비교연구의 결과 중복 가중치와 일치 가중치는 편향, 제곱근평균제곱오차 및 포함 확률 측면에서 역확률 가중치와 절사역확률 가중치에 비에 우월한 성능을 보임을 확인하였다.

Prediction accuracy of incisal points in determining occlusal plane of digital complete dentures

  • Kenta Kashiwazaki;Yuriko Komagamine;Sahaprom Namano;Ji-Man Park;Maiko Iwaki;Shunsuke Minakuchi;Manabu, Kanazawa
    • The Journal of Advanced Prosthodontics
    • /
    • 제15권6호
    • /
    • pp.281-289
    • /
    • 2023
  • PURPOSE. This study aimed to predict the positional coordinates of incisor points from the scan data of conventional complete dentures and verify their accuracy. MATERIALS AND METHODS. The standard triangulated language (STL) data of the scanned 100 pairs of complete upper and lower dentures were imported into the computer-aided design software from which the position coordinates of the points corresponding to each landmark of the jaw were obtained. The x, y, and z coordinates of the incisor point (XP, YP, and ZP) were obtained from the maxillary and mandibular landmark coordinates using regression or calculation formulas, and the accuracy was verified to determine the deviation between the measured and predicted coordinate values. YP was obtained in two ways using the hamularincisive-papilla plane (HIP) and facial measurements. Multiple regression analysis was used to predict ZP. The root mean squared error (RMSE) values were used to verify the accuracy of the XP and YP. The RMSE value was obtained after crossvalidation using the remaining 30 cases of denture STL data to verify the accuracy of ZP. RESULTS. The RMSE was 2.22 for predicting XP. When predicting YP, the RMSE of the method using the HIP plane and facial measurements was 3.18 and 0.73, respectively. Cross-validation revealed the RMSE to be 1.53. CONCLUSION. YP and ZP could be predicted from anatomical landmarks of the maxillary and mandibular edentulous jaw, suggesting that YP could be predicted with better accuracy with the addition of the position of the lower border of the upper lip.

3차원 Arbitrary Lagrangian-Eulerian 기법을 사용한 자유 대기 중 폭발 해석의 최적 격자망 크기 산정 (Optimal Mesh Size in Three-Dimensional Arbitrary Lagrangian-Eulerian Method of Free-air Explosions)

  • 이예나;이태희;박다원;최영준;홍정욱
    • 한국전산구조공학회논문집
    • /
    • 제36권6호
    • /
    • pp.355-364
    • /
    • 2023
  • 폭발 수치해석 기법 중 Arbitrary Lagrangian-Eulerian(ALE)는 구조물의 파괴뿐만 아니라 폭발 이후 충격파의 전파 과정까지 관찰할 수 있는 장점이 있다. 그러나 동적 해석 시 유한요소 모델의 격자망 크기가 일정 수준 이하로 감소하게 되면 해석 결과의 신뢰도가 부정확해진다. 본 연구에서는 ALE 수치해석 기법을 활용하여 대기의 격자망 크기가 해석의 정확도에 미치는 영향을 조사한다. 다양한 조건의 격자망 크기와 폭발 중량을 갖는 대기 중 폭발모델을 구축하고, 폭발 중심으로부터 거리에 따른 폭발압력을 관찰한다. 수치해석과 실험에서 얻은 최대 폭발압력 결과에 대해 평균 제곱 오차를 계산하여 최적의 격자망 크기를 제안하고, 제안된 크기를 바탕으로 폭발물 중량과 대기의 최적 격자망 크기에 대한 상관관계를 분석한다. 본 연구는 다양한 중량을 가진 폭발물 해석에서 최적의 격자망 크기를 제공함으로써 신뢰성이 향상된 폭발 수치해석 모델 개발에 도움이 될 것으로 기대한다.

머신 러닝을 이용한 밸브 사이즈 및 종류 예측 모델 개발 (Data-driven Modeling for Valve Size and Type Prediction Using Machine Learning)

  • 김찬호;최민식;주종효;이아름;윤건;조성호;김정환
    • Korean Chemical Engineering Research
    • /
    • 제62권3호
    • /
    • pp.214-224
    • /
    • 2024
  • 밸브는 유량과 압력 조절 등의 중요한 역할을 수행하며, 적절한 밸브 사이즈와 유형 선택이 필요하다. Engineering Procurement Construction (EPC) 산업에선 밸브 사이즈 계수(Cv)의 수식적 계산을 바탕으로 사이즈와 유형을 선정해왔으나 이러한 방식은 전문가의 많은 시간과 비용이 요구되어 비효율적이다. 본 연구는 이를 해결하기위해 머신 러닝기법을 이용한 밸브 사이즈 및 유형 예측 모델을 개발하였다. Artificial neural network (ANN), Random Forest, XGBoost, Catboost의알고리즘을 적용하여 모델들을 개발하였으며, 평가 지표로는 사이즈 예측에는 Normalized root mean squared error (NRMSE)와 R2를, 종류 예측에는 F1 score를 적용하였다. 또한, 유체 상에 따른 영향을 확인하고자 유체 전체, 액체, 기체, 스팀의 4개의 데이터 세트로 사례 연구를 진행하였다. 연구 결과, 사이즈의 경우 전체, 액체, 기체에선 Catboost(R2기준, 전체: 0.99216, 액체: 0.98602, 기체: 0.99300. NRMSE 기준, 전체: 0.04072, 액체: 0.04886, 기체: 0.03619)가, 스팀에선 Random Forest가(R2: 0.99028, NRMSE: 0.03493) 가장 뛰어난 모델임을 확인하였다. 종류의 경우 Catboost가 모든 데이터에서 가장 높은 성과를 제시하였다(F1 score 기준, 전체: 0.95766, 액체: 0.96264, 기체: 0.95770, 스팀: 1.0000). 본 연구에서 제안한 모델들을 적용할 경우, 주어진 조건에 따른 밸브 선택을 도와 의사결정 속도를 높여줄 것으로 기대된다.

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

산림 총일차생산량 예측의 공간적 확장을 위한 인공위성 자료와 기계학습 알고리즘의 활용 (Application of Machine Learning Algorithm and Remote-sensed Data to Estimate Forest Gross Primary Production at Multi-sites Level)

  • 이보라;김은숙;임종환;강민석;김준
    • 대한원격탐사학회지
    • /
    • 제35권6_2호
    • /
    • pp.1117-1132
    • /
    • 2019
  • 산림생태계 내의 총일차생산량은 산림 자원 생산량과 직결되고, 산림생태계의 건강성, 산림식물계절 및 생태계 서비스의 중요한 지표가 된다. 이 연구에서는 인공위성 자료와 기계학습 알고리즘을 활용하여 우리 나라의 산림유역의 총일차생산량을 연구하였다. 에디공분산 타워가 있는 6개 지점에서의 MODIS (Moderate Resolution Imaging Spectroradiometer) 산출물과 에디공분산타워의 총일차생산성으로 연구기간의 75%-80%에 해당하는 자료로 기계학습 알고리즘을 훈련하고 나머지 기간으로 구축된 모델의 총일차생산성 예측 결과를 검증하였다. 모델을 구축할 때 MODIS 지상 산출물과 대기 산출물을 조합하여 새로운 입력자료(e.g., 포화수증기압차)를 모델의 입력자료(Processed MODIS)로 사용하였을 때와 이러한 과정 없이 QC(Quality control)만 거친 MODIS 산출물을 그대로 입력자료(Unprocessed MODIS)로 사용하였을 때의 총일차생산량을 비교해 보고 그 활용 가능성에 대해 고찰하였다. 추가로 MODIS 총일차생산량 산출물(MYD17)과 에디공분산 총일차생산성 및 기계학습 알고리즘 기반의 총일차생산성과의 상관관계를 보고 그 적합성에 대해 논의하였다. 이 연구에서 사용된 기계학습 알고리즘은 Support Vector Machine (SVM)으로 산림생태계 연구에서 가장 많이 사용되고 있는 기계학습 알고리즘 중 하나이다. 기계학습 알고리즘 기반(SVM 모델)의 총일차생산량 예측 결과는 MODIS 총일차생산량 산출물(MYD17)보다 에디공분산 총일차생산량과 전반적으로 높은 상관관계를 보였고 특히 식생 성장을 시작하는 시점의 값을 좀더잘 예측하는 결과를 보였다. 단일 지역에서 Unprocessed MODIS 입력자료로 훈련된 SVM 모델 결과는 피어슨 상관계수 0.75 - 0.95 (p < 0.001), 6개의 연구 지점에서 훈련된 SVM 모델 결과는 피어슨 상관계수 0.77 - 0.94 (p < 0.001) 사이를 보였다. 이 결과는 훈련 자료에 다양한 이벤트들이 포함되면 모델의 예측력이 향상되는 가능성을 보여주었고 위성영상의 산출물을 재계산하여 새로운 산출물을 내는 과정을 거친 위성 자료가 아니어도 그 예측력에는 크게 문제가 없음을 보여주었다.

머신러닝 기법의 산림 총일차생산성 예측 모델 비교 (Predicting Forest Gross Primary Production Using Machine Learning Algorithms)

  • 이보라;장근창;김은숙;강민석;천정화;임종환
    • 한국농림기상학회지
    • /
    • 제21권1호
    • /
    • pp.29-41
    • /
    • 2019
  • 산림생태계에서 총일차생산성(Gross Primary Production, GPP)은 기후변화에 따른 산림의 생산성과 그에 영향을 미치는 식물계절, 건강성, 탄소 순환 등을 대표하는 지표이다. 총일차생산성을 추정하기 위해서는 에디공분산 타워 자료나 위성영상관측자료를 이용하기도 하고 물리지형적 한계나 기후변화 등을 고려하기 위해 기작기반모델링을 활용하기도 한다. 그러나 총일차생산성을 포함한 산림 탄소 순환의 기작기반 모델링은 식물의 생물, 생리, 화학적 기작들의 반응과 지형, 기후 및 시간 등과 같은 환경 조건들이 복잡하게 얽혀 있어 비선형적이고 유연성이 떨어져 반응에 영향을 주는 조건들을 모두 적용하기가 어렵다. 본 연구에서는 산림 생산성 추정 모델을 에디공분산 자료와 인공위성영상 정보를 사용하여 기계학습 알고리즘을 사용한 모델들로 구축해 보고 그 사용 및 확장 가능성을 검토해 보고자 하였다. 설명변수들로는 에디공분산자료와 인공위성자료에서 나온 대기기상인자들을 사용하였고 검증자료로 에디공분산 타워에서 관측된 총일차생산성을 사용하였다. 산림생산성 추정 모델은 1) 에디공분산 관측 기온($T_{air}$), 태양복사($R_d$), 상대습도(RH), 강수(PPT), 증발산(ET) 자료, 2) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD 자료(개량식생지수 제외), 3) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD, 개량식생지수(EVI) 자료를 사용하는 세 가지 경우로 나누어 구축하여 2006 - 2013년 자료로 훈련시키고 2014, 2015년 자료로 검증하였다. 기계학습 알고리즘은 support vector machine (SVM), random forest (RF), artificial neural network (ANN)를 사용하였고 단순 비교를 위해 고전적 방법인 multiple linear regression model (LM)을 사용하였다. 그 결과, 에디공분산 입력자료로 훈련시킨 모델의 예측력은 피어슨 상관계수 0.89 - 0.92 (MSE = 1.24 - 1.62), MODIS 입력자료로 훈련시킨 모델의 예측력은 개량식생지수 제외된 모델은 0.82 - 0.86 (MSE = 1.99 - 2.45), 개량식생지수가 포함된 모델은 0.92 - 0.93(MSE = 1.00 - 1.24)을 보였다. 이러한 결과는 산림총일차생산성 추정 모델 구축에 있어 MODIS인공위성 영상 정보 기반으로 기계학습 알고리즘을 사용하는 것에 대한 높은 활용가능성을 보여주었다.