• 제목/요약/키워드: mean squared error

검색결과 696건 처리시간 0.028초

누가분포함수를 활용한 강우강도식의 국내 적용성 평가 (Application of Intensity-Duration-Frequency Curve to Korea Derived by Cumulative Distribution Function)

  • 김규태;김태순;김수영;허준행
    • 대한토목학회논문집
    • /
    • 제28권4B호
    • /
    • pp.363-374
    • /
    • 2008
  • 국내에서 수공구조물의 설계를 위한 확률강우량을 산정하기 위해서 널리 사용되는 강우강도식은 주로 회귀분석을 적용한 형태가 일반적이지만, 본 연구에서는 각 지점별 적정확률분포형의 누가분포함수를 활용하여 강우강도식의 형태를 결정하고, 매개변수는 유전자알고리즘을 적용하여 추정하는 강우강도식을 제안하고자 한다. 기존에 사용하던 강우강도식과의 정확도 비교를 위하여 기상청 22개 지점에 대한 재현기간, 지속기간별 평균제곱근오차, 평균제곱근 상대오차를 검토한 결과 누가분포함수를 활용한 강우강도식이 더 높은 정확도를 가짐을 보였으며, 또한, 최근의 집중호우에 대한 영향을 살펴보기 위하여 2006년 까지의 강우자료를 이용하여 기존의 회귀식에 의한 방법과 누가분포함수를 활용한 경우의 결과값을 비교한 결과 이 경우에도 누가분포함수를 활용한 강우강도식의 정확도가 더 높음을 알 수 있었다. 결과적으로 본 연구에서 제안된 누가분포함수를 활용한 강우강도식은 기존의 회귀분석을 활용한 강우강도식보다 정확도면에서 우수하다고 할 수 있으며, 국내에 충분히 적용가능한 형태의 강우강도식이라고 판단된다.

Prediction of Postoperative Lung Function in Lung Cancer Patients Using Machine Learning Models

  • Oh Beom Kwon;Solji Han;Hwa Young Lee;Hye Seon Kang;Sung Kyoung Kim;Ju Sang Kim;Chan Kwon Park;Sang Haak Lee;Seung Joon Kim;Jin Woo Kim;Chang Dong Yeo
    • Tuberculosis and Respiratory Diseases
    • /
    • 제86권3호
    • /
    • pp.203-215
    • /
    • 2023
  • Background: Surgical resection is the standard treatment for early-stage lung cancer. Since postoperative lung function is related to mortality, predicted postoperative lung function is used to determine the treatment modality. The aim of this study was to evaluate the predictive performance of linear regression and machine learning models. Methods: We extracted data from the Clinical Data Warehouse and developed three sets: set I, the linear regression model; set II, machine learning models omitting the missing data: and set III, machine learning models imputing the missing data. Six machine learning models, the least absolute shrinkage and selection operator (LASSO), Ridge regression, ElasticNet, Random Forest, eXtreme gradient boosting (XGBoost), and the light gradient boosting machine (LightGBM) were implemented. The forced expiratory volume in 1 second measured 6 months after surgery was defined as the outcome. Five-fold cross-validation was performed for hyperparameter tuning of the machine learning models. The dataset was split into training and test datasets at a 70:30 ratio. Implementation was done after dataset splitting in set III. Predictive performance was evaluated by R2 and mean squared error (MSE) in the three sets. Results: A total of 1,487 patients were included in sets I and III and 896 patients were included in set II. In set I, the R2 value was 0.27 and in set II, LightGBM was the best model with the highest R2 value of 0.5 and the lowest MSE of 154.95. In set III, LightGBM was the best model with the highest R2 value of 0.56 and the lowest MSE of 174.07. Conclusion: The LightGBM model showed the best performance in predicting postoperative lung function.

임상에서 발생할 수 있는 문제 상황에서의 성향 점수 가중치 방법에 대한 비교 모의실험 연구 (A simulation study for various propensity score weighting methods in clinical problematic situations)

  • 정시성;민은정
    • 응용통계연구
    • /
    • 제36권5호
    • /
    • pp.381-397
    • /
    • 2023
  • 대부분의 임상시험에서 가장 대표적으로 사용되는 실험설계는 무작위화로, 치료 효과를 정확하게 추정하기 위해 이용된다. 그러나 무작위화가 이루어지지 않은 관찰연구의 경우 치료군과 대조군의 비교로 얻는 치료효과에는 환자 간의 특성 등 여러 조정되지 않은 차이로 인해 편향이 발생한다. 성향 점수 가중치는 이러한 문제점을 해결하기 위해 널리쓰이는 방법으로 치료 효과를 추정하는데에 있어 교란요인을 조정하여 편향을 최소화하도록 하는 방법이다. 성향 점수를 이용한 가중치 방법 중 가장 널리 알려진 역확률 가중치는 관찰된 공변량이 주어졌을 때 특정 치료에 할당될 조건부 확률의 역에 비례하는 가중치를 할당한다. 그러나 이 방법은 극단적인 성향 점수에 의해 종종 방해 받아 편향된 추정치와 과도한 분산을 초래한다는 점이 알려져있어 이러한 문제를 완화하기 위해 절사 역확률 가중치, 중복 가중치, 일치 가중치를 포함한 여러 가지 대안 방법이 제안되었다. 본 논문에서는 제한된 중복, 잘못 지정된 성향 점수 모델 및 예측과 반대되는 치료 등 다양한 문제상황에서 여러 성향 점수 가중치 방법의 성능을 비교하는 시뮬레이션 비교연구를 수행하였다. 비교연구의 결과 중복 가중치와 일치 가중치는 편향, 제곱근평균제곱오차 및 포함 확률 측면에서 역확률 가중치와 절사역확률 가중치에 비에 우월한 성능을 보임을 확인하였다.

Prediction accuracy of incisal points in determining occlusal plane of digital complete dentures

  • Kenta Kashiwazaki;Yuriko Komagamine;Sahaprom Namano;Ji-Man Park;Maiko Iwaki;Shunsuke Minakuchi;Manabu, Kanazawa
    • The Journal of Advanced Prosthodontics
    • /
    • 제15권6호
    • /
    • pp.281-289
    • /
    • 2023
  • PURPOSE. This study aimed to predict the positional coordinates of incisor points from the scan data of conventional complete dentures and verify their accuracy. MATERIALS AND METHODS. The standard triangulated language (STL) data of the scanned 100 pairs of complete upper and lower dentures were imported into the computer-aided design software from which the position coordinates of the points corresponding to each landmark of the jaw were obtained. The x, y, and z coordinates of the incisor point (XP, YP, and ZP) were obtained from the maxillary and mandibular landmark coordinates using regression or calculation formulas, and the accuracy was verified to determine the deviation between the measured and predicted coordinate values. YP was obtained in two ways using the hamularincisive-papilla plane (HIP) and facial measurements. Multiple regression analysis was used to predict ZP. The root mean squared error (RMSE) values were used to verify the accuracy of the XP and YP. The RMSE value was obtained after crossvalidation using the remaining 30 cases of denture STL data to verify the accuracy of ZP. RESULTS. The RMSE was 2.22 for predicting XP. When predicting YP, the RMSE of the method using the HIP plane and facial measurements was 3.18 and 0.73, respectively. Cross-validation revealed the RMSE to be 1.53. CONCLUSION. YP and ZP could be predicted from anatomical landmarks of the maxillary and mandibular edentulous jaw, suggesting that YP could be predicted with better accuracy with the addition of the position of the lower border of the upper lip.

3차원 Arbitrary Lagrangian-Eulerian 기법을 사용한 자유 대기 중 폭발 해석의 최적 격자망 크기 산정 (Optimal Mesh Size in Three-Dimensional Arbitrary Lagrangian-Eulerian Method of Free-air Explosions)

  • 이예나;이태희;박다원;최영준;홍정욱
    • 한국전산구조공학회논문집
    • /
    • 제36권6호
    • /
    • pp.355-364
    • /
    • 2023
  • 폭발 수치해석 기법 중 Arbitrary Lagrangian-Eulerian(ALE)는 구조물의 파괴뿐만 아니라 폭발 이후 충격파의 전파 과정까지 관찰할 수 있는 장점이 있다. 그러나 동적 해석 시 유한요소 모델의 격자망 크기가 일정 수준 이하로 감소하게 되면 해석 결과의 신뢰도가 부정확해진다. 본 연구에서는 ALE 수치해석 기법을 활용하여 대기의 격자망 크기가 해석의 정확도에 미치는 영향을 조사한다. 다양한 조건의 격자망 크기와 폭발 중량을 갖는 대기 중 폭발모델을 구축하고, 폭발 중심으로부터 거리에 따른 폭발압력을 관찰한다. 수치해석과 실험에서 얻은 최대 폭발압력 결과에 대해 평균 제곱 오차를 계산하여 최적의 격자망 크기를 제안하고, 제안된 크기를 바탕으로 폭발물 중량과 대기의 최적 격자망 크기에 대한 상관관계를 분석한다. 본 연구는 다양한 중량을 가진 폭발물 해석에서 최적의 격자망 크기를 제공함으로써 신뢰성이 향상된 폭발 수치해석 모델 개발에 도움이 될 것으로 기대한다.

위성 자료와 수치모델 자료를 활용한 스태킹 앙상블 기반 SO2 지상농도 추정 (Monitoring Ground-level SO2 Concentrations Based on a Stacking Ensemble Approach Using Satellite Data and Numerical Models)

  • 최현영;강유진;임정호;신민소;박서희;김상민
    • 대한원격탐사학회지
    • /
    • 제36권5_3호
    • /
    • pp.1053-1066
    • /
    • 2020
  • 이산화황(SO2)은 대기 중 화학 반응을 통해 2차 대기오염물질을 생성하는 전구체로, 주로 산업활동이나 주거 및 교통 활동 등을 통해 배출된다. 장기간 노출 시 호흡기 질환이나 심혈관 질환 등을 유발하여 인체 건강에 부정적인 영향을 미칠 수 있기 때문에 이에 대한 지속적인 모니터링이 필요하다. 우리나라에서는 SO2에 대해 관측소 기반의 모니터링이 수행되고 있으나 이는 공간적으로 연속적인 정보를 제공하는 데에 한계가 있다. 따라서, 본 연구에서는 위성자료와 수치모델 자료를 융합하여 일별 13시를 타겟으로 하는 1 km의 고해상도로 공간적으로 연속적인 SO2 지상농도를 산출하였다. 2015년 1월부터 2019년 4월까지의 기간 동안 남한 지역에 대하여 스태킹 앙상블 기법을 이용하여 SO2 지상농도 추정 모델을 개발하였다. 스태킹 앙상블 기법이란 여러가지 기계학습 기법을 두 단계로 쌓는 방식으로 융합하여 단일 모델 대비 더 향상된 성능을 도출하는 방법이다. 본 연구에서는 베이스 모델로는 RF (Random Forest)와 XGB (eXtreme Gradient BOOSTing) 기법이, 메타 모델로는 MLR (Multiple Linear Regression) 기법이 사용되었다. 구축된 모델의 교차검증 결과 메타 모델은 상관계수(R) = 0.69와 root-mean-squared-error(RMSE) = 0.0032 ppm의 결과를 보였으며 이는 베이스 모델의 평균 대비 약 25% 향상된 안정성을 보였다. 또한 모델 구축에 사용되지 않은 기간에 대한 예측 검증을 수행하여 모델의 일반화 가능성을 평가하였다. 구축된 모델을 이용하여 남한 지역의 SO2 지상농도 공간분포를 분석한 결과 일반적인 계절성과 배출원의 변화를 잘 반영하는 패턴을 보임을 확인하였다.

산림 총일차생산량 예측의 공간적 확장을 위한 인공위성 자료와 기계학습 알고리즘의 활용 (Application of Machine Learning Algorithm and Remote-sensed Data to Estimate Forest Gross Primary Production at Multi-sites Level)

  • 이보라;김은숙;임종환;강민석;김준
    • 대한원격탐사학회지
    • /
    • 제35권6_2호
    • /
    • pp.1117-1132
    • /
    • 2019
  • 산림생태계 내의 총일차생산량은 산림 자원 생산량과 직결되고, 산림생태계의 건강성, 산림식물계절 및 생태계 서비스의 중요한 지표가 된다. 이 연구에서는 인공위성 자료와 기계학습 알고리즘을 활용하여 우리 나라의 산림유역의 총일차생산량을 연구하였다. 에디공분산 타워가 있는 6개 지점에서의 MODIS (Moderate Resolution Imaging Spectroradiometer) 산출물과 에디공분산타워의 총일차생산성으로 연구기간의 75%-80%에 해당하는 자료로 기계학습 알고리즘을 훈련하고 나머지 기간으로 구축된 모델의 총일차생산성 예측 결과를 검증하였다. 모델을 구축할 때 MODIS 지상 산출물과 대기 산출물을 조합하여 새로운 입력자료(e.g., 포화수증기압차)를 모델의 입력자료(Processed MODIS)로 사용하였을 때와 이러한 과정 없이 QC(Quality control)만 거친 MODIS 산출물을 그대로 입력자료(Unprocessed MODIS)로 사용하였을 때의 총일차생산량을 비교해 보고 그 활용 가능성에 대해 고찰하였다. 추가로 MODIS 총일차생산량 산출물(MYD17)과 에디공분산 총일차생산성 및 기계학습 알고리즘 기반의 총일차생산성과의 상관관계를 보고 그 적합성에 대해 논의하였다. 이 연구에서 사용된 기계학습 알고리즘은 Support Vector Machine (SVM)으로 산림생태계 연구에서 가장 많이 사용되고 있는 기계학습 알고리즘 중 하나이다. 기계학습 알고리즘 기반(SVM 모델)의 총일차생산량 예측 결과는 MODIS 총일차생산량 산출물(MYD17)보다 에디공분산 총일차생산량과 전반적으로 높은 상관관계를 보였고 특히 식생 성장을 시작하는 시점의 값을 좀더잘 예측하는 결과를 보였다. 단일 지역에서 Unprocessed MODIS 입력자료로 훈련된 SVM 모델 결과는 피어슨 상관계수 0.75 - 0.95 (p < 0.001), 6개의 연구 지점에서 훈련된 SVM 모델 결과는 피어슨 상관계수 0.77 - 0.94 (p < 0.001) 사이를 보였다. 이 결과는 훈련 자료에 다양한 이벤트들이 포함되면 모델의 예측력이 향상되는 가능성을 보여주었고 위성영상의 산출물을 재계산하여 새로운 산출물을 내는 과정을 거친 위성 자료가 아니어도 그 예측력에는 크게 문제가 없음을 보여주었다.

머신러닝 기법의 산림 총일차생산성 예측 모델 비교 (Predicting Forest Gross Primary Production Using Machine Learning Algorithms)

  • 이보라;장근창;김은숙;강민석;천정화;임종환
    • 한국농림기상학회지
    • /
    • 제21권1호
    • /
    • pp.29-41
    • /
    • 2019
  • 산림생태계에서 총일차생산성(Gross Primary Production, GPP)은 기후변화에 따른 산림의 생산성과 그에 영향을 미치는 식물계절, 건강성, 탄소 순환 등을 대표하는 지표이다. 총일차생산성을 추정하기 위해서는 에디공분산 타워 자료나 위성영상관측자료를 이용하기도 하고 물리지형적 한계나 기후변화 등을 고려하기 위해 기작기반모델링을 활용하기도 한다. 그러나 총일차생산성을 포함한 산림 탄소 순환의 기작기반 모델링은 식물의 생물, 생리, 화학적 기작들의 반응과 지형, 기후 및 시간 등과 같은 환경 조건들이 복잡하게 얽혀 있어 비선형적이고 유연성이 떨어져 반응에 영향을 주는 조건들을 모두 적용하기가 어렵다. 본 연구에서는 산림 생산성 추정 모델을 에디공분산 자료와 인공위성영상 정보를 사용하여 기계학습 알고리즘을 사용한 모델들로 구축해 보고 그 사용 및 확장 가능성을 검토해 보고자 하였다. 설명변수들로는 에디공분산자료와 인공위성자료에서 나온 대기기상인자들을 사용하였고 검증자료로 에디공분산 타워에서 관측된 총일차생산성을 사용하였다. 산림생산성 추정 모델은 1) 에디공분산 관측 기온($T_{air}$), 태양복사($R_d$), 상대습도(RH), 강수(PPT), 증발산(ET) 자료, 2) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD 자료(개량식생지수 제외), 3) MODIS 관측 기온(T), 일사량($R_{sd}$), VPD, 개량식생지수(EVI) 자료를 사용하는 세 가지 경우로 나누어 구축하여 2006 - 2013년 자료로 훈련시키고 2014, 2015년 자료로 검증하였다. 기계학습 알고리즘은 support vector machine (SVM), random forest (RF), artificial neural network (ANN)를 사용하였고 단순 비교를 위해 고전적 방법인 multiple linear regression model (LM)을 사용하였다. 그 결과, 에디공분산 입력자료로 훈련시킨 모델의 예측력은 피어슨 상관계수 0.89 - 0.92 (MSE = 1.24 - 1.62), MODIS 입력자료로 훈련시킨 모델의 예측력은 개량식생지수 제외된 모델은 0.82 - 0.86 (MSE = 1.99 - 2.45), 개량식생지수가 포함된 모델은 0.92 - 0.93(MSE = 1.00 - 1.24)을 보였다. 이러한 결과는 산림총일차생산성 추정 모델 구축에 있어 MODIS인공위성 영상 정보 기반으로 기계학습 알고리즘을 사용하는 것에 대한 높은 활용가능성을 보여주었다.

BERT 기반 감성분석을 이용한 추천시스템 (Recommender system using BERT sentiment analysis)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.1-15
    • /
    • 2021
  • 추천시스템은 사용자의 기호를 파악하여 물품 구매 결정을 도와주는 역할을 할 뿐만 아니라, 비즈니스 전략의 관점에서도 중요한 역할을 하기에 많은 기업과 기관에서 관심을 갖고 있다. 최근에는 다양한 추천시스템 연구 중에서도 NLP와 딥러닝 등을 결합한 하이브리드 추천시스템 연구가 증가하고 있다. NLP를 이용한 감성분석은 사용자 리뷰 데이터가 증가함에 따라 2000년대 중반부터 활용되기 시작하였지만, 기계학습 기반 텍스트 분류를 통해서는 텍스트의 특성을 완전히 고려하기 어렵기 때문에 리뷰의 정보를 식별하기 어려운 단점을 갖고 있다. 본 연구에서는 기계학습의 단점을 보완하기 위하여 BERT 기반 감성분석을 활용한 추천시스템을 제안하고자 한다. 비교 모형은 Naive-CF(collaborative filtering), SVD(singular value decomposition)-CF, MF(matrix factorization)-CF, BPR-MF(Bayesian personalized ranking matrix factorization)-CF, LSTM, CNN-LSTM, GRU(Gated Recurrent Units)를 기반으로 하는 추천 모형이며, 실제 데이터에 대한 분석 결과, BERT를 기반으로 하는 추천시스템의 성과가 가장 우수한 것으로 나타났다.

물질투과율 측정정보 기반 의료용 선형가속기의 에너지스펙트럼 유도기술 개발 (Development of Unfolding Energy Spectrum with Clinical Linear Accelerator based on Transmission Data)

  • 최현준;박효준;유도현;김병철;이철영;민철희
    • Journal of Radiation Protection and Research
    • /
    • 제41권1호
    • /
    • pp.41-47
    • /
    • 2016
  • 연구배경: 세기조절방사선치료와 같이 고선량을 암조직에 정밀하게 전달할 수 있는 방사선 치료기술이 개발됨에 따라, 보다 정확한 선량평가 기술의 개발이 요구되고 있다. 본 연구에서는 선형가속기에서 발생된 광자선의 물질투과율 정보를 통해 간접유도방식으로 에너지스펙트럼을 예측할 수 있는 기술의 개발을 목적으로 한다. 재료 및 방법: 의료용 선형가속기를 사용한 측정과 몬테칼로 전산모사를 통해 감쇠물질의 두께에 따른 X-선의 투과율이 평가되었으며, 이와 더불어 단일에너지에 의한 이온함의 반응함수가 결정되었다. 최종적으로 Unfolding 방법을 사용하는 HEOROW 프로그램을 통해 고선량률의 치료용 선형가속기에서 발생된 광자선의 에너지스펙트럼이 유도되었다. 본 연구에서 실험을 위해 Elekta Synergy Flatform 선형가속기가 사용되었으며, 몬테칼로 방법을 사용하는 Geant4 전산모사 프로그램이 사용되었다. 결과 및 논의: 감쇠물질의 두께에 따른 X-선 투과율과 몬테칼로 전산모사를 통해 계산된 X-선 투과율의 비교 결과 0.43%의 평균제곱근오차가 확인된다. 물질투과정보를 통해 간접적으로 유도된 에너지스펙트럼은 몬테칼로 전산모사를 통해 직접적으로 계산된 에너지스펙트럼과 비교분석 되었으며, 피크위치 및 평균에너지의 오차가 각각 0.066 MeV와 0.03 MeV로 평가되었다. 하지만 보다 정확한 에너지스펙트럼을 예측하기 위해서는 다양한 감쇠물질의 사용과 에너지스펙트럼 유도프로그램의 정밀도 향상을 위한 추가적인 연구가 필요할 것으로 판단된다. 결론: 본 연구를 통해 확인된 물질투과율 기반의 에너지스펙트럼 측정 기술은 에너지가 높고 선량률이 높기 때문에 광자선을 직접적으로 측정하는 것이 제한적인 의료용 선형가속기에 적용될 수 있을 것으로 판단된다.