• 제목/요약/키워드: Spatial regression modelling

검색결과 16건 처리시간 0.025초

Regression-based algorithms for exploring the relationships in a cement raw material quarry

  • Tutmez, Bulent;Dag, Ahmet
    • Computers and Concrete
    • /
    • 제10권5호
    • /
    • pp.457-467
    • /
    • 2012
  • Using appropriate raw materials for cement is crucial for providing the required products. Monitoring relationships and analyzing distributions in a cement material quarry are important stages in the process. CaO, one of the substantial chemical components, is included in some raw materials such as limestone and marl; furthermore, appraising spatial assessment of this chemical component is also very critical. In this study, spatial evaluation and monitoring of CaO concentrations in a cement site are considered. For this purpose, two effective regression-based models were applied to a cement quarry located in Turkey. For the assessment, some spatial models were developed and performance comparisons were carried out. The results show that the regression-based spatial modelling is an efficient methodology and it can be employed to evaluate spatially varying relationships in a cement quarry.

공간 극단값의 분계점 모형 사례 연구 - 한국 여름철 강수량 (Threshold Modelling of Spatial Extremes - Summer Rainfall of Korea)

  • 황승용;최혜미
    • 응용통계연구
    • /
    • 제27권4호
    • /
    • pp.655-665
    • /
    • 2014
  • 폭염, 폭우와 가뭄 등과 같은 이상 기후 현상에 대한 적절한 대응이 최근 많이 요구되고 있다. 이상 기후 현상을 분석하기 위해 극단값 분석 기법을 적용할 수 있는데, 본 논문은에서는 한국의 여름철 강수량 자료(1973년부터 2012년까지의 5월부터 9월)를 분계점 초과값 모형으로 분석해보았다. 분계점은 한국의 기상관측소들을 5개의 군집으로 나누어, 각 군집별로 지리 정보와 시간을 공변량으로 하는 분위수 회귀 방법을 통하여 추정하였다. Northrop과 Jonathan (2011)과 같이 극단값들이 시공간적으로 독립이라고 가정하고 분석한 후, 추정오차와 검정 과정에 공간 종속성을 반영하였다.

고해상도 격자 기후자료 내 이상 기후변수 수정을 위한 통계적 보간법 적용 (Application of a Statistical Interpolation Method to Correct Extreme Values in High-Resolution Gridded Climate Variables)

  • 정여민;음형일
    • 한국기후변화학회지
    • /
    • 제6권4호
    • /
    • pp.331-344
    • /
    • 2015
  • A long-term gridded historical data at 3 km spatial resolution has been generated for practical regional applications such as hydrologic modelling. However, overly high or low values have been found at some grid points where complex topography or sparse observational network exist. In this study, the Inverse Distance Weighting (IDW) method was applied to properly smooth the overly predicted values of Improved GIS-based Regression Model (IGISRM), called the IDW-IGISRM grid data, at the same resolution for daily precipitation, maximum temperature and minimum temperature from 2001 to 2010 over South Korea. We tested various effective distances in the IDW method to detect an optimal distance that provides the highest performance. IDW-IGISRM was compared with IGISRM to evaluate the effectiveness of IDW-IGISRM with regard to spatial patterns, and quantitative performance metrics over 243 AWS observational points and four selected stations showing the largest biases. Regarding the spatial pattern, IDW-IGISRM reduced irrational overly predicted values, i. e. producing smoother spatial maps that IGISRM for all variables. In addition, all quantitative performance metrics were improved by IDW-IGISRM; correlation coefficient (CC), Index Of Agreement (IOA) increase up to 11.2% and 2.0%, respectively. Mean Absolute Error (MAE) and Root Mean Square Error (RMSE) were also reduced up to 5.4% and 15.2% respectively. At the selected four stations, this study demonstrated that the improvement was more considerable. These results indicate that IDW-IGISRM can improve the predictive performance of IGISRM, consequently providing more reliable high-resolution gridded data for assessment, adaptation, and vulnerability studies of climate change impacts.

Optimizing Clustering and Predictive Modelling for 3-D Road Network Analysis Using Explainable AI

  • Rotsnarani Sethy;Soumya Ranjan Mahanta;Mrutyunjaya Panda
    • International Journal of Computer Science & Network Security
    • /
    • 제24권9호
    • /
    • pp.30-40
    • /
    • 2024
  • Building an accurate 3-D spatial road network model has become an active area of research now-a-days that profess to be a new paradigm in developing Smart roads and intelligent transportation system (ITS) which will help the public and private road impresario for better road mobility and eco-routing so that better road traffic, less carbon emission and road safety may be ensured. Dealing with such a large scale 3-D road network data poses challenges in getting accurate elevation information of a road network to better estimate the CO2 emission and accurate routing for the vehicles in Internet of Vehicle (IoV) scenario. Clustering and regression techniques are found suitable in discovering the missing elevation information in 3-D spatial road network dataset for some points in the road network which is envisaged of helping the public a better eco-routing experience. Further, recently Explainable Artificial Intelligence (xAI) draws attention of the researchers to better interprete, transparent and comprehensible, thus enabling to design efficient choice based models choices depending upon users requirements. The 3-D road network dataset, comprising of spatial attributes (longitude, latitude, altitude) of North Jutland, Denmark, collected from publicly available UCI repositories is preprocessed through feature engineering and scaling to ensure optimal accuracy for clustering and regression tasks. K-Means clustering and regression using Support Vector Machine (SVM) with radial basis function (RBF) kernel are employed for 3-D road network analysis. Silhouette scores and number of clusters are chosen for measuring cluster quality whereas error metric such as MAE ( Mean Absolute Error) and RMSE (Root Mean Square Error) are considered for evaluating the regression method. To have better interpretability of the Clustering and regression models, SHAP (Shapley Additive Explanations), a powerful xAI technique is employed in this research. From extensive experiments , it is observed that SHAP analysis validated the importance of latitude and altitude in predicting longitude, particularly in the four-cluster setup, providing critical insights into model behavior and feature contributions SHAP analysis validated the importance of latitude and altitude in predicting longitude, particularly in the four-cluster setup, providing critical insights into model behavior and feature contributions with an accuracy of 97.22% and strong performance metrics across all classes having MAE of 0.0346, and MSE of 0.0018. On the other hand, the ten-cluster setup, while faster in SHAP analysis, presented challenges in interpretability due to increased clustering complexity. Hence, K-Means clustering with K=4 and SVM hybrid models demonstrated superior performance and interpretability, highlighting the importance of careful cluster selection to balance model complexity and predictive accuracy.

영-과잉 회귀모형을 활용한 폭염자료분석 (Heat-Wave Data Analysis based on the Zero-Inflated Regression Models)

  • 김성태;박만식
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2829-2840
    • /
    • 2018
  • 음이 아닌(non-negative) 측정값을 가지는 확률변수에 있어서, 영(0)이 과도하게 측정되는 자료를 반연속형(semi-continuous) 자료와 영-과잉(zero-inflated) 자료로 구분한다. 이러한 자료에서는 특정 확률 분포(probability distribution) 하에서의 확률보다 훨씬 큰 확률로 0을 관측하게 되는데, 연속형(continuous) 확률분포를 고려하는 경우에는 반연속형으로, 이산형(discrete) 확률분포를 고려하는 경우에는 영-과잉이라고 한다. 본 연구에서는 경계값(0)의 측정 여부에 관한 모형과 0보다 큰 확률변수에 대한 확률분포를 활용한 모형 등 두 개의 부문으로 이루어진 모형, 즉 2-부문 모형(two-part model)을 소개하고자 한다. 특히, 이산형 확률분포 중 포아송 분포와 음이항 분포를 고려한 영-과잉 회귀모형(regression model)을 설명하고 그 특성을 파악하고자 한다. 실증연구에서는 이러한 영-과잉 회귀모형을 활용하여 지난 10년(2009년부터 2018년) 간 한국의 여름철(6-8월) 폭염주의보(heat-wave advisory) 및 폭염경보(heat-wave warning) 발생일수를 적합하였다. 또한 공간예측기법 중 하나인 범용크리깅(universal kriging)을 이용하여 적합결과를 바탕으로 한 폭염 발생일수에 대한 예측지도를 작성하였다.

SVM 회귀 모형을 활용한 격자 강우량 상세화 기법 (Spatial Downscaling of Grid Precipitation Using Support Vector Machine Regression)

  • 문희원;백종진;황석환;최민하
    • 한국수자원학회논문집
    • /
    • 제47권11호
    • /
    • pp.1095-1105
    • /
    • 2014
  • 본 연구에서는 Tropical Rainfall Measuring Mission (TRMM) 3B43 V7 (25 km)의 월 누적 격자 강우량을 1 km 해상도로 상세화하기 위해 Support Vector Machine (SVM) 회귀를 활용한 상세화 기법을 제안하였다. 비선형 예측모델인 SVM은 상세화의 기반이 되는 다양한 수문기상인자와 강우 발생간의 월별 상관성 구축에 효율적으로 활용되었다. 상세화된 격자 강우는 전국에 고루 분포한 64개 지점 관측 강우와의 비교 분석을 통해 상세화 이전의 격자 강우 보다 다소 개선된 정확도를 지니는 것으로 확인되었다. 특히, 상세화 이전 격자 강우가 지니는 양의 Bias가 효과적으로 개선되었다. 상세화 전후의 공간분포 비교에서 두 분포는 평균적으로 유사했으나, 상세화 이전 강우의 공간분포에서 나타나지 않았던 강우의 국지적 특성이 상세화된 공간분포를 통해 잘 표현되는 것을 확인할 수 있었다. 특히, 일부 지점의 과소 및 과대산정이 상세화를 통해 개선되어 전반적인 정확도 향상에 기여하였음을 확인했다. 본 연구에서 제안된 상세화 기법이 적용된 격자 강우는 모델의 정확도 향상을 위한 고해상도 입력자료로 활용될 수 있으며, 추후 연구에서는 SVM 외에 다른 회귀 방식을 활용하여 최적의 강우 상세화 기법 개발에 기여할 수 있을 것으로 보인다.

인구구조 공간분포 특성에 관한 유전자 알고리즘 적용방안 (The Applicability of the Genetic Algorithm on Spatial Distribution of Demographic Characteristics)

  • 최내영;이경윤
    • 대한공간정보학회지
    • /
    • 제18권3호
    • /
    • pp.49-56
    • /
    • 2010
  • 본고에서 적용한 유전자 알고리즘(GenAlg)은 다윈의 유전적 진화이론에 기반한 적정해 탐색기법으로써 공간연구에 있어서도 다양한 응용연구가 선행된 바 있다. 본 연구는 최근 신도시 개발과 함께 택지개발사업 등이 활발히 진행되고 있는 화성시 동부권을 사례대상지로 GIS 툴을 이용하여 격자인구자료를 구축하고 자연환경변수와 함께 개발 촉진형 및 규제형 용도지역지구 지정현황 등 주요 인구동태 결정요인에 관한 공간정보를 구축한 다음 GenAlg 모형을 추정하고 이를 동일 설명변수를 사용한 회귀분석 결과와 비교해 봄으로써 GenAlg기법의 유용성을 정량적으로 비교분석해 보았다. 분석결과 회귀분석과 유사하게 설명변수들에 대해 비교적 일관되고 설득력 있는 계수 값들이 도출되었고 이로써 GenAlg모형은 적자생존의 유전학적 원리를 기반으로 도시현상과 관련한 제반 문제의 적정해를 찾는 유용한 학제적 탐색기법임을 확인할 수 있었다.

VIIRS-DNB 데이터를 이용한 수도권 야간 빛 강도의 시·공간 패턴 분석 (Analysis of Spatio-Temporal Patterns of Nighttime Light Brightness of Seoul Metropolitan Area using VIIRS-DNB Data)

  • 주뢰;조대헌;이소영
    • 지적과 국토정보
    • /
    • 제47권2호
    • /
    • pp.19-37
    • /
    • 2017
  • VIIRS-DNB 데이터는 기존의 DMSP-OLS 데이터에 비해 야간에 발생하는 빛의 밝기를 측정하는데 더 우수한 성능을 보여준다. 하지만 지금까지 우리나라에서 VIIRS-DNB 데이터를 이용해 야간 빛의 분포 변화를 분석한 연구는 상당히 드물다. 이 연구에서는 우리나라의 수도권을 대상으로 2013~2016년간의 야간 빛의 분포 및 변화 패턴을 파악하고, 공간회귀모델을 통해 그 요인을 분석하였다. 이를 위해 두 시점 간의 변화를 살펴봄은 물론 계절간 변화 양상 또한 함께 분석하였다. 주요한 결과는 다음과 같다. 첫째, 2013년과 2016년 두 시점 모두 야간 빛은 서울과, 인천, 그리고 서울과 인접한 경기도의 도시에 집중되어 인구밀도 및 주거지관련요인, 경제토지이용관련요인 등과의 연관성을 나타내었다. 둘째, 2013년과 2016년을 비교해보면 야간 빛의 강도는 특히 서울에서 약화되는 경향을 보이고 있는데, 이는 인구밀도의 변화 및 산업용 건물의 비중과 관련된 것으로 나타났다. 셋째, 서울, 그리고 인천과 경기도의 주변 지역들은 야간 빛의 계절 변동성이 높게 나타났는데, 겨울(12월, 1월, 2월) 및 가을(10월, 11월)에 빛의 강도가 가장 강하게 나타났다. 넷째, 야간 빛의 계절간 변동은 적설면적 변화와 유의미하게 양적 상관관계 나타났고, 알베도의 변화와 유의미하게 음적 상관관계 나타났다.

낙동강 조간대 연약지반의 지역별 점성토층 두께 추정 모델 개발에 관한 연구 (A Study on the Development of Model for Estimating the Thickness of Clay Layer of Soft Ground in the Nakdong River Estuary)

  • 안성인;류동우
    • 터널과지하공간
    • /
    • 제32권6호
    • /
    • pp.586-597
    • /
    • 2022
  • 본 연구에서는 국내 주요 연약지반으로 알려진 낙동강 조간대 지역의 압밀침하 취약성 평가에 활용할 상부 점성토층의 위치별 두께 정보를 추정할 수 있는 모델을 개발하였다. 두께정보 추정을 위하여 기계학습 알고리즘인 RF (Random Forest), SVR (Support Vector Regression), GPR (Gaussian Process Regression)과 지구통계기법인 정규크리깅(Ordinary Kriging)을 이용한 4가지 공간추정 모델을 개발하고 상호 비교하였다. 모델 개발을 위하여 수집한 연구지역의 시추공 자료 4,712개 중 상부점성토층이 존재하는 2,948개의 시추공 자료를 사용하였으며, 개발된 모델들의 성능을 정량적으로 평가하기 위하여 피어슨(Pearson) 상관계수와 오차제곱평균(mean squared error)을 사용하였다. 또한, 정성적 평가를 위하여 연구지역 전역에 상부점성토층의 두께를 추정하여 점성토층의 지역별 분포 특성을 상호 비교하였다.

Assessment through Statistical Methods of Water Quality Parameters(WQPs) in the Han River in Korea

  • Kim, Jae Hyoun
    • 한국환경보건학회지
    • /
    • 제41권2호
    • /
    • pp.90-101
    • /
    • 2015
  • Objective: This study was conducted to develop a chemical oxygen demand (COD) regression model using water quality monitoring data (January, 2014) obtained from the Han River auto-monitoring stations. Methods: Surface water quality data at 198 sampling stations along the six major areas were assembled and analyzed to determine the spatial distribution and clustering of monitoring stations based on 18 WQPs and regression modeling using selected parameters. Statistical techniques, including combined genetic algorithm-multiple linear regression (GA-MLR), cluster analysis (CA) and principal component analysis (PCA) were used to build a COD model using water quality data. Results: A best GA-MLR model facilitated computing the WQPs for a 5-descriptor COD model with satisfactory statistical results ($r^2=92.64$,$Q{^2}_{LOO}=91.45$,$Q{^2}_{Ext}=88.17$). This approach includes variable selection of the WQPs in order to find the most important factors affecting water quality. Additionally, ordination techniques like PCA and CA were used to classify monitoring stations. The biplot based on the first two principal components (PCs) of the PCA model identified three distinct groups of stations, but also differs with respect to the correlation with WQPs, which enables better interpretation of the water quality characteristics at particular stations as of January 2014. Conclusion: This data analysis procedure appears to provide an efficient means of modelling water quality by interpreting and defining its most essential variables, such as TOC and BOD. The water parameters selected in a COD model as most important in contributing to environmental health and water pollution can be utilized for the application of water quality management strategies. At present, the river is under threat of anthropogenic disturbances during festival periods, especially at upstream areas.