• Title/Summary/Keyword: 분할자료 회귀분석

Search Result 31, Processing Time 0.024 seconds

Fitting Distribution of Accident Frequency of Freeway Horizontal Curve Sections & Development of Negative Binomial Regression Models (고속도로 평면선형상 사고빈도분포 추정을 통한 음이항회귀모형 개발 (기하구조요인을 중심으로))

  • 강민욱;도철웅;손봉수
    • Journal of Korean Society of Transportation
    • /
    • v.20 no.7
    • /
    • pp.197-204
    • /
    • 2002
  • 교통사고예측 및 예방을 위해서는 실제적으로 도로설계과정에서 제어가 가능한 도로 기하구조요소에 대한 사고관계를 파악함이 타당하다. 즉, 도로의 설계자는 도로건설에 앞서 기하구조요소와 사고와의 관계를 현장자료를 통해 정확히 밝혀 도로설계에 반영해야 한다. 이를 위해, 교통사고의 빈도분포를 박히는 것은 가장 기본이 되는 일이며, 교통사고 예측모형개발에 선행되어야 한다. 일반적으로 교통사고건수의 경우 분산이 평균보다 큰 과분산(overdispersion)의 특징을 가지고 있어 음이항 분포를 따른다고 알려져 있다. 따라서 본 논문은 사고모형의 개발에 앞서, 사고발생지점에 대한 도로설계요소와 기타 잠재적인 사고발생 관련요인이 비교적 잘 파악되어있는 호남고속도로를 중심으로 평면 선형상 곡선부에 대하여 교통사고의 분포를 적합도 검정을 통해 알아보고자 하였다. 사고자료는 한국도로송사의 호남고속도로 5년(1996∼2000)간 자료를 분석에 맞게 정리하였으며, 강민욱과 송봉수(2002)에서 제시한 평면선형에 있어서의 구간분할법을 이용하여 배향곡선구간과 단일곡선구간에 대한 사고분석을 하였다. 적합도 분석결과, 예상대로 음이항분포가 사고건수를 설명하기에 가장 적합한 확률분포로 제시되었으며, 이를 통해 최우추정법을 이용한 음이항회귀모형을 개발하였다. 구간분할법을 적용한 음이항회귀모형의 경우, 기존의 확률회귀토형에 비하여 높은 결정계수를 갖았으며, 모형에서 적용된 기하구조요소로는 차량 노출계수, 곡선반경, 단위거리 당 편경사변화값 등이다.

Multivariate quantile regression tree (다변량 분위수 회귀나무 모형에 대한 연구)

  • Kim, Jaeoh;Cho, HyungJun;Bang, Sungwan
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.3
    • /
    • pp.533-545
    • /
    • 2017
  • Quantile regression models provide a variety of useful statistical information by estimating the conditional quantile function of the response variable. However, the traditional linear quantile regression model can lead to the distorted and incorrect results when analysing real data having a nonlinear relationship between the explanatory variables and the response variables. Furthermore, as the complexity of the data increases, it is required to analyse multiple response variables simultaneously with more sophisticated interpretations. For such reasons, we propose a multivariate quantile regression tree model. In this paper, a new split variable selection algorithm is suggested for a multivariate regression tree model. This algorithm can select the split variable more accurately than the previous method without significant selection bias. We investigate the performance of our proposed method with both simulation and real data studies.

Divide and conquer kernel quantile regression for massive dataset (대용량 자료의 분석을 위한 분할정복 커널 분위수 회귀모형)

  • Bang, Sungwan;Kim, Jaeoh
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.5
    • /
    • pp.569-578
    • /
    • 2020
  • By estimating conditional quantile functions of the response, quantile regression (QR) can provide comprehensive information of the relationship between the response and the predictors. In addition, kernel quantile regression (KQR) estimates a nonlinear conditional quantile function in reproducing kernel Hilbert spaces generated by a positive definite kernel function. However, it is infeasible to use the KQR in analysing a massive data due to the limitations of computer primary memory. We propose a divide and conquer based KQR (DC-KQR) method to overcome such a limitation. The proposed DC-KQR divides the entire data into a few subsets, then applies the KQR onto each subsets and derives a final estimator by aggregating all results from subsets. Simulation studies are presented to demonstrate the satisfactory performance of the proposed method.

Asymptotic Test for Dimensionality in Sliced Inverse Regression (분할 역회귀모형에서 차원결정을 위한 점근검정법)

  • Park, Chang-Sun;Kwak, Jae-Guen
    • The Korean Journal of Applied Statistics
    • /
    • v.18 no.2
    • /
    • pp.381-393
    • /
    • 2005
  • As a promising technique for dimension reduction in regression analysis, Sliced Inverse Regression (SIR) and an associated chi-square test for dimensionality were introduced by Li (1991). However, Li's test needs assumption of Normality for predictors and found to be heavily dependent on the number of slices. We will provide a unified asymptotic test for determining the dimensionality of the SIR model which is based on the probabilistic principal component analysis and free of normality assumption on predictors. Illustrative results with simulated and real examples will also be provided.

Penalized quantile regression tree (벌점화 분위수 회귀나무모형에 대한 연구)

  • Kim, Jaeoh;Cho, HyungJun;Bang, Sungwan
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.7
    • /
    • pp.1361-1371
    • /
    • 2016
  • Quantile regression provides a variety of useful statistical information to examine how covariates influence the conditional quantile functions of a response variable. However, traditional quantile regression (which assume a linear model) is not appropriate when the relationship between the response and the covariates is a nonlinear. It is also necessary to conduct variable selection for high dimensional data or strongly correlated covariates. In this paper, we propose a penalized quantile regression tree model. The split rule of the proposed method is based on residual analysis, which has a negligible bias to select a split variable and reasonable computational cost. A simulation study and real data analysis are presented to demonstrate the satisfactory performance and usefulness of the proposed method.

An Analysis for the Structural Variation in the Unemployment Rate and the Test for the Turning Point (실업률 변동구조의 분석과 전환점 진단)

  • Kim, Tae-Ho;Hwang, Sung-Hye;Lee, Young-Hoon
    • The Korean Journal of Applied Statistics
    • /
    • v.18 no.2
    • /
    • pp.253-269
    • /
    • 2005
  • One of the basic assumptions of the regression models is that the parameter vector does not vary across sample observations. If the parameter vector is not constant for all observations in the sample, the statistical model is changed and the usual least squares estimators do not yield unbiased, consistent and efficient estimates. This study investigates the regression model with some or all parameters vary across partitions of the whole sample data when the model permits different response coefficients during unusual time periods. Since the usual test for overall homogeneity of regressions across partitions of the sample data does not explicitly identify the break points between the partitions, the testing the equality between subsets of coefficients in two or more linear regressions is generalized and combined with the test procedure to search the break point. The method is applied to find the possibility and the turning point of the structural change in the long-run unemployment rate in the usual static framework by using the regression model. The relationships between the variables included in the model are reexamined in the dynamic framework by using Vector Autoregression.

Analyzing the Impacts of Climate Change on Forest Composition in Korea (산림의 임상구조 결정요인 분석과 기후변화에 따른 임상구조 변화 예측)

  • Lee, Honglim;Kwon, Oh Sang
    • Environmental and Resource Economics Review
    • /
    • v.26 no.2
    • /
    • pp.229-255
    • /
    • 2017
  • This study empirically estimates the impacts of climate change on forest composition in Korea using a fractional data regression model, and forecasts the change in forest composition in the 2040s and 2090s based on the IPCC climate change scenarios. Unlike the forest science studies that incorporate mostly only ecological variables as the determinants of forest composition, we take into account regional level socio-economic and forest management variables as well. Our estimation results found that not only environmental factors but also socio-economic and forest management related factors strongly affect the composition of Korean forest. Based on the estimation results and IPCC scenarios on climate change, we predict that the share of currently dominant coniferous forest will decline in the future under all scenarios. About 10% of total forest area is likely to be converted from coniferous forest into broadleaved forest until 2090s under the scenario RCP 8.5. It is also predicted that there will be a substantial regional variation in the effects of climate change on forest composition, and the coniferous forests in the inland regions will decline more dramatically.

A Filtering Technique of Terrestrial LiDAR Data on Sloped Terrain (사면지형에서 지상라이다 자료의 필터링 기법)

  • Shin, Yoon Su;Choi, Seung Pil;Kim, Jun Seong;Kim, Uk Nam
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.30 no.6_1
    • /
    • pp.529-538
    • /
    • 2012
  • By using an algorithm derived by a multiple linear regression analysis, a technique for filtering was developed; and by using the developed technique, the results of conducting filtering of the raw data collected via scanning with a terrestrial LiDAR the actual sloped terrain was analyzed. As such, when filtering was applied by dividing the observation areas into two areas with the topographical line as a reference in order to improve the filtering accuracy, it was seen that the filtering accuracy improved by about 8.73% as compared to when filtering was applied without dividing the observation area. In addition, considering the fact that the accuracy improved by 5~7% when the sloped sides of a multicurvature topography were divided and a complex filtering applied as compared to when filtering was applied for the entire area or by regions, it can be asserted that the accuracy was higher when a complex filtering was conducted by dividing the sloped areas where the slope is not constant due to the multi-curvature of topography.

Detecting Space-Time Clusters in Linear Point Data (선형 점자료에 있어서의 시.공 복합 군집의 탐색)

  • 홍상기
    • Journal of the Korean Geographical Society
    • /
    • v.33 no.2
    • /
    • pp.325-338
    • /
    • 1998
  • 본 연구에서는 시.공 복합적인 선형 점 자료를 대상으로 시간과 공간을 함께 고려했을 때 자료 내에 군집(cluster)-시.공 복합 군집(space-time cluster)-이 존재하는 가를 검증하는 방법에 대해 논의하고, 실제 교통사고지점의 분포자료를 분석하여 군집의 유무를 통계적으로 검증하였다. 통계 분석의 결과 다음과 같은 사실이 확인되었다. 첫째, Knox의 분할표 방법과 Mantel의 역수 변환을 이용한 일반화된 회귀분석방법 모두 임계 거리 및 임계 시간 간격의 선택이 분석결과에 영향을 미친다. 둘째, 이러한 임의성을 극복하기 위해 다양한 임계 거리 및 임계 시간 간격(혹은 부가 상수)에 대해 반복 실험한 결과, 일부 임계값의 조합에서 시간과 공간이 서로 독립적이라는 귀무가설을 기각할 수 있는 증거가 발견되었다. 셋째, 시.공 복합 군집의 파악에 가장 적합한 임계 거리와 임계 시간 간격은 공간적으로는 7000m, 시간적으로는 14일 혹은 21일이다. 마지막으로, 통계 분석과정에서 자료에 존재하는 중복 기록 사고들의 존재가 밝혀짐으로써 시.공 복합군집 검증이 탐험적 자료 분석(exploratory data analysis)의 도구로서 가지는 가치를 확인할 수 있었다.

  • PDF

Development of optimization algorithm to set transition point for multi-segmented rating curve (구간 분할된 레이팅 커브의 천이점 선정을 위한 최적화 알고리즘 개발)

  • Kim, Yeonsu;Noh, Joonwoo;Kim, Sunghoon;Yu, Wansik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.421-421
    • /
    • 2018
  • 효율적인 수자원 관리를 위하여 전국유역조사, 수자원 장기종합계획 등 다양한 사업이 수행되고 있으며, 이를 위하여 유출해석은 필수적인 항목이라 할 수 있다. 유출해석을 위하여 수문모형 또는 관측소의 유량자료가 활용되고 있으나, 이는 기존에 관측된 유량자료를 바탕으로 구축된 수위-유량관계 곡선식(Rating-curve)을 활용하여 재생산된 자료라 할 수 있다. 즉, 수위자료는 매시간 관측소에서 측정이 되지만, 유량자료의 경우 측정이 어려울 뿐만 아니라 변동성 및 불확실성이 크기 때문에 시계열 수위를 곡신식을 통해 유량으로 변환하여 활용하고 있다. 이와 같이 수위-유량관계 곡선식의 정확성이 수문자료 생산에 핵심 요소임에도 불구하고 이에 대한 연구는 제한적이며, 특히 홍수터 등의 영향을 고려하여 분할된 곡선의 천이점 접합시 곡선식의 정확도 향상을 위한 연구도 드문 편이다. 따라서 본 연구에서는 구간 분할된 곡선의 최적 천이점 선정을 위하여 Particle Swarm Optimization(PSO)기법을 활용하였으며, 총 5개 구간까지 구간별 목적함수로 RMSE, RSR, 결정계수 적용시 특성변화에 대한 연구를 수행하였다. 구간에 대하여 절대적인 오차를 산정하는 RMSE를 활용하는 경우 저수위 부분에 대한 오차가 증가하는 것을 확인할 수 있었으며, 상대적인 오차인 RSR, 결정계수를 활용하는 경우 전체 구간에 대한 오차를 보완할 수 있는 것으로 나타났다. PSO기법을 활용하여 도출된 곡선식에 대해서는 구간 및 전체구간에 대한 오차(RMSE, 결정계수, RSR, MAPE)를 활용하여 불확실성을 검토할 수 있도록 하였고, 잔차분석을 통한 이상치 및 회귀곡선에 대한 정규성 검토를 수행할 수 있는 툴을 개발하였다. 레이팅 커브를 작성하는데 있어 최적화 알고리즘을 활용하여 구간분할시 천이점 선정의 자동화로 천이점 선정에 소요되는 시간을 대폭 감축할 수 있을 뿐만 아니라, 구간별 오차를 종합적으로 고려하여 우수한 품질의 레이팅 커브를 도출할 수 있는 기반을 구축하였다.

  • PDF