• 제목/요약/키워드: 로지스틱회귀분석

Search Result 1,626, Processing Time 0.036 seconds

로지스틱 회귀모형을 분석하기 위한 SPSS, SAS, STATA의 비교분석

  • Kim, Sun-Gwi;Jeong, Dong-Bin
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2002.11a
    • /
    • pp.287-292
    • /
    • 2002
  • 최근 여러 분야에서 로지스틱 회귀에 대한 필요성과 그 응용이 급증하면서 이를 분석하기 위한 통계패키지가 많이 개발되어 사용되고 있다. 이 논문에서는 자료의 유형에 따라 활용할 수 있는 여러 형태의 로지스틱 회귀모형을 간단히 살펴보고, SPSS, SAS, STATA, MINITAB과 같은 통계패키지를 사용하여 로지스틱 회귀모형에 적용할 때 각각 다룰 수 있는 범위와 그 특징에 대해 다룬다.

  • PDF

Fine-Grain Weighted Logistic Regression Model (가중치 세분화 기반의 로지스틱 회귀분석 모델)

  • Lee, Chang-Hwan
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.53 no.9
    • /
    • pp.77-81
    • /
    • 2016
  • Logistic regression (LR) has been widely used for predicting the relationships among variables in various fields. We propose a new logistic regression model with a fine-grained weighting method, called value weighted logistic regression, by assigning different weights to each feature value. A gradient approach is utilized to obtain the optimal weights of feature values. We conduct experiments on several data sets and the experimental results show that the proposed method shows meaningful improvement in prediction accuracy.

Study on Accident Prediction Models in Urban Railway Casualty Accidents Using Logistic Regression Analysis Model (로지스틱회귀분석 모델을 활용한 도시철도 사상사고 사고예측모형 개발에 대한 연구)

  • Jin, Soo-Bong;Lee, Jong-Woo
    • Journal of the Korean Society for Railway
    • /
    • v.20 no.4
    • /
    • pp.482-490
    • /
    • 2017
  • This study is a railway accident investigation statistic study with the purpose of prediction and classification of accident severity. Linear regression models have some difficulties in classifying accident severity, but a logistic regression model can be used to overcome the weaknesses of linear regression models. The logistic regression model is applied to escalator (E/S) accidents in all stations on 5~8 lines of the Seoul Metro, using data mining techniques such as logistic regression analysis. The forecasting variables of E/S accidents in urban railway stations are considered, such as passenger age, drinking, overall situation, behavior, and handrail grip. In the overall accuracy analysis, the logistic regression accuracy is explained 76.7%. According to the results of this analysis, it has been confirmed that the accuracy and the level of significance of the logistic regression analysis make it a useful data mining technique to establish an accident severity prediction model for urban railway casualty accidents.

Value Weighted Regularized Logistic Regression Model (속성값 기반의 정규화된 로지스틱 회귀분석 모델)

  • Lee, Chang-Hwan;Jung, Mina
    • Journal of KIISE
    • /
    • v.43 no.11
    • /
    • pp.1270-1274
    • /
    • 2016
  • Logistic regression is widely used for predicting and estimating the relationship among variables. We propose a new logistic regression model, the value weighted logistic regression, which comprises of a fine-grained weighting method, and assigns adapted weights to each feature value. This gradient approach obtains the optimal weights of feature values. Experiments were conducted on several data sets from the UCI machine learning repository, and the results revealed that the proposed method achieves meaningful improvement in the prediction accuracy.

Steal Success Model for 2007 Korean Professional Baseball Games (2007년 한국프로야구에서 도루성공모형)

  • Hong, Chong-Sun;Choi, Jeong-Min
    • The Korean Journal of Applied Statistics
    • /
    • v.21 no.3
    • /
    • pp.455-468
    • /
    • 2008
  • Based on the huge baseball game records, the steal plays an important role to affect the result of games. For the research about success or failure of the steal in baseball games, logistic regression models are developed based on 2007 Korean professional baseball games. The analyses of logistic regression models are compared of those of the discriminant models. It is found that the performance of the logistic regression analysis is more efficient than that of the discriminant analysis. Also, we consider an alternative logistic regression model based on categorical data which are transformed from uneasy obtainable continuous data.

Logistic regression analysis for Critical Rainfall Estimation (한계강우량 산정을 위한 로지스틱 회귀분석)

  • Lee, Changhyun;Lee, Kangwon;Keum, Hojun;Kim, Byunghyun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.232-232
    • /
    • 2022
  • 1차원 관망해석모형과 2차원 지표면범람 해석모형을 이용한 도시지역의 실시간 홍수예·경보시스템 구축은 모형의 모의에 많은 시간이 소요되므로 한계가 있다. 또한, 연구유역에서 시나리오 강우에 대해 침수를 유발시키는 한계강우량을 1-2차원 모형의 시행착오법을 적용한 반복적인 수행을 통해 산정하는 것은 비효율적인 방법이다. 따라서, 본 연구에서는 이에 대한 해결책으로 로지스틱 회귀를 이용하여 배수분구별 침수 발생기준 강우량을 산정하고자 한다. 침수 발생 한계강우량 산정을 배수분구 단위로 제시하기 위하여 로지스틱 회귀분석을 이용하였다. 풍수해저감종합계획(2015)과 침수흔적도를 이용하여 배수분구 별 침수이력에 대한 데이터베이스를 구축하고, 이를 1-2차원 수리해석을 통한 침수심과 함께 로지스틱 회귀모형에 학습하였다. 지속시간 1시간, 10mm 강우부터 500년 빈도의 Huff 3분위 시나리오 17개를 사용하여 확률강우량을 산정하였고, 이를 1-2차원 수리해석을 위한 입력자료로 사용하였다. EPA-SWMM을 통한 1차원 도시유출해석과 FLO-2D를 통한 2차원 침수해석에서 20cm 이상의 침수심이 발생하거나 지상관측자료, 침수흔적도 및 풍수해저감종합계획에서 실제 침수가 발생했을 경우를 1, 그렇지 않은 경우를 0으로 하여 데이터베이스를 구축하여 로지스틱 회귀모형에 학습시켜 침수 발생 한계강우량을 산정하였다. 로지스틱 회귀분석을 통해 서울시 지역의 배수분구별 한계강우량을 산정할 수 있으며, 지속적으로 관측되는 강우 및 침수 발생 유무 자료를 추가함으로써 산정된 침수 한계강우량을 상회하는 강우 사상이 나타났을 시에 침수 발생 유무를 확인하여 본 연구에서 제안한 방법에 대해 검증이 가능할 것으로 보인다.

  • PDF

Comparative Analysis of Predictors of Depression for Residents in a Metropolitan City using Logistic Regression and Decision Making Tree (로지스틱 회귀분석과 의사결정나무 분석을 이용한 일 대도시 주민의 우울 예측요인 비교 연구)

  • Kim, Soo-Jin;Kim, Bo-Young
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.12
    • /
    • pp.829-839
    • /
    • 2013
  • This study is a descriptive research study with the purpose of predicting and comparing factors of depression affecting residents in a metropolitan city by using logistic regression analysis and decision-making tree analysis. The subjects for the study were 462 residents ($20{\leq}aged{\angle}65$) in a metropolitan city. This study collected data between October 7, 2011 and October 21, 2011 and analyzed them with frequency analysis, percentage, the mean and standard deviation, ${\chi}^2$-test, t-test, logistic regression analysis, roc curve, and a decision-making tree by using SPSS 18.0 program. The common predicting variables of depression in community residents were social dysfunction, perceived physical symptom, and family support. The specialty and sensitivity of logistic regression explained 93.8% and 42.5%. The receiver operating characteristic (roc) curve was used to determine an optimal model. The AUC (area under the curve) was .84. Roc curve was found to be statistically significant (p=<.001). The specialty and sensitivity of decision-making tree analysis were 98.3% and 20.8% respectively. As for the whole classification accuracy, the logistic regression explained 82.0% and the decision making tree analysis explained 80.5%. From the results of this study, it is believed that the sensitivity, the classification accuracy, and the logistics regression analysis as shown in a higher degree may be useful materials to establish a depression prediction model for the community residents.

Analysis of Landslide Hazard Area using Logistic Regression/AHP - Anseong-si - (로지스틱 회귀분석 및 AHP 기법을 이용한 산사태 위험지역 분석 - 안성시를 대상으로 -)

  • Lee, Yong-Jun;Park, Geun-Ae;Kim, Seong-Joon
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2006.05a
    • /
    • pp.2001-2005
    • /
    • 2006
  • 우리나라는 매년 집중호우로 인한 산사태로 인해 인적, 물질적 피해를 일으킨다. 반복적인 산사태의 피해를 방지 하기위해서는 산사태 예측 시스템이 필요하다. 본 연구에서는 안성시를 대상으로 GIS와 RS 자료를 활용하여 산사태 위험지를 분석하고자 Logistic 회귀분석 방법과 AHP 기법을 이용하였다. Logistic 회귀분석과 AHP 기법에는 6개의 인자(경사, 경사향, 고도, 토양배수, 토심, 토지이용)를 사용하여, 7등급으로 산사태 위험도를 분류하였다. Logistic 회귀분석 방법과 AHP 기법을 이용한 산사태 위험지도를 표본 자료와 비교하면 산사태가 발생한 표본에서 산사태 위험성이 높은(1-2등급)지역이 Logistic 회귀분석에서는 46.1% AHP 기법은 48.7%로 분류되어 AHP 기법이 분류도가 높다고 분석 되었다. 하지만 Logistic 회귀분석과 AHP 기법은 서로 분석 과정의 차이를 가지고 있기 때문에 Logistic 회귀분석과 AHP기법을 적용한 결과에 동일 가중치를 부여한 후 7개 등급으로 재분류(reclass)하여 산사태 위험지역을 추출 할 수 있는 방법론을 제시하였다. 그 결과 산사태가 발생한 표본에서 1-2등급지역이 58.9%로 분석되어 분류정확도를 높일 수 있었다.

  • PDF

Flood Risk Forecasting using Logistic Regression for the Han River Basin (로지스틱 회귀분석을 활용한 한강권역 홍수위험 예보기법 개발)

  • Lee, Seon Mi;Choi, Youngje;Yi, Jaeeung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.354-354
    • /
    • 2021
  • 2020년은 장마기간이 49일간 지속됨에 따라 침수, 산사태 등 많은 홍수피해가 발생하였다. 특히 서울에서는 한강 본류의 수위가 급격하게 증가함에 따라 둔치 및 도로 침수 피해가 발생하였다. 이처럼 하천의 수위증가로 인한 홍수피해에 대응하기 위해 홍수통제소 및 기초지자체에서는 홍수특보를 발령한다. 이 홍수특보는 수위관측소 지점별 계획홍수량의 50 %, 70 % 이상의 홍수량이 발생할 경우 홍수주의보와 홍수경보가 발령되며, 이 기준은 각 권역별로 동일하다. 하지만 2017년 의정부시에서는 중랑천 수위증가로 인해 주변 지역에 침수피해가 발생하였지만, 이때 홍수량은 계획홍수량 대비 약 30 %에 불과하였다. 이처럼 한강권역 내 하천수위 증가로 인한 홍수피해는 계획홍수량의 50 % 이내에서 발생하기도 한다. 이에 본 연구에서는 한강권역을 대상으로 현재 2단계로 발령되는 홍수특보를 3단계로 세분화하고자 하였다. 단계별 홍수량 위험기준을 산정하기 위해 과거 홍수피해 발생 이력이 있는 한강권역 내 43개의 수위관측소 지점을 선정하였으며, 지점별 홍수기 동안의 홍수량 및 피해액 자료를 수집하였다. 각 단계별 홍수량 기준을 산정하기 위해서는 로지스틱 회귀분석 방법을 활용하여 피해발생 확률을 산정하였다. 1단계 기준은 계획홍수량 대비 홍수량 비율과 홍수피해 발생여부를 고려한 이항 로지스틱 회귀분석 모델을 구축한 후 3계 도함수에 적용하여 홍수피해 발생확률이 급격하게 증가하는 특이점을 산정하였다. 2단계와 3단계 기준은 다항 로지스틱 회귀분석 중 계층형 로지스틱 회귀분석을 활용하여 지점별 피해액 비율이 60 ~ 80 %, 80 ~ 100 % 구간에 속할 확률을 산정하고, 1단계와 동일한 방법으로 특이점을 산정하였다. 그 결과 지점별로 기존 제공되고 있는 홍수특보 기준을 과거 발생한 홍수피해를 고려하여 세분화할 수 있었으며, 이 결과는 지역별 홍수피해 저감대책에 활용될 수 있을 것으로 판단된다.

  • PDF

Comparison of Bias Correction Methods for the Rare Event Logistic Regression (희귀 사건 로지스틱 회귀분석을 위한 편의 수정 방법 비교 연구)

  • Kim, Hyungwoo;Ko, Taeseok;Park, No-Wook;Lee, Woojoo
    • The Korean Journal of Applied Statistics
    • /
    • v.27 no.2
    • /
    • pp.277-290
    • /
    • 2014
  • We analyzed binary landslide data from the Boeun area with logistic regression. Since the number of landslide occurrences is only 9 out of 5000 observations, this can be regarded as a rare event data. The main issue of logistic regression with the rare event data is a serious bias problem in regression coefficient estimates. Two bias correction methods were proposed before and we quantitatively compared them via simulation. Firth (1993)'s approach outperformed and provided the most stable results for analyzing the rare-event binary data.