• 제목/요약/키워드: zero-inflated Poisson

검색결과 51건 처리시간 0.02초

영과잉 및 허들 회귀모형을 이용한 과학화 전투훈련 자료 분석 (Analysis of scientific military training data using zero-inflated and Hurdle regression)

  • 김재오;방성완;권오정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1511-1520
    • /
    • 2017
  • 본 연구는 과학과 전투훈련 자료를 분석하여 작전 및 군사훈련 방법을 향상하고 필요한 군사교리를 검증하기 위한 것이다. 우리는 과학화 전투훈련 중 대대급 공격작전에 대해 개별 전투원이 공격작전간 개인 화기를 이용하여 적을 중상 이상의 전투불능 상태로 만든 인원수를 반응변수로 둔다. 본 연구의 반응변수는 영이 지나치게 많이 관측되어 전통적인 일반화 선형모형에서 분석이 제한된다. 우리는 과대산포 및 영이 과도하게 관측된 점을 고려하여 영과잉 회귀모형과 허들 회귀모형을 자료에 적합하여 분석한다. 우리의 분석 결과는 대한민국 육군의 보병대대와 같은 소부대의 다양한 작전 및 전술적 요인에 대한 분석과 전술제대의 군사교리 검증함에 있어 적절한 참고자료로 활용될 수 있다.

지방부 다차로 도로구간에서의 사고 예측모형 개발 (대도시권 외곽 및 구릉지 특성의 도로구간 중심으로) (Development of a Accident Frequency Prediction Model at Rural Multi-Lane Highways)

  • 이동민;김도훈;성낙문
    • 대한교통학회지
    • /
    • 제27권4호
    • /
    • pp.207-215
    • /
    • 2009
  • 도로구간에서의 주행조건은 연속적인 도로축 상에서 구간별로 변하게 되고 이에 따라 도로에서의 교통사고는 도로 기하구조 변수뿐만 아니라 도로주변 환경변수, 교통조건 변수 그리고 기타 다양한 변수들에 의해서 발생하게 된다. 따라서 본 연구는 현장조사를 통해 얻어진 다양한 도로기하구조 요소를 고려하여 동질성을 갖춘 구간 분할 후에 도로를 구성하는 도로 기하구조, 교통조건, 도로주변 환경 그리고 기타 다양한 요소들을 복합적으로 반영하고자 한다. 이를 반영하기 위해 본 연구에서는 도로구간의 주행조건을 결정짓는 주요인들에 의해서 주행조건 동질구간을 결정하고, 각 동질구간에서의 도로 및 교통조건 등을 고려하여 사고예측 모형을 개발하였다. 모형 개발을 위해 사용된 자료는 대도시권 외곽과 평지 및 구릉지를 대표할 수 있는 수도권 외곽내에 지방부 도로구간과 전라북도 지방부 도로구간에서 수집되었다. 본 연구에서는 연속된 도로구간에서 사고건수가 "0"인 구간수가 매우 높게 나타나므로 이에 대한 과대 예측을 방지하기 위해 ZIP(Zero Inflated Poisson) 모형을 이용하였다. 사고예측모형 개발 결과 지방부 다차로 도로구간에서 교통사고에 영향을 미치는 변수로는 교통량과 도로구간 길이를 포함한 EXPO($365{\times}ADT{\times}Length{\times}Year/10^{-6}$), 곡선반경, 종단구배변화, 가드레일, 지형(산악지), 횡단보도개수, 버스정류장 개수가 지방부 다차로 도로구간에서의 차대차 사고에 영향을 미치는 주요 설명변수로 나타났다.

ZAM을 이용한 국내 회전교차로 오토바이 사고모형 (Motorcycle Accident Model at Roundabout in Korea using ZAM)

  • 박병호;임진강;나희
    • 한국안전학회지
    • /
    • 제29권3호
    • /
    • pp.107-113
    • /
    • 2014
  • The goal of this study is to develop the accident models of motorcycle at roundabouts. In the pursuing the above, this study gives particular attentions to developing the appropriate models using ZAM. The main results are as follows. First, the evaluation of various developed models by the Vuong statistic and over-dispersion parameter shows that ZINB is analyzed to be optimal among Poisson, NB, ZIP(zero-inflated Poisson) and ZINB regression models. Second, the traffic volume, width of central island and width of approach are evaluated to be important variables to the accidents. Finally, the common variables that affect to the accident are selected to be traffic volume and width of approach. This study might be expected to give some implications to the accident research on the roundabout by motorcycle.

Modeling clustered count data with discrete weibull regression model

  • Yoo, Hanna
    • Communications for Statistical Applications and Methods
    • /
    • 제29권4호
    • /
    • pp.413-420
    • /
    • 2022
  • In this study we adapt discrete weibull regression model for clustered count data. Discrete weibull regression model has an attractive feature that it can handle both under and over dispersion data. We analyzed the eighth Korean National Health and Nutrition Examination Survey (KNHANES VIII) from 2019 to assess the factors influencing the 1 month outpatient stay in 17 different regions. We compared the results using clustered discrete Weibull regression model with those of Poisson, negative binomial, generalized Poisson and Conway-maxwell Poisson regression models, which are widely used in count data analyses. The results show that the clustered discrete Weibull regression model using random intercept model gives the best fit. Simulation study is also held to investigate the performance of the clustered discrete weibull model under various dispersion setting and zero inflated probabilities. In this paper it is shown that using a random effect with discrete Weibull regression can flexibly model count data with various dispersion without the risk of making wrong assumptions about the data dispersion.

Threshold-asymmetric volatility models for integer-valued time series

  • Kim, Deok Ryun;Yoon, Jae Eun;Hwang, Sun Young
    • Communications for Statistical Applications and Methods
    • /
    • 제26권3호
    • /
    • pp.295-304
    • /
    • 2019
  • This article deals with threshold-asymmetric volatility models for over-dispersed and zero-inflated time series of count data. We introduce various threshold integer-valued autoregressive conditional heteroscedasticity (ARCH) models as incorporating over-dispersion and zero-inflation via conditional Poisson and negative binomial distributions. EM-algorithm is used to estimate parameters. The cholera data from Kolkata in India from 2006 to 2011 is analyzed as a real application. In order to construct the threshold-variable, both local constant mean which is time-varying and grand mean are adopted. It is noted via a data application that threshold model as an asymmetric version is useful in modelling count time series volatility.

사업체노동력조사를 활용한 빈 일자리 수 추정에 대한 정합성 연구 (A Study of Consistency in Estimating the Number of Vacant Jobs Using the Labor Force Survey at Establishments)

  • 박승환
    • 아태비즈니스연구
    • /
    • 제13권3호
    • /
    • pp.329-341
    • /
    • 2022
  • Purpose - The purpose of this study was to investigate consistency in estimating the number of vacant jobs using the two business labor force survey with two different time points of survey. Design/methodology/approach - We studied the cause of the differences in estimating the number of vacant jobs between the monthly sample and the new sample in business labor force survey. Findings - To summarize our findings, As the size of the company increases, the number of vacant jobs in the company also increases, and the probability that the number of vacant jobs in the company is zero decreases. The monthly sample was assessed to have a higher likelihood that the number of vacant jobs in the company was zero and the number of vacant jobs was considerable compared to the local sample. Research implications or Originality - Because local survey sample companies tend to minimize the number of vacant jobs even when they reply under the same conditions, the estimation result of the number of vacant jobs in the current monthly survey differs significantly from the estimation result of the local survey. Divergent "degrees of knowledge of question items," survey methodologies, or investigators could be the causes of the various response trends.

Application of discrete Weibull regression model with multiple imputation

  • Yoo, Hanna
    • Communications for Statistical Applications and Methods
    • /
    • 제26권3호
    • /
    • pp.325-336
    • /
    • 2019
  • In this article we extend the discrete Weibull regression model in the presence of missing data. Discrete Weibull regression models can be adapted to various type of dispersion data however, it is not widely used. Recently Yoo (Journal of the Korean Data and Information Science Society, 30, 11-22, 2019) adapted the discrete Weibull regression model using single imputation. We extend their studies by using multiple imputation also with several various settings and compare the results. The purpose of this study is to address the merit of using multiple imputation in the presence of missing data in discrete count data. We analyzed the seventh Korean National Health and Nutrition Examination Survey (KNHANES VII), from 2016 to assess the factors influencing the variable, 1 month hospital stay, and we compared the results using discrete Weibull regression model with those of Poisson, negative Binomial and zero-inflated Poisson regression models, which are widely used in count data analyses. The results showed that the discrete Weibull regression model using multiple imputation provided the best fit. We also performed simulation studies to show the accuracy of the discrete Weibull regression using multiple imputation given both under- and over-dispersed distribution, as well as varying missing rates and sample size. Sensitivity analysis showed the influence of mis-specification and the robustness of the discrete Weibull model. Using imputation with discrete Weibull regression to analyze discrete data will increase explanatory power and is widely applicable to various types of dispersion data with a unified model.

고령운전자 운전 및 신체특성을 반영한 교통사고 분석 연구 (Analysis of Elderly Drivers' Accident Models Considering Operations and Physical Characteristics)

  • 임삼진;박준태;김영일;김태호
    • 대한교통학회지
    • /
    • 제30권6호
    • /
    • pp.37-46
    • /
    • 2012
  • 65세 이상 고령운전자의 경우 지난 10년 새 교통사고건수는 3만 7,000건에서 27만 4,000건으로 무려 640.5% 증가되었다. 이는 전체사고에서 차지하는 비율이 1.2%에서 3.1배 증가한 3.7%를 차지하고 있는 것으로 교통안전 관련기관에서는 여러 대책을 강구하고 있다. 무엇보다 고령운전자의 행동특성 및 신체특성에 대한 심층연구를 통해 안전대책과 연계하는 방안이 중요하다 할 수 있다. 본 연구에서는 고령운전자의 행동특성을 측정할 수 있는 운전자 적성검사(Driving Aptitude) 항목과 교통사고 자료를 토대로 고령운전자 운전특성과 사고특성을 연결한 실증연구를 수행하였다. 영향모형 개발을 위해 활용한 방법론은 영과잉 회귀모형을 적용하였고, ZIP 회귀모형과 ZINB 회귀모형에 대하여 베이지안 추론을 이용한 사고예측 모형을 선택하였다. AAE분석결과 ZIP 회귀모형이 적합하며, 3가지 변수속도예측, 주의전환, 인지능력이 고령자사고와 영향관계에 있음을 확인할 수 있었다.

가산자료모형을 기초로 한 통행행태의 한계효과분석 (Marginal Effect Analysis of Travel Behavior by Count Data Model)

  • 장태연
    • 대한교통학회지
    • /
    • 제21권3호
    • /
    • pp.15-22
    • /
    • 2003
  • 교통수요예측의 통행발생단계에서 일반적으로 선형회귀모형이 활용되고 있다. 이러한 선형회귀모형은 여러가지 방법론적 한계성과 실용적 지속성을 가지지 못하는 경향을 보인다. 첫째, 종속변수로 이용되는 통행발생의 경우 비음정수(non-negative integer : 0, 1, 2 등)의 이산분포특징을 보이나, 선형회귀모형에서는 종속변수가 연속확률분포 인 정규분포의 특징을 가진 것으로 가정한다. 둘째, 모형이 자료측정에 적용되었을 때 음(-)의 결과를 산정 할 수 있으며, 독립변수의 증감에 따라 결과 값을 너무 높게 혹은 낮게 예측하는 경우가 있다 셋째, 예측된 값이 정상적인 범위 내에 있을 지라도 예측된 통행수만을 제시 할 뿐, 통행발생빈도에 대한 이산확률분포는 제공하지 않는다. 이같은 한계점을 극복하기 위해 주로 활용되어온 가산자료모형이 포와송모형이다. 그러나 포와송모형의 경우 자료의 평균과 분산이 동일하다는 가정하에 활용되고 있어 자료상에 과산포가 존재할 경우 오차를 과소평가 할 경향이 높아 모형의 신뢰성에 문제가 발생됨으로 기타 다른 가산자료모형의 적용을 고려해야한다. 연구에서는 과산포검정을 통해 통행발생빈도상에 과산포 존재를 밝혀내고 포와송모형의 부적합함을 제시하였으며 Vuong 검정을 통해 최적의 모형을 선정하였다. 선정된 모형을 대상으로 우도비검정과 Theil 부등계수에 의해 모형의 신뢰도와 정확성을 조사하였다. 최종적으로 가구의 사회경제적 속성의 변화에 따른 통행발생의 변화를 측정하기 위한 민감도 분석을 실시하였다.

온라인 리뷰의 감성과 독해 용이성이 리뷰 유용성에 미치는 영향: 가산형 리뷰 유용성 정보 활용 (The Effects of Sentiment and Readability on Useful Votes for Customer Reviews with Count Type Review Usefulness Index)

  • 루스 안젤리 크루즈;이홍주
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.43-61
    • /
    • 2016
  • 온라인 쇼핑몰의 상품에 대한 고객 리뷰는 구매자들의 구매 의사결정에 영향을 미치고 있으며 중요한 구전효과의 원천과 의사결정의 정보 원천의 역할을 하고 있다. 한 제품에 대한 리뷰가 무척 많기에 온라인 쇼핑몰들은 고객 리뷰 평가 방안을 도입하였고, 이를 통해 고객들에게 유용하리라고 판단되는 리뷰들을 걸러서 보여주거나 강조할 수 있게 되었다. 리뷰 평가 방안은 해당 리뷰가 도움이 되었는지 혹은 도움이 되지 않았는 지를 리뷰를 읽은 고객이 평가하게 하는 방안이다. Amazon.com은 고객 평가를 바탕으로 총 투표 수 중에서 유용하다는 투표 수의 비율을 리뷰 유용성 지표로 삼고 있으며, Yelp.com은 유용하다는 투표 수 자체를 유용성 지표로 삼고 있다. 본 연구는 고객 리뷰의 감성과 독해 용이성이 리뷰의 유용성에 미치는 영향을 파악하고자 한다. Amazon.com의 고객 리뷰 자료를 활용하여 비율형 유용성 지표를 종속변수로 하는 유사한 연구들이 수행되어 왔다. 본 연구에서는 Yelp.com의 리뷰 자료를 활용하여 가산형 리뷰 유용성 지표인 경우에도 동일한 효과가 존재하는지를 검토하고자 한다. Yelp.com의 음료와 음식 카테고리에 해당하는 업종에 대한 리뷰를 자료로 활용하였으며, 점포의 명성과 인기도 데이터를 파악할 수 있는 170,294개의 리뷰를 분석에 활용하였다. 분석결과는 리뷰의 긍정 정도는 유용 투표수를 늘리는데 음의 영향을 미쳤다. 평가가 긍정적인 리뷰에서는 음의 영향관계가 유의 하였으나, 평가가 부정적인 리뷰에서는 리뷰의 긍정 정도가 유용 투표 수에 미치는 영향은 유의하지 않았다. 독해 용이성은 리뷰가 읽기 어려울 수록 높은 값을 갖으며, 독해의 어려운 정도는 유용 투표수 획득에 음의 영향을 미쳤다. 독해 용이성은 긍정 리뷰, 부정 리뷰 관계없이 모두 음의 영향을 미치는 것으로 분석되었다. 이 결과는 유용 투표수가 0인 리뷰를 포함하여 영과잉 음이항 회귀분석을 수행한 경우와 유용 투표수가 0인 리뷰를 제외하고 음이항 회귀분석을 수행한 경우 모두 동일하게 파악되었다.