• 제목/요약/키워드: Zero-Inflated

검색결과 79건 처리시간 0.021초

영과잉 토빗모형을 이용한 한국 소득분포 자료의 베이지안 분석 (Bayesian analysis of Korean income data using zero-inflated Tobit model)

  • 황지수;김세완;오만숙
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.917-929
    • /
    • 2017
  • 한국노동패널조사에서 제공하는 2015년 한국 생산가능인구의 월평균 소득분포를 보면 0 관측치의 비율이 과도하게 높은 형태를 보여 기존의 소득분포에 주로 사용되는 토빗모형으로는 설명에 한계가 있다. 본 연구에서는 영과잉 특성을 반영하여 영과잉 토빗모형을 사용하여 한국인의 소득 자료를 분석한다. 영과잉 토빗모형은 2단계 모형으로 1단계에서는 소득이 0인 그룹을 두 그룹으로 나누는데, 첫 번째 그룹은 노동시장 참여의지가 없어 시장에 참여하지 않으므로 0이 관측되는 그룹(genuine zero)이고 두 번째 그룹은 노동시장 참여의지는 있으나 낮은 임금으로 인하여 절단되어 0이 관측되는 그룹(random zero)으로 가정하였다. 두 번째 random zero 그룹은 0 이상의 연속 자료와 결합하여 토빗모형을 적용한다. 1단계와 2단계 모형에 관심 있는 설명변수를 가진 회귀모형을 적용하여 노동시장 참여여부와 임금 수준에 영향을 미치는 요인을 알아본다. 마코브 체인 몬테칼로 기법을 사용하여 모수를 추정하고 기존의 토빗모형과 비교한 결과 영과잉 토빗모형이 0의 빈도추정과 모형 적합도 면에서 우수한 결과를 보였다. 분석결과 나이가 많을수록, 남자가 여자보다, 학력이 낮을수록, 노동시장에 참여할 가능성이 매우 유의하게 높으며, 사회경제적 지위가 높을수록 그리고 유보임금이 낮을수록 노동시장에 참여하지 않을 확률이 높은 것으로 나타났다. 임금수준을 보면, 남자가 여자보다, 학력이 높을수록, 기혼이 미혼 보다 매우 유의하게 더 높은 임금을 받는 것으로 나타났다.

A simple zero inflated bivariate negative binomial regression model with different dispersion parameters

  • Kim, Dongseok
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.895-900
    • /
    • 2013
  • In this research, we propose a simple bivariate zero inflated negative binomial regression model with different dispersion for bivariate count data with excess zeros. An application to the demand for health services shows that the proposed model is better than existing models in terms of log-likelihood and AIC.

0이 팽창된 포아송 회귀모형을 이용한 기부회수 자료의 재분석 (The Reanalysis of the Donation Data Using the Zero-Inflated Possion Regression)

  • 김인영;박태규;김병수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.819-827
    • /
    • 2009
  • 김인영 등 (2006)은 두 개 포아송 분포의 혼합모형에 기초한 회귀모형으로써 2002년 (사)볼런티어 21에서 실시한 설문조사 자료를 분석하여 우리나라 개인들이 기부한 횟수에 영향을 미치는 유의적 변수들을 식별하였다. 본고에서는 김인영 등 (2006)에서도 언급하였듯이 기부횟수 0의 관찰 빈도와 예측 빈도간 차이가 유독 큰 점을 감안하여, 0이 팽창된 포아송(zero inflated Poisson: ZIP)을 기존의 두 개의 포아송 혼합분포에 추가하여 일종의 세 개 포아송 혼합분포 형태로 모집단 분포를 구성하며 동 모형의 회귀모형으로써 기부횟수 자료를 재분석하고자 한다. 회귀계수에 대한 추정은 두 단계 EM 알고리즘으로 이루어 졌고, 유의적 설명 변수의 검색은 김인영 등 (2006)과 같았으나 본 연구에서는 고정된 령(零)군의 비율을 0.201로 추정할 수 있었으며, 두 가지 유의적 설명변수인 소득과 자원봉사 중에서 자원봉사가 기부 횟수를 늘리는 안정적 도구 변수로써 작용할 수 있음을 보고하고 있다.

변화시점이 있는 영과잉-포아송모형 (Zero-Inflated Poisson Model with a Change-point)

  • 김경무
    • Journal of the Korean Data and Information Science Society
    • /
    • 제9권1호
    • /
    • pp.1-9
    • /
    • 1998
  • 영과잉-포아송모형에서 변화시점이 있는 경우, 우도비 검정통계량을 이용하여 변화 시점의 유 무에 대한 가설을 검정하였다. 또한 적률 및 최우추정법을 이용하여 변화 시점과 몇가지 흥미있는 모수들을 추정하여 보았다. 이들 추정량을 비교하기 위하여 경험적인 평균제곱오차를 이용하였다. 변화시점이 있는 영과잉-포아송 모형과 변화시점이 없는 포아송 모형의 실례를 자료를 중심으로 설명하였다.

  • PDF

Sample size calculations for clustered count data based on zero-inflated discrete Weibull regression models

  • Hanna Yoo
    • Communications for Statistical Applications and Methods
    • /
    • 제31권1호
    • /
    • pp.55-64
    • /
    • 2024
  • In this study, we consider the sample size determination problem for clustered count data with many zeros. In general, zero-inflated Poisson and binomial models are commonly used for zero-inflated data; however, in real data the assumptions that should be satisfied when using each model might be violated. We calculate the required sample size based on a discrete Weibull regression model that can handle both underdispersed and overdispersed data types. We use the Monte Carlo simulation to compute the required sample size. With our proposed method, a unified model with a low failure risk can be used to cope with the dispersed data type and handle data with many zeros, which appear in groups or clusters sharing a common variation source. A simulation study shows that our proposed method provides accurate results, revealing that the sample size is affected by the distribution skewness, covariance structure of covariates, and amount of zeros. We apply our method to the pancreas disorder length of the stay data collected from Western Australia.

영과잉 음이항회귀 모형을 이용한 보험설계사들의 이직횟수 적합 (Fit of the number of insurance solicitor's turnovers using zero-inflated negative binomial regression)

  • 전희주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1087-1097
    • /
    • 2017
  • 본 연구는 계수자료 (count data)를 반응변수로 갖는 포아송회귀 모형, 음이항회귀 모형, 영과잉 포아송회귀 모형, 영과잉 음이항회귀 모형의 4 모형의 비교를 통해 보험 설계사들의 이직횟수 적합을 위한 최적모형을 찾고자 한다. 보험설계사 이직횟수의 분산이 평균보다 큰 과대산포가 존재하고 0인 경우의 비중이 높을 경우에 영과잉 음이항회귀 모형을 적합하는 것이 타당함을 보여주고 보험 설계사들의 이직횟수에 영향을 주는 요인을 규명하고자 한다. 로그우도값, AIC, SBC 등을 고려하여 보험설계사 이직횟수 적합을 최적의 모형은 영과잉 이항모형과 음이항회귀모형의 결합인 영과잉 음이항 모형이 선택되었다. 영과잉 이항모형에 포함된 변수로는 성별, 총 보험설계사 근무연월, 교차모집 설계사 등록, 보유고객 수, 소속회사 유형이었고, 음이항회귀 모형에 포함된 변수로는 직무만족, 조직몰입, 채널경영만족, 총 보험설계사 근무연월, 현 직장에서 근무연월, 소속회사 유형이었다. 영과잉 음이항회귀 모형의 적합결과, 이직횟수에 유의한 영향을 주는 요인으로는 현 직장에서 근무연월, 총 보험설계사 근무연월, 소속회사 유형, 채널경영만족, 직무만족 순으로 나타났다.

계수 시계열을 위한 정수값 GARCH 모델링: 사례분석 (Integer-Valued GARCH Models for Count Time Series: Case Study)

  • 윤재은;황선영
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.115-122
    • /
    • 2015
  • 본 연구에서는 정수값을 갖는 계수 시계열의 조건부 이차적률인 변동성(volatility)을 다루고 있다. 여러 가지 정수값 GARCH, 즉, INGARCH 모형들을 소개하고 계수 시계열인 국내 풍진발생건수에 적용시켜 보았다. 과산포(over-dispersion)와 영과잉(zero-inflation)현상을 계수 시계열의 변동성 분석 입장에서 살펴보았고 향후 분석 모형으로서 영과잉(zero-inflation) INGARCH 모형인 ZI-INGARCH 모형을 살펴보았다.

경시적 영과잉 가산자료와 생존자료의 결합모형 (A joint modeling of longitudinal zero-inflated count data and time to event data)

  • 김동욱;천지훈
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1459-1473
    • /
    • 2016
  • 시간의 흐름에 따라 관측되는 경시적(longitudinal) 자료의 경우, 경시적 자료와 생존(survival) 자료가 종종 동시에 수집된다. 이 때 경시적 자료에서 발생하는 결측이 생존자료와의 연관성으로 인해 발생한 무시할 수 없는 결측(non-ignorable missing)이라면, 경시적 자료분석 방법만으로는 두 자료 간의 연관성을 고려하지 않아 독립변수에 대한 효과는 편향된 결과를 얻게 된다. 이러한 문제를 해결하기 위해서 결측의 원인이 생존시간과 연관되어 있으므로 생존모형을 고려하여 불편추정량을 얻기 위해 경시적 자료와 생존자료의 결합모형에 대한 연구가 이루어져 왔다. 본 논문은 경시적 자료의 형태가 영이 많이 존재하는 영과잉 가산자료(zero-inflated count data)와 생존자료의 결합모형을 연구하였다. 경시적 영과잉 가산자료와 생존자료는 각각 허들모형(hurdle model)과 비례위험모형(proportional hazards model)의 부 모형을 적용하였고, 두 부 모형들의 변량효과가 다변량 정규분포를 따른다는 가정을 통하여 결합하였다. 모수의 최우추정법으로 EM 알고리즘을 활용하였고, 추정된 표준오차를 계산하기 위해 프로파일 우도(profile likelihood)를 이용하였다. 최종적으로 모의실험을 통해 두 부 모형의 변량효과 간 상관관계가 존재하는 경우 결합모형이 개별적 모형보다 편의와 포함확률(coverage probability)의 측면에서 더 우수함을 보였다.

서로 다른 산포를 허용하는 이변량 영과잉 음이항 회귀모형 (Bivariate Zero-Inflated Negative Binomial Regression Model with Heterogeneous Dispersions)

  • 김동석;정슬기;이동희
    • Communications for Statistical Applications and Methods
    • /
    • 제18권5호
    • /
    • pp.571-579
    • /
    • 2011
  • 본 연구에서는 두 반응 변수에 서로 다른 산포를 허용하는 새로운 이변량 영과잉 음이항 회귀모형을 제안하고, Deb과 Trivedi (1997)에 나타난 헬스케어 자료를 이용하여 두 반응변수가 갖는 서로 다른 산포도를 무시한 Wang (2003)이 제안한 이변량 영과잉 음이항 회귀모형과의 효율성을 로그우도와 AIC의 관점에서 비교 하였다. 모형적합결과, 본 연구에서 제안한 모형이 모형선택기준 관점에서 기존모형에 비하여 월등히 우수한 결과를 보여주었다.

Modelling Count Responses with Overdispersion

  • Jeong, Kwang Mo
    • Communications for Statistical Applications and Methods
    • /
    • 제19권6호
    • /
    • pp.761-770
    • /
    • 2012
  • We frequently encounter outcomes of count that have extra variation. This paper considers several alternative models for overdispersed count responses such as a quasi-Poisson model, zero-inflated Poisson model and a negative binomial model with a special focus on a generalized linear mixed model. We also explain various goodness-of-fit criteria by discussing their appropriateness of applicability and cautions on misuses according to the patterns of response categories. The overdispersion models for counts data have been explained through two examples with different response patterns.