• 제목/요약/키워드: count model

검색결과 503건 처리시간 0.023초

Bayesian Conway-Maxwell-Poisson (CMP) regression for longitudinal count data

  • Morshed Alam ;Yeongjin Gwon ;Jane Meza
    • Communications for Statistical Applications and Methods
    • /
    • 제30권3호
    • /
    • pp.291-309
    • /
    • 2023
  • Longitudinal count data has been widely collected in biomedical research, public health, and clinical trials. These repeated measurements over time on the same subjects need to account for an appropriate dependency. The Poisson regression model is the first choice to model the expected count of interest, however, this may not be an appropriate when data exhibit over-dispersion or under-dispersion. Recently, Conway-Maxwell-Poisson (CMP) distribution is popularly used as the distribution offers a flexibility to capture a wide range of dispersion in the data. In this article, we propose a Bayesian CMP regression model to accommodate over and under-dispersion in modeling longitudinal count data. Specifically, we develop a regression model with random intercept and slope to capture subject heterogeneity and estimate covariate effects to be different across subjects. We implement a Bayesian computation via Hamiltonian MCMC (HMCMC) algorithm for posterior sampling. We then compute Bayesian model assessment measures for model comparison. Simulation studies are conducted to assess the accuracy and effectiveness of our methodology. The usefulness of the proposed methodology is demonstrated by a well-known example of epilepsy data.

가산자료모형(Count Data Model)을 이용한 버스이용횟수추정에 관한 연구 (서울시 통근.통학자를 대상으로) (Count Data Model for The Estimation of Bus Ridership (Focusing on Commuters and Students in Seoul))

  • 문진수;김순관;임강원
    • 대한교통학회지
    • /
    • 제17권5호
    • /
    • pp.123-135
    • /
    • 1999
  • 개인교통수단의 선호로 인한 자가용 승용차의 급증은 서울시의 교통혼잡을 가중시키는 주요한 요인이 되고 있다. 이러한 서울시의 교통혼잡을 완화하기 위해서는 대중교통 중심의 교통체계가 구축되어야 하며 승용차 이용자를 대중교통수단으로 유인할 수 있는 대중교통 활성화정책이 필요하다. 이러한 인식하에 버스를 이용하는 통근 및 통학목적 통행자의 버스이용횟수에 대한 개별행태모형을 통하여 버스 이용에 영향을 미치는 요인을 파악함으로써 승용차 이용자를 대중교통수단으로 유인할 수 있는 정책적인 시사점을 도출하고자 하였다. 본 연구의 목적은 일주일간 버스이용횟수 추정에 적합한 가산자료모형의 적용이다. 국내에서는 가산자료모형을 이용한 연구가 많지 않은 실정이며, 또한 모형의 설정시 과산포(overdispersion)에 대한 검정을 통하여 자료에 적합한 모형을 설정하는 것이 중요함에도 불구하고 적절한 검정없이 일반적으로 사용되고 있는 포와송 회귀모형을 주로 사용하여 왔다. 그러나 본 연구에서는 가산자료모형을 선정하기 전에 과산포에 대한 통계적인 검정을 시행한 결과 음이항 회귀모형이 본 연구의 자료에 적합한 것으로 판정되었으며, 모형설정의 중요성을 살펴보기 위하여 음이항 회귀모형을 이용하여 추정한 결과와 포와송 회귀모형을 이용하여 추정한 결과를 비교하여 보았다.

  • PDF

Application of Bootstrap Method to Primary Model of Microbial Food Quality Change

  • Lee, Dong-Sun;Park, Jin-Pyo
    • Food Science and Biotechnology
    • /
    • 제17권6호
    • /
    • pp.1352-1356
    • /
    • 2008
  • Bootstrap method, a computer-intensive statistical technique to estimate the distribution of a statistic was applied to deal with uncertainty and variability of the experimental data in stochastic prediction modeling of microbial growth on a chill-stored food. Three different bootstrapping methods for the curve-fitting to the microbial count data were compared in determining the parameters of Baranyi and Roberts growth model: nonlinear regression to static version function with resampling residuals onto all the experimental microbial count data; static version regression onto mean counts at sampling times; dynamic version fitting of differential equations onto the bootstrapped mean counts. All the methods outputted almost same mean values of the parameters with difference in their distribution. Parameter search according to the dynamic form of differential equations resulted in the largest distribution of the model parameters but produced the confidence interval of the predicted microbial count close to those of nonlinear regression of static equation.

랜덤효과를 포함한 영과잉 포아송 회귀모형에 대한 베이지안 추론: 흡연 자료에의 적용 (A Bayesian zero-inflated Poisson regression model with random effects with application to smoking behavior)

  • 김연경;황범석
    • 응용통계연구
    • /
    • 제31권2호
    • /
    • pp.287-301
    • /
    • 2018
  • 0이 과도하게 많이 나타나는 자료는 여러 다양한 분야에서 흔히 볼 수 있다. 이러한 자료들을 분석할 때 대표적으로 영과잉 포아송 모형이 사용된다. 특히 반응변수들 사이에 상관관계가 존재할 때에는 랜덤효과를 영과잉 포아송 모형에 도입해서 분석해야 한다. 이러한 모형은 주로 빈도론자들의 접근방법으로 분석되어왔는데, 최근에는 베이지안 기법을 사용한 분석도 다양하게 발전되어 왔다. 본 논문에서는 반응변수들 사이에 상관관계가 존재하는 경우 랜덤효과가 포함된 영과잉 포아송 회귀모형을 베이지안 추론 방법을 토대로 제안하였다. 이 모형의 적합성을 판단하기 위해 모의 실험을 통해 랜덤효과를 고려하지 않은 모형과 비교 분석하였다. 또한, 실제 지역사회 건강조사 흡연 자료에 직접 응용하여 그 결과를 살펴보았다.

경시적 영과잉 가산자료와 생존자료의 결합모형 (A joint modeling of longitudinal zero-inflated count data and time to event data)

  • 김동욱;천지훈
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1459-1473
    • /
    • 2016
  • 시간의 흐름에 따라 관측되는 경시적(longitudinal) 자료의 경우, 경시적 자료와 생존(survival) 자료가 종종 동시에 수집된다. 이 때 경시적 자료에서 발생하는 결측이 생존자료와의 연관성으로 인해 발생한 무시할 수 없는 결측(non-ignorable missing)이라면, 경시적 자료분석 방법만으로는 두 자료 간의 연관성을 고려하지 않아 독립변수에 대한 효과는 편향된 결과를 얻게 된다. 이러한 문제를 해결하기 위해서 결측의 원인이 생존시간과 연관되어 있으므로 생존모형을 고려하여 불편추정량을 얻기 위해 경시적 자료와 생존자료의 결합모형에 대한 연구가 이루어져 왔다. 본 논문은 경시적 자료의 형태가 영이 많이 존재하는 영과잉 가산자료(zero-inflated count data)와 생존자료의 결합모형을 연구하였다. 경시적 영과잉 가산자료와 생존자료는 각각 허들모형(hurdle model)과 비례위험모형(proportional hazards model)의 부 모형을 적용하였고, 두 부 모형들의 변량효과가 다변량 정규분포를 따른다는 가정을 통하여 결합하였다. 모수의 최우추정법으로 EM 알고리즘을 활용하였고, 추정된 표준오차를 계산하기 위해 프로파일 우도(profile likelihood)를 이용하였다. 최종적으로 모의실험을 통해 두 부 모형의 변량효과 간 상관관계가 존재하는 경우 결합모형이 개별적 모형보다 편의와 포함확률(coverage probability)의 측면에서 더 우수함을 보였다.

우리나라 가구의 자녀수 결정요인에 관한 Count 모형 분석 및 경제적 함의 (The Economic and Social Implication of Count Regression Models for Married Women's Completed Fertility in Korea)

  • 김현숙
    • 한국인구학
    • /
    • 제30권3호
    • /
    • pp.107-135
    • /
    • 2007
  • 본 연구에서는 우리나라 가구의 자녀수 결정요인을 Count 모형을 이용하여 분석하였다. 분석 기법으로는 자녀수가 감마(Gamma) count 분포를 따른다는 가정 하에 기본적인 회귀분석과 40세 이하 기혼여성의 완결출산에 대한 대리변수로 예상출산자녀수에 대한 회귀분석, 허들모형 그리고 기혼여성의 노동시장 참여와 자녀출산간의 내생성을 고려한 모형을 각각 이용하여 다각적인 방법론으로 출산결정요인을 분석하였다. 분석결과, 가구의 소득수준이 높을수록 40세 이상 기혼여성의 자녀수는 많은 것으로 나타나는 반면, $18{\sim}39$세 기혼여성의 경우에는 소득이 자녀수에 큰 영향을 미치지 못하는 것으로 보인다. 기혼여성의 경제활동참여는 39세 이하의 비교적 젊은 여성들에게서 출산 예상자녀수에 부정적인 영향을 주는 것을 뚜렷이 확인할 수 있고, 출산과 경제활동참여 간에는 내생성이 존재하는 것으로 확인되었다. 허들모형을 이용한 결과, 기혼여성의 학력은 자녀출산 여부에는 긍정적으로 작용할 수 있으나 자녀수 결정에는 부정적으로 작용하여 기혼여성 학력이 높을수록 출산율은 감소하게 된다. 다양한 회귀분석 결과에 근거할 때 Becker의 Quantity-Quality 모형의 핵심내용은 우리나라의 자녀수 결정에 있어서도 대체적으로 적용됨을 확인할 수 있다.

가산자료모형을 이용한 서해 태안군 유어객의 편익추정 (Estimating the Economic Value of Recreation Sea Fishing in the Yellow Sea: An Application of Count Data Model)

  • 최종두
    • 자원ㆍ환경경제연구
    • /
    • 제23권2호
    • /
    • pp.331-347
    • /
    • 2014
  • 본 연구는 서해에 위치한 태안군을 방문하는 유어객의 방문 편익을 분석하기 위하여 개별여행비용법과 가산자료모형을 이용하여 수요모형을 추정하고 경제적 가치를 측정하였다. 여행객방문속성을 감안하여 분석모형으로 포아송모형(Poisson Model, PM), 음이항모형(Negative Binomial, NB), 절단된 포아송모형(Truncated Poisson Model, TPM), 절단된 음이항모형(Truncated Negative Binomial, TNB)을 분석에 이용하였다. 분석결과 추정계수들은 통계적으로 유의하게 나타났으며, 경제이론에도 부합되는 결과를 도출하였다. 과산포(overdispersion)현상은 발견되지 않았으며, 모형적합도검정을 통하여 절단된 포아송모형이 적정모형으로 선정되었다. 또한, 서해 태안군 해역내 유어활동의 경제적가치를 추정하기 위하여 유어객의 연평균 출조횟수와 최적모형으로 선정된 절단된포아송모형(TPM)으로 분석한 결과 1인 1회 출조당 경제적 가치는 254,453원이며, 1인당 연간 총 경제적 가치는 1,536,896원으로 도출되었다.

An Analysis of Panel Count Data from Multiple random processes

  • 박유성;김희영
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2002년도 추계 학술발표회 논문집
    • /
    • pp.265-272
    • /
    • 2002
  • An Integer-valued autoregressive integrated (INARI) model is introduced to eliminate stochastic trend and seasonality from time series of count data. This INARI extends the previous integer-valued ARMA model. We show that it is stationary and ergodic to establish asymptotic normality for conditional least squares estimator. Optimal estimating equations are used to reflect categorical and serial correlations arising from panel count data and variations arising from three random processes for obtaining observation into estimation. Under regularity conditions for martingale sequence, we show asymptotic normality for estimators from the estimating equations. Using cancer mortality data provided by the U.S. National Center for Health Statistics (NCHS), we apply our results to estimate the probability of cells classified by 4 causes of death and 6 age groups and to forecast death count of each cell. We also investigate impact of three random processes on estimation.

  • PDF

Application of discrete Weibull regression model with multiple imputation

  • Yoo, Hanna
    • Communications for Statistical Applications and Methods
    • /
    • 제26권3호
    • /
    • pp.325-336
    • /
    • 2019
  • In this article we extend the discrete Weibull regression model in the presence of missing data. Discrete Weibull regression models can be adapted to various type of dispersion data however, it is not widely used. Recently Yoo (Journal of the Korean Data and Information Science Society, 30, 11-22, 2019) adapted the discrete Weibull regression model using single imputation. We extend their studies by using multiple imputation also with several various settings and compare the results. The purpose of this study is to address the merit of using multiple imputation in the presence of missing data in discrete count data. We analyzed the seventh Korean National Health and Nutrition Examination Survey (KNHANES VII), from 2016 to assess the factors influencing the variable, 1 month hospital stay, and we compared the results using discrete Weibull regression model with those of Poisson, negative Binomial and zero-inflated Poisson regression models, which are widely used in count data analyses. The results showed that the discrete Weibull regression model using multiple imputation provided the best fit. We also performed simulation studies to show the accuracy of the discrete Weibull regression using multiple imputation given both under- and over-dispersed distribution, as well as varying missing rates and sample size. Sensitivity analysis showed the influence of mis-specification and the robustness of the discrete Weibull model. Using imputation with discrete Weibull regression to analyze discrete data will increase explanatory power and is widely applicable to various types of dispersion data with a unified model.

계수형 시계열 모형을 위한 자동화 차수 선택 알고리즘 (Automatic order selection procedure for count time series models)

  • 지윤미;성병찬
    • 응용통계연구
    • /
    • 제33권2호
    • /
    • pp.147-160
    • /
    • 2020
  • 본 논문은 시계열 일반화 선형 모형의 하나인 계수형 시계열 모형에서 중요한 역할을 하는 과거 관측값과 조건부 평균값의 차수를 자동으로 결정하는 알고리즘을 연구한다. 본 알고리즘은 ARIMA 모형의 차수를 기반으로 시계열 일반화 선형 모형의 차수 후보군을 만들고, 차수 후보군의 조합을 이용하여 정보량 기준으로 최종 모형으로 선택한다. 제안된 알고리즘을 평가하기 위하여, 내재적 모형 및 내재적 시계열의 종류에 따른 시뮬레이션 및 실증 분석을 수행하고 예측력을 ARIMA 모형과 비교한다. 예측 성능 평가 결과, 계수형 시계열 분석에서 ARIMA 모형에 비해 시계열 일반화 선형 모형의 예측 성능이 우수함을 확인할 수 있다. 또한 실증분석으로서, 살인사건 발생 건수의 예측결과 ARIMA 모형보다 중기 및 장기 예측에서 우수한 성능을 나타내는 것을 확인할 수 있다.