• 제목/요약/키워드: Poisson regression

검색결과 241건 처리시간 0.035초

Predicting football scores via Poisson regression model: applications to the National Football League

  • Saraiva, Erlandson F.;Suzuki, Adriano K.;Filho, Ciro A.O.;Louzada, Francisco
    • Communications for Statistical Applications and Methods
    • /
    • 제23권4호
    • /
    • pp.297-319
    • /
    • 2016
  • Football match predictions are of great interest to fans and sports press. In the last few years it has been the focus of several studies. In this paper, we propose the Poisson regression model in order to football match outcomes. We applied the proposed methodology to two national competitions: the 2012-2013 English Premier League and the 2015 Brazilian Football League. The number of goals scored by each team in a match is assumed to follow Poisson distribution, whose average reflects the strength of the attack, defense and the home team advantage. Inferences about all unknown quantities involved are made using a Bayesian approach. We calculate the probabilities of win, draw and loss for each match using a simulation procedure. Besides, also using simulation, the probability of a team qualifying for continental tournaments, being crowned champion or relegated to the second division is obtained.

포아송 분포의 혼합모형을 이용한 기부 횟수 자료 분석 (The Analysis of the Number of Donations Based on a Mixture of Poisson Regression Model)

  • 김인영;박수범;김병수;박태규
    • 응용통계연구
    • /
    • 제19권1호
    • /
    • pp.1-12
    • /
    • 2006
  • 본 논문에서는 2002년에 (사)볼런티어21에서 실시한 설문조사 자료를 이용하여 2001년에 우리나라 개인들이 기부한 횟수에 영향을 주는 유의한 변수들을 식별하였다. 기부횟수의 경험적 분포로 미루어 모집단은 기부를 적게 하는 집단과 많이 하는 집단으로 구성되며 따라서 모집단 분포를 두개 포아송 분포의 혼합분포로 모형화하였다. 이 모형에 기초하여 기부횟수에 영향을 미치는 변수들을 식별하였다. EM알고리즘을 이용하여 모수를 추정하고 2.5%와 97.5%에 기초한 백분위수 신뢰구간을 보완한 BCa(bias-corrected and accelerated) 신뢰구간을 계산하여 유의한 변수들을 찾았다. 연구결과 혼합 포아송 회귀모형에서는 기부횟수가 적은 집단("작은 군")과 기부횟수가 많은 집단("큰 군") 모두에서 소득과 자원봉사의 경험 유무(1:예, 0:아니오)가 기부횟수에 유의적으로 영향을 주는 변수로 밝혀졌다. 또한 두 변수 각각에서 회귀계수가 양수로 나타나 소득이 많을수록, 혹은 자원봉사의 경험이 있는 사람일수록 기부횟수가 증가하는 것을 알 수 있다. 그러나 소득과 자원봉사 변수의 회귀계수는 "작은 군"이 "큰 군"에 비해 더욱 크게 나타나고 있다. "작은 군"보다 "큰 군"의 사람들에게 기부가 생활화되어 있고, 따라서 소득과 자원봉사의 경험 유무가 기부횟수에 미치는 영향이 상대적으로 적은 것으로 파악된다.

0이 팽창된 포아송 회귀모형을 이용한 기부회수 자료의 재분석 (The Reanalysis of the Donation Data Using the Zero-Inflated Possion Regression)

  • 김인영;박태규;김병수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.819-827
    • /
    • 2009
  • 김인영 등 (2006)은 두 개 포아송 분포의 혼합모형에 기초한 회귀모형으로써 2002년 (사)볼런티어 21에서 실시한 설문조사 자료를 분석하여 우리나라 개인들이 기부한 횟수에 영향을 미치는 유의적 변수들을 식별하였다. 본고에서는 김인영 등 (2006)에서도 언급하였듯이 기부횟수 0의 관찰 빈도와 예측 빈도간 차이가 유독 큰 점을 감안하여, 0이 팽창된 포아송(zero inflated Poisson: ZIP)을 기존의 두 개의 포아송 혼합분포에 추가하여 일종의 세 개 포아송 혼합분포 형태로 모집단 분포를 구성하며 동 모형의 회귀모형으로써 기부횟수 자료를 재분석하고자 한다. 회귀계수에 대한 추정은 두 단계 EM 알고리즘으로 이루어 졌고, 유의적 설명 변수의 검색은 김인영 등 (2006)과 같았으나 본 연구에서는 고정된 령(零)군의 비율을 0.201로 추정할 수 있었으며, 두 가지 유의적 설명변수인 소득과 자원봉사 중에서 자원봉사가 기부 횟수를 늘리는 안정적 도구 변수로써 작용할 수 있음을 보고하고 있다.

외래이용빈도 분석의 모형과 기법 (A Ppoisson Regression Aanlysis of Physician Visits)

  • 이영조;한달선;배상수
    • 보건행정학회지
    • /
    • 제3권2호
    • /
    • pp.159-176
    • /
    • 1993
  • The utilization of outpatient care services involves two steps of sequential decisions. The first step decision is about whether to initiate the utilization and the second one is about how many more visits to make after the initiation. Presumably, the initiation decision is largely made by the patient and his or her family, while the number of additional visits is decided under a strong influence of the physician. Implication is that the analysis of the outpatient care utilization requires to specify each of the two decisions underlying the utilization as a distinct stochastic process. This paper is concerned with the number of physician visits, which is, by definition, a discrete variable that can take only non-negative integer values. Since the initial visit is considered in the analysis of whether or not having made any physician visit, the focus on the number of visits made in addition to the initial one must be enough. The number of additional visits, being a kind of count data, could be assumed to exhibit a Poisson distribution. However, it is likely that the distribution is over dispersed since the number of physician visits tends to cluster around a few values but still vary widely. A recently reported study of outpatient care utilization employed an analysis based upon the assumption of a negative binomial distribution which is a type of overdispersed Poisson distribution. But there is an indication that the use of Poisson distribution making adjustments for over-dispersion results in less loss of efficiency in parameter estimation compared to the use of a certain type of distribution like a negative binomial distribution. An analysis of the data for outpatient care utilization was performed focusing on an assessment of appropriateness of available techniques. The data used in the analysis were collected by a community survey in Hwachon Gun, Kangwon Do in 1990. It was observed that a Poisson regression with adjustments for over-dispersion is superior to either an ordinary regression or a Poisson regression without adjustments oor over-dispersion. In conclusion, it seems the most approprite to assume that the number of physician visits made in addition to the initial visist exhibits an overdispersed Poisson distribution when outpatient care utilization is studied based upon a model which embodies the two-part character of the decision process uderlying the utilization.

  • PDF

수문기상 조건을 고려한 Poisson regression 기반의 Cyanobacteria 개체수 예측 (Prediction of cyanobacteria population based on Poisson regression based on hydro-meteorological condition)

  • 조혜미;응웬티흐엉;문장원;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.208-208
    • /
    • 2020
  • 지구온난화와 하천환경의 변화로 수질 오염이 심각해지고 녹조 현상 등의 피해가 증가하고 있다. 특히, 기후변화로 인해 온도와 강우량의 변동성이 동시에 증가하고 있어 하천의 수환경 관리측면에서 어려움이 증가하고 있다. 최근 하천 개발 사업으로 인한 인공 구조물 축조로 하천의 오염도 변화는 중요한 논점으로 대두되었으며, 그에 따라 정확한 수질 전망이 요구되고 있다. 녹조평가에 있어 주요 대리변수(proxy variable)로 chlorophyll-a(Chl-a)가 사용되고 있지만, Chl-a는 규조류와 남조류(cyanobacteria) 모두에서 발견되는 지표로서, 녹조의 유해성을 Chl-a 수질 지표만을 사용하여 판단하기에는 한계가 있다. Chl-a뿐만 아니라 수질에 대한 유량, 온도, 영양염류 등의 영향 또한 기존 연구에서 밝혀진 바 있다. 하지만 기존의 물리기반의 결정론적모형은 수질의 추계학적(stochastic) 특성을 반영하는데 제한적이며, 다양한 수문기상학적 조건을 고려한 시나리오 기반의 분석을 수행하는데 한계가 있다. 따라서 본 연구에서는 특정 지점의 보 건설 이후 수문기상 자료를 이용하여 유해 남조류 개체수와 관계있는 수문기상학적 요인을 평가하고 최종적으로 Bayesian Poisson Regression 기반의 중·장기 녹조 예측 모형을 개발하였으며, 해설결과에 대한 불확실성 정보도 제공할 수 있도록 하였다.

  • PDF

Semiparametric Bayesian Regression Model for Multiple Event Time Data

  • Kim, Yongdai
    • Journal of the Korean Statistical Society
    • /
    • 제31권4호
    • /
    • pp.509-518
    • /
    • 2002
  • This paper is concerned with semiparametric Bayesian analysis of the proportional intensity regression model of the Poisson process for multiple event time data. A nonparametric prior distribution is put on the baseline cumulative intensity function and a usual parametric prior distribution is given to the regression parameter. Also we allow heterogeneity among the intensity processes in different subjects by using unobserved random frailty components. Gibbs sampling approach with the Metropolis-Hastings algorithm is used to explore the posterior distributions. Finally, the results are applied to a real data set.

Semiparametric Kernel Poisson Regression for Longitudinal Count Data

  • Hwang, Chang-Ha;Shim, Joo-Yong
    • Communications for Statistical Applications and Methods
    • /
    • 제15권6호
    • /
    • pp.1003-1011
    • /
    • 2008
  • Mixed-effect Poisson regression models are widely used for analysis of correlated count data such as those found in longitudinal studies. In this paper, we consider kernel extensions with semiparametric fixed effects and parametric random effects. The estimation is through the penalized likelihood method based on kernel trick and our focus is on the efficient computation and the effective hyperparameter selection. For the selection of hyperparameters, cross-validation techniques are employed. Examples illustrating usage and features of the proposed method are provided.

Marginal Likelihoods for Bayesian Poisson Regression Models

  • Kim, Hyun-Joong;Balgobin Nandram;Kim, Seong-Jun;Choi, Il-Su;Ahn, Yun-Kee;Kim, Chul-Eung
    • Communications for Statistical Applications and Methods
    • /
    • 제11권2호
    • /
    • pp.381-397
    • /
    • 2004
  • The marginal likelihood has become an important tool for model selection in Bayesian analysis because it can be used to rank the models. We discuss the marginal likelihood for Poisson regression models that are potentially useful in small area estimation. Computation in these models is intensive and it requires an implementation of Markov chain Monte Carlo (MCMC) methods. Using importance sampling and multivariate density estimation, we demonstrate a computation of the marginal likelihood through an output analysis from an MCMC sampler.

식중독 발생 예측모형 (Models for forecasting food poisoning occurrences)

  • 여인권
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권6호
    • /
    • pp.1117-1125
    • /
    • 2012
  • 식중독 발생에 대한 기존 연구에서는 기온과 습도와 같은 기후변수가 주된 설명변수로 취급되어 왔다. 이 논문에서는 주별 식중독 발생건수와 기후변수 간에 관계를 고찰하고 식중독 발생건수를 예측하기 위한 모형으로 포아송 회귀모형과 자기회귀이동평균모형을 비교한다. 비교결과 우리나라 식중독 발생은 시차를 두고 기후 변수에 영향을 많이 받고 있으나 식중독 발생 예측은 이들 변수보다 이전 시점의 식중독 발생 건수에 더 많이 영향을 받는 것으로 나타났으며 포아송 회귀모형은 예측의 관점에서 문제가 있음을 보였다.