• 제목/요약/키워드: count data model

검색결과 234건 처리시간 0.021초

Negative binomial loglinear mixed models with general random effects covariance matrix

  • Sung, Youkyung;Lee, Keunbaik
    • Communications for Statistical Applications and Methods
    • /
    • 제25권1호
    • /
    • pp.61-70
    • /
    • 2018
  • Modeling of the random effects covariance matrix in generalized linear mixed models (GLMMs) is an issue in analysis of longitudinal categorical data because the covariance matrix can be high-dimensional and its estimate must satisfy positive-definiteness. To satisfy these constraints, we consider the autoregressive and moving average Cholesky decomposition (ARMACD) to model the covariance matrix. The ARMACD creates a more flexible decomposition of the covariance matrix that provides generalized autoregressive parameters, generalized moving average parameters, and innovation variances. In this paper, we analyze longitudinal count data with overdispersion using GLMMs. We propose negative binomial loglinear mixed models to analyze longitudinal count data and we also present modeling of the random effects covariance matrix using the ARMACD. Epilepsy data are analyzed using our proposed model.

폴랴-감마 잠재변수에 기반한 베이지안 영과잉 음이항 회귀모형: 약학 자료에의 응용 (A Bayesian zero-inflated negative binomial regression model based on Pólya-Gamma latent variables with an application to pharmaceutical data)

  • 서기태;황범석
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.311-325
    • /
    • 2022
  • 0의 값을 과도하게 포함하는 가산자료는 다양한 연구 분야에서 흔히 나타난다. 영과잉 모형은 영과잉 가산자료를 분석하기 위해 가장 일반적으로 사용되는 모형이다. 영과잉 모형에 대한 전통적인 베이지안 추론은 조건부 사후분포의 형태가 폐쇄형 분포로 나타나지 않아 모형 적합 과정이 용이하지 않다는 한계점이 존재했다. 그러나 최근 Pillow와 Scott (2012)과 Polson 등 (2013)이 제안한 폴랴-감마 자료확대전략으로 인해, 로지스틱 회귀모형과 음이항 회귀모형에서 깁스 샘플링을 통한 추론이 가능해지면서, 영과잉 모형에 대한 베이지안 추론이 용이해졌다. 본 논문에서는 베이지안 추론에 기반한 영과잉 음이항 회귀모형을 Min과 Agresti(2005)에서 분석된 약학 연구 자료에 적용해본다. 분석에 사용된 자료는 경시적 영과잉 가산자료로 복잡한 자료 구조를 가지고 있다. 모형 적합 과정에서는 깁스 샘플링을 통한 추론을 수행하기 위해 폴랴-감마 자료확대전략을 사용한다.

영과잉 포아송 회귀모형에 대한 베이지안 추론: 구강위생 자료에의 적용 (Bayesian Analysis of a Zero-inflated Poisson Regression Model: An Application to Korean Oral Hygienic Data)

  • 임아경;오만숙
    • 응용통계연구
    • /
    • 제19권3호
    • /
    • pp.505-519
    • /
    • 2006
  • 셀 수 있는 이산 자료(discrete count data)에 대한 분석은 여러 분야에서 활용되고 있지만 영(zero)을 과도하게 포함하고 있는 영과잉 자료는 자료의 성격상 포아송 분포를 따르지 못할 때가 있어 분석에 어려움이 따른다. Zero-Inflated Poisson(ZIP)모형은 이런 어려움을 극복하기 위하여 영에 대한 점확률을 가지는 분포와 포아송 분포를 합성하여 과도한 영과 영이 아닌 자료를 설명하는 모형이다. 설명 변수가 존재할 때는 포아송 분포 부분에서 반응변수의 평균과 공변량사이에 로그선형 연결함수를 사용한 Zero-Inflated Poisson Regression(ZIPR)모형이 사용될 수 있다. 본 논문에서는 Markov Chain Monte Carlo 기법을 이용한 ZIPR모형의 베이지안 추론방법을 제안하고, 이를 실제 구강위생 자료에 적용하며 다른 모형들과 비교한다. 그 결과 베이지안 추론 방법을 적용한 영과잉 모형의 추정오차가 다른 모형들의 추정오차보다 작았고, 예측치가 더 정확했다는 점에서 우수함을 알 수 있었다.

Analysis of Marginal Count Failure Data by using Covariates

  • Karim, Md.Rezaul;Suzuki, Kazuyuki
    • International Journal of Reliability and Applications
    • /
    • 제4권2호
    • /
    • pp.79-95
    • /
    • 2003
  • Manufacturers collect and analyze field reliability data to enhance the quality and reliability of their products and to improve customer satisfaction. To reduce the data collecting and maintenance costs, the amount of data maintained for evaluating product quality and reliability should be minimized. With this in mind, some industrial companies assemble warranty databases by gathering data from different sources for a particular time period. This “marginal count failure data” does not provide (i) the number of failures by when the product entered service, (ii) the number of failures by product age, or (iii) information about the effects of the operating season or environment. This article describes a method for estimating age-based claim rates from marginal count failure data. It uses covariates to identify variations in claims relative to variables such as manufacturing characteristics, time of manufacture, operating season or environment. A Poisson model is presented, and the method is illustrated using warranty claims data for two electrical products.

  • PDF

가산자료(count data)의 과산포 검색: 일반화 과정 (Overdispersion in count data - a review)

  • 김병수;오경주;박철용
    • 응용통계연구
    • /
    • 제8권2호
    • /
    • pp.147-161
    • /
    • 1995
  • 생검실험에서는 다산을 통해 번식하는 쥐와 같은 설치류 동물들을 실험대상으로 하여 이항분포나 포아송분포 하에서 가산자료(count data)를 많이 생성한다. 다산을 통해 태어난 동물들을 독립적인 실험대상으로 간주하여 자료분석을 하면, 同腹仔 효과로 인해 기존의 평균과 분산사이의 관계를 벗어나는 과산포현상이 종종 나타난다. 이러한 현상을 무시했을 때 모수추정치에 대한 분산을 과소추정하고, 이로 인하여 가설검정에서 낮은 검정력을 갖게 된다. 이러한 문제점을 해결하기 위하여 최근 10년간 과산포현상을 검색하는 통계량들과 과산포를 반영하는 모형들이 제시되었는데, 이를 개관하고 이러한 절차들의 일반화 과정을 자료 유형별로 비교분석한다.

  • PDF

가산자료 모형을 이용한 국내 원형교차로 유형별 교통사고 분석 (Analysis of Traffic Accident by Circular Intersection Type in Korea Using Count Data Model)

  • 김태양;이민영;박병호
    • 한국안전학회지
    • /
    • 제32권5호
    • /
    • pp.129-134
    • /
    • 2017
  • This study aims to develop the traffic accident models by circular intersection type using count data model. The number of accident, the number of fatal and injured persons(FSI), and EPDO are calculated from the traffic accident data of TAAS. The circular intersection accident models are developed through Poisson and negative binomial regression analysis. The main results of this study are as follows. First, the null hypotheses that there are differences in the number of traffic accidents, FSI and EPDO by type of circular intersections are rejected. Second, the scale of intersection(median, large), number of approach road, mean width and length of exit road, area of the circulating roadway and central island are selected as factors influencing the number of traffic accidents, FSI and EPDO in rotary. Third, the scale of intersection(median), guide signs(limited speed, direction, roundabout), number of approach road, entry angle, area of the intersection and central island are adopted as factors influencing the number of traffic accidents, FSI and EPDO in roundabout. Finally, transferring from rotary to roundabout could be expected to make the accident decrease.

과대산포 가산자료의 새로운 표본선택모형 (A new sample selection model for overdispersed count data)

  • 조성은;조준;김형문
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.733-749
    • /
    • 2018
  • 어떠한 연구에서 관심의 대상이 되는 관찰치가 부분적으로 관측 가능할 때 표본선택의 문제가 일어난다. 이러한 자료를 분석하기 위해 헤크만은 표본선택 모형을 개발하였고 이변량 정규분표의 가정 하에 최대우도방법을 사용하여 모수를 추정하였다. 최근 이항자료와 포아송 자료에 대한 표본선택모형이 제안되었다. 이를 분포조정에 기초하여 과대산포 자료에 대한 모형으로 확장하고자 한다. 표본선택이 없는 과대산포 자료는 흔히 음이항 분포로 분석되어진다. 따라서 음이항 분포를 이용하고 분포조정을 도입한 과대산포 자료에 대한 새로운 모형을 제시하고자 한다. 실제 자료를 이용하여 분석을 하였다. 모의실험 결과 프로파일 우도함수를 이용하여 모수에 대해 추정한 결과는 안정적이다.

전화통화 빅데이터 분석에 관한 연구 (A Study on Phon Call Big Data Analytics)

  • 김정래;정찬기
    • 정보화연구
    • /
    • 제10권3호
    • /
    • pp.387-397
    • /
    • 2013
  • 본 연구는 전화통화에 의해 생성된 데이터에 대한 빅데이터 분석 접근을 제안한다. 전화통화 데이터의 분석모형은 자연어의 어휘식별을 위한 PVPF(Parallel Variable-length Phrase Finding) 알고리즘과 키워드의 사용빈도 측정을 위한 워드 카운트 알고리즘으로 구성된다. 제안한 분석모형에서는 먼저 PVPF 알고리즘에 의해 연계 단어 추출을 통해 어휘를 식별하며, MapReduce의 워드 카운트 알고리즘을 사용하여 식별된 어휘 및 단어의 사용빈도를 측정한다. 그 결과는 다양한 관점에서 해석될 수 있다. 제안 분석모형의 효과성을 보이기 위해 HDFS(Hadoop Distributed File System)를 기반으로 분석모형을 설계 구현하였으며, 전화통화 데이터를 실험 적용한다. 실험결과, 키워드 상관관계 분석 및 사용빈도 변화 분석을 통해 유의미한 결과를 도출한다.

Likelihood-Based Inference on Genetic Variance Component with a Hierarchical Poisson Generalized Linear Mixed Model

  • Lee, C.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제13권8호
    • /
    • pp.1035-1039
    • /
    • 2000
  • This study developed a Poisson generalized linear mixed model and a procedure to estimate genetic parameters for count traits. The method derived from a frequentist perspective was based on hierarchical likelihood, and the maximum adjusted profile hierarchical likelihood was employed to estimate dispersion parameters of genetic random effects. Current approach is a generalization of Henderson's method to non-normal data, and was applied to simulated data. Underestimation was observed in the genetic variance component estimates for the data simulated with large heritability by using the Poisson generalized linear mixed model and the corresponding maximum adjusted profile hierarchical likelihood. However, the current method fitted the data generated with small heritability better than those generated with large heritability.

자연휴양지 방문편익 추정모형의 비교 연구 - 영산강 하구를 대상으로 (A Comparative Study on Estimation Models for the Value of Access to a Natural Recreation Site: Focusing on the Estuary Area of Yeongsan River)

  • 신영철
    • 자원ㆍ환경경제연구
    • /
    • 제21권4호
    • /
    • pp.981-998
    • /
    • 2012
  • 이 논문에서는 영산강 하구 방문객을 대상으로 하여 자연휴양지의 수요함수를 추정하여 방문 편익을 도출하기 위해 카운트 자료 모형(count data model)을 적용하였다. 여행지 방문객 자료의 속성을 고려할 때, 포와송 모형의 경우 평균과 분산이 동일하다는 제약적 가정에 의한 과도분산(overdispersion) 속성의 왜곡과 더불어 자료의 1에서 절단 속성을 고려하지 않는 경우의 왜곡이 문제가 된다. 실증 분석 결과에 따르면 방문객 자료의 속성은 반영하는 절단 음이항(truncated negative binomial) 모형이 고려한 모형 중에서 최적이고, 그 모형에 의해 도출된 영산강 하구 1회 방문 편익(즉, 소비자 잉여)는 전라권 거주자들의 경우 89,350원이며, 비전라권 거주자의 경우는 432,526원으로 전라권 거주자의 4.8배 수준이었다. 또한 과도분산의 속성을 반영하지 못하는 포와송 모형으로부터 추정된 영산강 하구의 방문 편익(소비자 잉여)은 과소평가되며, 절단의 속성을 고려하지 못하는 경우의 모형으로부터 추정된 영산강 하구의 방문 편익은 과대평가되는 경향도 확인할 수 있었다. 그러므로 단일 휴양지 방문객에 대한 자료로부터 여행수요 함수 및 방문 편익을 추정하기 위해서는 절단 음이항 회귀모형이 적용되어야 한다.

  • PDF