• 제목/요약/키워드: Count Variable

검색결과 118건 처리시간 0.022초

Bayesian Parameter :Estimation and Variable Selection in Random Effects Generalised Linear Models for Count Data

  • Oh, Man-Suk;Park, Tae-Sung
    • Journal of the Korean Statistical Society
    • /
    • 제31권1호
    • /
    • pp.93-107
    • /
    • 2002
  • Random effects generalised linear models are useful for analysing clustered count data in which responses are usually correlated. We propose a Bayesian approach to parameter estimation and variable selection in random effects generalised linear models for count data. A simple Gibbs sampling algorithm for parameter estimation is presented and a simple and efficient variable selection is done by using the Gibbs outputs. An illustrative example is provided.

가변 진폭 임계값을 이용한 걸음수 검출 정확도 향상 기법 (Accuracy Improvement Methode of Step Count Detection Using Variable Amplitude Threshold)

  • 류욱재;김은태;안경호;장윤석
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.257-264
    • /
    • 2013
  • 본 연구에서는 3축 가속도 측정을 위한 LSM을 개발하고 가변 진폭을 이용하여 걸음수 검출 정확도를 향상시킨 가변 진폭 임계값 알고리즘을 설계하였다. 테스트 프로토콜에 따라 실험하여 수집한 x, y, z 값을 SVM(Signal Vector Magnitude) 알고리즘을 사용하여 하나의 에너지값($E_t$)으로 변환하고 Peak 데이터 검출 알고리즘과 고정 Peak 임계값을 사용하여 평균 99%이상의 정확도로 걸음수를 검출하였다. 그러나 검출한 걸음이 정확한 걸음임을 증명하기 위해 에너지값($E_t$)의 진폭 크기로부터 고정 진폭 임계값을 구하고 노이즈를 필터링 한 결과 걸음수 검출 오차율이 증가하였다. 따라서 본 연구에서는 오차율을 줄이기 위하여 고정 진폭 임계값이 아닌 데이터를 관찰하여 적응적으로 변화하는 가변 진폭 임계값 알고리즘을 설계하였다. 가변 진폭 임계값 알고리즘을 적용한 결과, 걸음수 검출의 평균 정확도는 샘플링 주기 10Hz에서 평균 98.9%, 20Hz에서는 99.6%로 높아졌다.

온라인 리뷰의 감성과 독해 용이성이 리뷰 유용성에 미치는 영향: 가산형 리뷰 유용성 정보 활용 (The Effects of Sentiment and Readability on Useful Votes for Customer Reviews with Count Type Review Usefulness Index)

  • 루스 안젤리 크루즈;이홍주
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.43-61
    • /
    • 2016
  • 온라인 쇼핑몰의 상품에 대한 고객 리뷰는 구매자들의 구매 의사결정에 영향을 미치고 있으며 중요한 구전효과의 원천과 의사결정의 정보 원천의 역할을 하고 있다. 한 제품에 대한 리뷰가 무척 많기에 온라인 쇼핑몰들은 고객 리뷰 평가 방안을 도입하였고, 이를 통해 고객들에게 유용하리라고 판단되는 리뷰들을 걸러서 보여주거나 강조할 수 있게 되었다. 리뷰 평가 방안은 해당 리뷰가 도움이 되었는지 혹은 도움이 되지 않았는 지를 리뷰를 읽은 고객이 평가하게 하는 방안이다. Amazon.com은 고객 평가를 바탕으로 총 투표 수 중에서 유용하다는 투표 수의 비율을 리뷰 유용성 지표로 삼고 있으며, Yelp.com은 유용하다는 투표 수 자체를 유용성 지표로 삼고 있다. 본 연구는 고객 리뷰의 감성과 독해 용이성이 리뷰의 유용성에 미치는 영향을 파악하고자 한다. Amazon.com의 고객 리뷰 자료를 활용하여 비율형 유용성 지표를 종속변수로 하는 유사한 연구들이 수행되어 왔다. 본 연구에서는 Yelp.com의 리뷰 자료를 활용하여 가산형 리뷰 유용성 지표인 경우에도 동일한 효과가 존재하는지를 검토하고자 한다. Yelp.com의 음료와 음식 카테고리에 해당하는 업종에 대한 리뷰를 자료로 활용하였으며, 점포의 명성과 인기도 데이터를 파악할 수 있는 170,294개의 리뷰를 분석에 활용하였다. 분석결과는 리뷰의 긍정 정도는 유용 투표수를 늘리는데 음의 영향을 미쳤다. 평가가 긍정적인 리뷰에서는 음의 영향관계가 유의 하였으나, 평가가 부정적인 리뷰에서는 리뷰의 긍정 정도가 유용 투표 수에 미치는 영향은 유의하지 않았다. 독해 용이성은 리뷰가 읽기 어려울 수록 높은 값을 갖으며, 독해의 어려운 정도는 유용 투표수 획득에 음의 영향을 미쳤다. 독해 용이성은 긍정 리뷰, 부정 리뷰 관계없이 모두 음의 영향을 미치는 것으로 분석되었다. 이 결과는 유용 투표수가 0인 리뷰를 포함하여 영과잉 음이항 회귀분석을 수행한 경우와 유용 투표수가 0인 리뷰를 제외하고 음이항 회귀분석을 수행한 경우 모두 동일하게 파악되었다.

Effect of Lead Exposure on the Status of Reticulocyte Count Indices among Workers from Lead Battery Manufacturing Plant

  • Kalahasthi, Ravibabu;Barman, Tapu
    • Toxicological Research
    • /
    • 제32권4호
    • /
    • pp.281-287
    • /
    • 2016
  • Earlier studies conducted on lead-exposed workers have determined the reticulocyte count (RC) (%), but the parameters of Absolute Reticulocyte Count (ARC), Reticulocyte Index (RI), and Reticulocyte Production Index (RPI) were not reported. This study assessed the effect of lead (Pb) exposure on the status of reticulocyte count indices in workers occupied in lead battery plants. The present cross-sectional study was carried out on 391 male lead battery workers. The blood lead levels (BLL) were determined by using an Atomic Absorption Spectrophotometer. The RC (%) was estimated by using the supravital staining method. The parameters, such as ARC, RI, and RPI, were calculated by using the RC (%) with the red cell indices (RBC count and hematocrit). The levels of RBC count and hematocrit were determined by using an ABX Micros ES-60 hematology analyzer. The levels of reticulocyte count indices - RC (%), ARC, RI, and RPI significantly increased with elevated BLL. The association between BLL and reticulocyte count indices was positive and significant. The results of linear multiple regression analysis showed that the reticulocyte count (${\beta}=0.212$, P < 0.001), ARC (${\beta}=0.217$, P < 0.001), RI (${\beta}=0.194$, P < 0.001), and RPI (${\beta}=0.208$, P < 0.001) were positively associated with BLL. The variable, smoking habits, showed a significant positive association with reticulocyte count indices: RC (%) (${\beta}=0.188$, P < 0.001), ARC (${\beta}=0.174$, P < 0.001), RI (${\beta}=0.200$, P < 0.001), and RPI (${\beta}=0.151$, P < 0.005). The study results revealed that lead exposure may cause reticulocytosis with an increase of reticulocyte count indices.

토빗모형을 이용한 가로구간 보행자 사고모형 개발 (Developing the Pedestrian Accident Models Using Tobit Model)

  • 이승주;김윤환;박병호
    • 한국도로학회논문집
    • /
    • 제16권3호
    • /
    • pp.101-107
    • /
    • 2014
  • PURPOSES : This study deals with the pedestrian accidents in case of Cheongju. The goals are to develop the pedestrian accident model. METHODS : To analyze the accident, count data models, truncated count data models and Tobit regression models are utilized in this study. The dependent variable is the number of accident. Independent variables are traffic volume, intersection geometric structure and the transportation facility. RESULTS : The main results are as follows. First, Tobit model was judged to be more appropriate model than other models. Also, these models were analyzed to be statistically significant. Second, such the main variables related to accidents as traffic volume, pedestrian volume, number of Entry/exit, number of crosswalk and bus stop were adopted in the above model. CONCLUSIONS : The optimal model for pedestrian accidents is evaluated to be Tobit model.

Weighted zero-inflated Poisson mixed model with an application to Medicaid utilization data

  • Lee, Sang Mee;Karrison, Theodore;Nocon, Robert S.;Huang, Elbert
    • Communications for Statistical Applications and Methods
    • /
    • 제25권2호
    • /
    • pp.173-184
    • /
    • 2018
  • In medical or public health research, it is common to encounter clustered or longitudinal count data that exhibit excess zeros. For example, health care utilization data often have a multi-modal distribution with excess zeroes as well as a multilevel structure where patients are nested within physicians and hospitals. To analyze this type of data, zero-inflated count models with mixed effects have been developed where a count response variable is assumed to be distributed as a mixture of a Poisson or negative binomial and a distribution with a point mass of zeros that include random effects. However, no study has considered a situation where data are also censored due to the finite nature of the observation period or follow-up. In this paper, we present a weighted version of zero-inflated Poisson model with random effects accounting for variable individual follow-up times. We suggested two different types of weight function. The performance of the proposed model is evaluated and compared to a standard zero-inflated mixed model through simulation studies. This approach is then applied to Medicaid data analysis.

전화통화 빅데이터 분석에 관한 연구 (A Study on Phon Call Big Data Analytics)

  • 김정래;정찬기
    • 정보화연구
    • /
    • 제10권3호
    • /
    • pp.387-397
    • /
    • 2013
  • 본 연구는 전화통화에 의해 생성된 데이터에 대한 빅데이터 분석 접근을 제안한다. 전화통화 데이터의 분석모형은 자연어의 어휘식별을 위한 PVPF(Parallel Variable-length Phrase Finding) 알고리즘과 키워드의 사용빈도 측정을 위한 워드 카운트 알고리즘으로 구성된다. 제안한 분석모형에서는 먼저 PVPF 알고리즘에 의해 연계 단어 추출을 통해 어휘를 식별하며, MapReduce의 워드 카운트 알고리즘을 사용하여 식별된 어휘 및 단어의 사용빈도를 측정한다. 그 결과는 다양한 관점에서 해석될 수 있다. 제안 분석모형의 효과성을 보이기 위해 HDFS(Hadoop Distributed File System)를 기반으로 분석모형을 설계 구현하였으며, 전화통화 데이터를 실험 적용한다. 실험결과, 키워드 상관관계 분석 및 사용빈도 변화 분석을 통해 유의미한 결과를 도출한다.

A Modified Computing Algorithm for Raking Ratio Estimation Subject to Partial Marginal Information

  • Son, Chang Kyoon
    • Communications for Statistical Applications and Methods
    • /
    • 제11권2호
    • /
    • pp.419-433
    • /
    • 2004
  • We suggest the modified computing algorithm for raking ratio estimation under the assumption that the population total is partially known, and the sample total is completely known about survey variable in contingency table. We show that the proposed estimation procedure is useful to estimate the population cell count in this situation through an empirical study.

가산자료(count data)의 과산포 검색: 일반화 과정 (Overdispersion in count data - a review)

  • 김병수;오경주;박철용
    • 응용통계연구
    • /
    • 제8권2호
    • /
    • pp.147-161
    • /
    • 1995
  • 생검실험에서는 다산을 통해 번식하는 쥐와 같은 설치류 동물들을 실험대상으로 하여 이항분포나 포아송분포 하에서 가산자료(count data)를 많이 생성한다. 다산을 통해 태어난 동물들을 독립적인 실험대상으로 간주하여 자료분석을 하면, 同腹仔 효과로 인해 기존의 평균과 분산사이의 관계를 벗어나는 과산포현상이 종종 나타난다. 이러한 현상을 무시했을 때 모수추정치에 대한 분산을 과소추정하고, 이로 인하여 가설검정에서 낮은 검정력을 갖게 된다. 이러한 문제점을 해결하기 위하여 최근 10년간 과산포현상을 검색하는 통계량들과 과산포를 반영하는 모형들이 제시되었는데, 이를 개관하고 이러한 절차들의 일반화 과정을 자료 유형별로 비교분석한다.

  • PDF

Threshold-asymmetric volatility models for integer-valued time series

  • Kim, Deok Ryun;Yoon, Jae Eun;Hwang, Sun Young
    • Communications for Statistical Applications and Methods
    • /
    • 제26권3호
    • /
    • pp.295-304
    • /
    • 2019
  • This article deals with threshold-asymmetric volatility models for over-dispersed and zero-inflated time series of count data. We introduce various threshold integer-valued autoregressive conditional heteroscedasticity (ARCH) models as incorporating over-dispersion and zero-inflation via conditional Poisson and negative binomial distributions. EM-algorithm is used to estimate parameters. The cholera data from Kolkata in India from 2006 to 2011 is analyzed as a real application. In order to construct the threshold-variable, both local constant mean which is time-varying and grand mean are adopted. It is noted via a data application that threshold model as an asymmetric version is useful in modelling count time series volatility.