• 제목/요약/키워드: Count 모형

검색결과 107건 처리시간 0.023초

영과잉 경시적 가산자료 분석을 위한 허들모형 (Hurdle Model for Longitudinal Zero-Inflated Count Data Analysis)

  • 진익태;이근백
    • 응용통계연구
    • /
    • 제27권6호
    • /
    • pp.923-932
    • /
    • 2014
  • 허들모형은 영이 과잉 가산자료를 분석하기 위해서 사용되어 왔다. 이 모형은 이산부분을 위한 로짓모형과 절삭된 가산부분을 위한 절삭된 포아송모형의 혼합모형이다. 이 논문에서 우리는 경시적 영과잉 가산자료를 분석하기 위해서 수정된 콜레스키 분해을 이용하여 일반적인 이분산성을 가지는 변량효과 공분산행렬을 제안한다. 수정된 콜레스키 분해는 변량효과 공분산행렬을 일반화자기상관 모수와 혁신분산모수로 분리되면, 이러한 모수들은 베이지안 일반화 선형모형을 통해 추정된다. 그리고 실제 자료분석을 통하여 설명한다.

계수 시계열을 위한 정수값 GARCH 모델링: 사례분석 (Integer-Valued GARCH Models for Count Time Series: Case Study)

  • 윤재은;황선영
    • 응용통계연구
    • /
    • 제28권1호
    • /
    • pp.115-122
    • /
    • 2015
  • 본 연구에서는 정수값을 갖는 계수 시계열의 조건부 이차적률인 변동성(volatility)을 다루고 있다. 여러 가지 정수값 GARCH, 즉, INGARCH 모형들을 소개하고 계수 시계열인 국내 풍진발생건수에 적용시켜 보았다. 과산포(over-dispersion)와 영과잉(zero-inflation)현상을 계수 시계열의 변동성 분석 입장에서 살펴보았고 향후 분석 모형으로서 영과잉(zero-inflation) INGARCH 모형인 ZI-INGARCH 모형을 살펴보았다.

제로팽창 모형을 이용한 보험데이터 분석 (A Zero-Inated Model for Insurance Data)

  • 최종후;고인미;전수영
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.485-494
    • /
    • 2011
  • 계수(Count) 데이터는 반응변수가 음이 아닌 계수로, 자동차 사고건수나 지진이 일어난 횟수, 보험처리 발생건수 등을 말한다. 이런 경우에는 주로 포아송 회귀모형을 사용하지만, 평균과 분산이 동일한 경우만 이용될 수 있다는 제약이 따른다. 실증적 자료에서는 그룹 간 이질성으로 인해 분산이 매우 큰 과대산포(Overdispersion) 현상을 볼 수 있는데, 이를 무시할 경우 회귀계수나 표준오차가 편의되는 현상이 발생한다. 보험은 보장성 개념이 강하기 때문에 실제로 보험처리가 발생하지 않는 경우가 많아, 보험처리 건수에 '0'값이 있을 수 있다. 본 논문에서는 '0'값이 많은 자료의 분석을 위해 제로팽창 모형(Zero-Inflated Model)을 고려하고, 여러 모형들의 효율성을 실증자료를 통하여 비교하였다. 실증 자료 분석 결과, 과대산포와 제로팽창 현상이 존재하는 자료에서 제로팽창 음이항 모형(Zero-Inflated Negative Binomial Regression Model)이 가장 효율적인 모형임을 보여 주었다.

가산자료모형(Count Data Model)을 이용한 버스이용횟수추정에 관한 연구 (서울시 통근.통학자를 대상으로) (Count Data Model for The Estimation of Bus Ridership (Focusing on Commuters and Students in Seoul))

  • 문진수;김순관;임강원
    • 대한교통학회지
    • /
    • 제17권5호
    • /
    • pp.123-135
    • /
    • 1999
  • 개인교통수단의 선호로 인한 자가용 승용차의 급증은 서울시의 교통혼잡을 가중시키는 주요한 요인이 되고 있다. 이러한 서울시의 교통혼잡을 완화하기 위해서는 대중교통 중심의 교통체계가 구축되어야 하며 승용차 이용자를 대중교통수단으로 유인할 수 있는 대중교통 활성화정책이 필요하다. 이러한 인식하에 버스를 이용하는 통근 및 통학목적 통행자의 버스이용횟수에 대한 개별행태모형을 통하여 버스 이용에 영향을 미치는 요인을 파악함으로써 승용차 이용자를 대중교통수단으로 유인할 수 있는 정책적인 시사점을 도출하고자 하였다. 본 연구의 목적은 일주일간 버스이용횟수 추정에 적합한 가산자료모형의 적용이다. 국내에서는 가산자료모형을 이용한 연구가 많지 않은 실정이며, 또한 모형의 설정시 과산포(overdispersion)에 대한 검정을 통하여 자료에 적합한 모형을 설정하는 것이 중요함에도 불구하고 적절한 검정없이 일반적으로 사용되고 있는 포와송 회귀모형을 주로 사용하여 왔다. 그러나 본 연구에서는 가산자료모형을 선정하기 전에 과산포에 대한 통계적인 검정을 시행한 결과 음이항 회귀모형이 본 연구의 자료에 적합한 것으로 판정되었으며, 모형설정의 중요성을 살펴보기 위하여 음이항 회귀모형을 이용하여 추정한 결과와 포와송 회귀모형을 이용하여 추정한 결과를 비교하여 보았다.

  • PDF

가산자료모형을 이용한 서해 태안군 유어객의 편익추정 (Estimating the Economic Value of Recreation Sea Fishing in the Yellow Sea: An Application of Count Data Model)

  • 최종두
    • 자원ㆍ환경경제연구
    • /
    • 제23권2호
    • /
    • pp.331-347
    • /
    • 2014
  • 본 연구는 서해에 위치한 태안군을 방문하는 유어객의 방문 편익을 분석하기 위하여 개별여행비용법과 가산자료모형을 이용하여 수요모형을 추정하고 경제적 가치를 측정하였다. 여행객방문속성을 감안하여 분석모형으로 포아송모형(Poisson Model, PM), 음이항모형(Negative Binomial, NB), 절단된 포아송모형(Truncated Poisson Model, TPM), 절단된 음이항모형(Truncated Negative Binomial, TNB)을 분석에 이용하였다. 분석결과 추정계수들은 통계적으로 유의하게 나타났으며, 경제이론에도 부합되는 결과를 도출하였다. 과산포(overdispersion)현상은 발견되지 않았으며, 모형적합도검정을 통하여 절단된 포아송모형이 적정모형으로 선정되었다. 또한, 서해 태안군 해역내 유어활동의 경제적가치를 추정하기 위하여 유어객의 연평균 출조횟수와 최적모형으로 선정된 절단된포아송모형(TPM)으로 분석한 결과 1인 1회 출조당 경제적 가치는 254,453원이며, 1인당 연간 총 경제적 가치는 1,536,896원으로 도출되었다.

계수형 시계열 모형을 위한 자동화 차수 선택 알고리즘 (Automatic order selection procedure for count time series models)

  • 지윤미;성병찬
    • 응용통계연구
    • /
    • 제33권2호
    • /
    • pp.147-160
    • /
    • 2020
  • 본 논문은 시계열 일반화 선형 모형의 하나인 계수형 시계열 모형에서 중요한 역할을 하는 과거 관측값과 조건부 평균값의 차수를 자동으로 결정하는 알고리즘을 연구한다. 본 알고리즘은 ARIMA 모형의 차수를 기반으로 시계열 일반화 선형 모형의 차수 후보군을 만들고, 차수 후보군의 조합을 이용하여 정보량 기준으로 최종 모형으로 선택한다. 제안된 알고리즘을 평가하기 위하여, 내재적 모형 및 내재적 시계열의 종류에 따른 시뮬레이션 및 실증 분석을 수행하고 예측력을 ARIMA 모형과 비교한다. 예측 성능 평가 결과, 계수형 시계열 분석에서 ARIMA 모형에 비해 시계열 일반화 선형 모형의 예측 성능이 우수함을 확인할 수 있다. 또한 실증분석으로서, 살인사건 발생 건수의 예측결과 ARIMA 모형보다 중기 및 장기 예측에서 우수한 성능을 나타내는 것을 확인할 수 있다.

경시적 영과잉 가산자료와 생존자료의 결합모형 (A joint modeling of longitudinal zero-inflated count data and time to event data)

  • 김동욱;천지훈
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1459-1473
    • /
    • 2016
  • 시간의 흐름에 따라 관측되는 경시적(longitudinal) 자료의 경우, 경시적 자료와 생존(survival) 자료가 종종 동시에 수집된다. 이 때 경시적 자료에서 발생하는 결측이 생존자료와의 연관성으로 인해 발생한 무시할 수 없는 결측(non-ignorable missing)이라면, 경시적 자료분석 방법만으로는 두 자료 간의 연관성을 고려하지 않아 독립변수에 대한 효과는 편향된 결과를 얻게 된다. 이러한 문제를 해결하기 위해서 결측의 원인이 생존시간과 연관되어 있으므로 생존모형을 고려하여 불편추정량을 얻기 위해 경시적 자료와 생존자료의 결합모형에 대한 연구가 이루어져 왔다. 본 논문은 경시적 자료의 형태가 영이 많이 존재하는 영과잉 가산자료(zero-inflated count data)와 생존자료의 결합모형을 연구하였다. 경시적 영과잉 가산자료와 생존자료는 각각 허들모형(hurdle model)과 비례위험모형(proportional hazards model)의 부 모형을 적용하였고, 두 부 모형들의 변량효과가 다변량 정규분포를 따른다는 가정을 통하여 결합하였다. 모수의 최우추정법으로 EM 알고리즘을 활용하였고, 추정된 표준오차를 계산하기 위해 프로파일 우도(profile likelihood)를 이용하였다. 최종적으로 모의실험을 통해 두 부 모형의 변량효과 간 상관관계가 존재하는 경우 결합모형이 개별적 모형보다 편의와 포함확률(coverage probability)의 측면에서 더 우수함을 보였다.

랜덤효과를 포함한 영과잉 포아송 회귀모형에 대한 베이지안 추론: 흡연 자료에의 적용 (A Bayesian zero-inflated Poisson regression model with random effects with application to smoking behavior)

  • 김연경;황범석
    • 응용통계연구
    • /
    • 제31권2호
    • /
    • pp.287-301
    • /
    • 2018
  • 0이 과도하게 많이 나타나는 자료는 여러 다양한 분야에서 흔히 볼 수 있다. 이러한 자료들을 분석할 때 대표적으로 영과잉 포아송 모형이 사용된다. 특히 반응변수들 사이에 상관관계가 존재할 때에는 랜덤효과를 영과잉 포아송 모형에 도입해서 분석해야 한다. 이러한 모형은 주로 빈도론자들의 접근방법으로 분석되어왔는데, 최근에는 베이지안 기법을 사용한 분석도 다양하게 발전되어 왔다. 본 논문에서는 반응변수들 사이에 상관관계가 존재하는 경우 랜덤효과가 포함된 영과잉 포아송 회귀모형을 베이지안 추론 방법을 토대로 제안하였다. 이 모형의 적합성을 판단하기 위해 모의 실험을 통해 랜덤효과를 고려하지 않은 모형과 비교 분석하였다. 또한, 실제 지역사회 건강조사 흡연 자료에 직접 응용하여 그 결과를 살펴보았다.

우리나라 가구의 자녀수 결정요인에 관한 Count 모형 분석 및 경제적 함의 (The Economic and Social Implication of Count Regression Models for Married Women's Completed Fertility in Korea)

  • 김현숙
    • 한국인구학
    • /
    • 제30권3호
    • /
    • pp.107-135
    • /
    • 2007
  • 본 연구에서는 우리나라 가구의 자녀수 결정요인을 Count 모형을 이용하여 분석하였다. 분석 기법으로는 자녀수가 감마(Gamma) count 분포를 따른다는 가정 하에 기본적인 회귀분석과 40세 이하 기혼여성의 완결출산에 대한 대리변수로 예상출산자녀수에 대한 회귀분석, 허들모형 그리고 기혼여성의 노동시장 참여와 자녀출산간의 내생성을 고려한 모형을 각각 이용하여 다각적인 방법론으로 출산결정요인을 분석하였다. 분석결과, 가구의 소득수준이 높을수록 40세 이상 기혼여성의 자녀수는 많은 것으로 나타나는 반면, $18{\sim}39$세 기혼여성의 경우에는 소득이 자녀수에 큰 영향을 미치지 못하는 것으로 보인다. 기혼여성의 경제활동참여는 39세 이하의 비교적 젊은 여성들에게서 출산 예상자녀수에 부정적인 영향을 주는 것을 뚜렷이 확인할 수 있고, 출산과 경제활동참여 간에는 내생성이 존재하는 것으로 확인되었다. 허들모형을 이용한 결과, 기혼여성의 학력은 자녀출산 여부에는 긍정적으로 작용할 수 있으나 자녀수 결정에는 부정적으로 작용하여 기혼여성 학력이 높을수록 출산율은 감소하게 된다. 다양한 회귀분석 결과에 근거할 때 Becker의 Quantity-Quality 모형의 핵심내용은 우리나라의 자녀수 결정에 있어서도 대체적으로 적용됨을 확인할 수 있다.

NHPP모형에 기초한 고장 수 자료의 분석 (Analysis of Failutr Count Data Based on NHPP Models)

  • 김성희;정향숙;김영순;박중양
    • 한국정보처리학회논문지
    • /
    • 제4권2호
    • /
    • pp.395-400
    • /
    • 1997
  • 소프트웨어 신뢰도는 소프트웨어의 중요한 품질 특성 중의 하나이며, 소프트웨어 신뢰도 성장 모형은 테스트 단계동안 신뢰도를 평가하고 신뢰도가 성장하는 양상을 파악 할 수 있는 도구이다. 그러므로 테스트 단계동안 수집된 고장 자료는 적절한 소프트웨어 신뢰도 모형에 의거해 계속적으로 분석된다. 비등질 포아송 과정 모형이 적절한 소프트웨어 신뢰도 성장 모형인 경우 고장 수 자료를 분석하기 위해서 포아송 희귀 모형을 세우고 모수들은 가장 최소 자승법으로 추정하는 것이 가능하며, 이렇게 구한 가장 최소 자승 추정량은 최우 추정량과 동일한 성질을 가짐을 보일 수 있다. 이 분석 방법을 대형 시스템으로부터 수집된 실제 자료를 분석하는데 적용한다.

  • PDF