• 제목/요약/키워드: 과대산포 자료

검색결과 16건 처리시간 0.024초

과대산포 가산자료의 새로운 표본선택모형 (A new sample selection model for overdispersed count data)

  • 조성은;조준;김형문
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.733-749
    • /
    • 2018
  • 어떠한 연구에서 관심의 대상이 되는 관찰치가 부분적으로 관측 가능할 때 표본선택의 문제가 일어난다. 이러한 자료를 분석하기 위해 헤크만은 표본선택 모형을 개발하였고 이변량 정규분표의 가정 하에 최대우도방법을 사용하여 모수를 추정하였다. 최근 이항자료와 포아송 자료에 대한 표본선택모형이 제안되었다. 이를 분포조정에 기초하여 과대산포 자료에 대한 모형으로 확장하고자 한다. 표본선택이 없는 과대산포 자료는 흔히 음이항 분포로 분석되어진다. 따라서 음이항 분포를 이용하고 분포조정을 도입한 과대산포 자료에 대한 새로운 모형을 제시하고자 한다. 실제 자료를 이용하여 분석을 하였다. 모의실험 결과 프로파일 우도함수를 이용하여 모수에 대해 추정한 결과는 안정적이다.

제로팽창 모형을 이용한 보험데이터 분석 (A Zero-Inated Model for Insurance Data)

  • 최종후;고인미;전수영
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.485-494
    • /
    • 2011
  • 계수(Count) 데이터는 반응변수가 음이 아닌 계수로, 자동차 사고건수나 지진이 일어난 횟수, 보험처리 발생건수 등을 말한다. 이런 경우에는 주로 포아송 회귀모형을 사용하지만, 평균과 분산이 동일한 경우만 이용될 수 있다는 제약이 따른다. 실증적 자료에서는 그룹 간 이질성으로 인해 분산이 매우 큰 과대산포(Overdispersion) 현상을 볼 수 있는데, 이를 무시할 경우 회귀계수나 표준오차가 편의되는 현상이 발생한다. 보험은 보장성 개념이 강하기 때문에 실제로 보험처리가 발생하지 않는 경우가 많아, 보험처리 건수에 '0'값이 있을 수 있다. 본 논문에서는 '0'값이 많은 자료의 분석을 위해 제로팽창 모형(Zero-Inflated Model)을 고려하고, 여러 모형들의 효율성을 실증자료를 통하여 비교하였다. 실증 자료 분석 결과, 과대산포와 제로팽창 현상이 존재하는 자료에서 제로팽창 음이항 모형(Zero-Inflated Negative Binomial Regression Model)이 가장 효율적인 모형임을 보여 주었다.

영 변환 모형 산포형태모수와 두 적합도 검정통계량 사이의 유사성 비교 (Similarity between the dispersion parameter in zero-altered model and the two goodness-of-fit statistics)

  • 윤유정;김홍기
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.493-504
    • /
    • 2017
  • 통계청 인구총조사의 출생아 수 자료는 우리가 쉽게 접할 수 있는 가산 자료이며 국가경쟁력 제고를 위한 정부의 출산정책 결정 및 그 기대효과 분석의 기반이 되는 자료이다. 출생아 수 자료 분석에 있어서 포아송 모형 등 가산 모형이 우월하다는 선행 연구결과에 의하여 가산 모형을 통한 자료 분석방법이 활용되고 있다. 이 때 가산 모형에서 가장 많이 사용하는 포아송 모형은 균등상포라는 제한적인 가정을 토대로 하기 때문에 출생아 수 자료 분석에 이 포아송 모형을 그대로 적용한다면 정보의 손실과 편향추정을 피할 수 없게 된다. 이러한 한계를 극복하기 위해 Ghosh 와 Kim (2007)은 영 과잉과 부족으로 인한 과대산포와 과소산포를 동시에 설명할 수 있는 영 변환 모형 (zero-altered model)을 제안하였다. 본 논문에서는 Ghosh 와 Kim (2007)의 영 변환 모형을 적용하여 실제 출생아수분포에서 영 변환 모형의 산포형태모수 ${\delta}$를 도출하고 그 역할에 대하여 분석한다. 그리고 관측분포에서의 산포형태모수 ${\delta}$와 이론적분포와의 차이를 비교하기 위한 적합도 검정통계량과의 유사성을 확인한다.

서로 다른 산포를 허용하는 이변량 영과잉 음이항 회귀모형 (Bivariate Zero-Inflated Negative Binomial Regression Model with Heterogeneous Dispersions)

  • 김동석;정슬기;이동희
    • Communications for Statistical Applications and Methods
    • /
    • 제18권5호
    • /
    • pp.571-579
    • /
    • 2011
  • 본 연구에서는 두 반응 변수에 서로 다른 산포를 허용하는 새로운 이변량 영과잉 음이항 회귀모형을 제안하고, Deb과 Trivedi (1997)에 나타난 헬스케어 자료를 이용하여 두 반응변수가 갖는 서로 다른 산포도를 무시한 Wang (2003)이 제안한 이변량 영과잉 음이항 회귀모형과의 효율성을 로그우도와 AIC의 관점에서 비교 하였다. 모형적합결과, 본 연구에서 제안한 모형이 모형선택기준 관점에서 기존모형에 비하여 월등히 우수한 결과를 보여주었다.

모형 선택에서의 수정된 AIC 사용에 대하여 (Using the corrected Akaike's information criterion for model selection)

  • 송은정;원성호;이우주
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.119-133
    • /
    • 2017
  • 이미 corrected Akaike's information criterion(AICc)가 AIC에 비해 우수한 이론적 성질을 가진 것으로 알려져 있으나, 현재 실제 자료분석에서 최적의 예측 모형을 선택하기 위해 가장 널리 사용되는 정보기준은 여전히 Akaike's information criterion(AIC)이다. 이것은 AICc를 사용함으로써 실제 우리가 어떠한 종류의 이점을 얻을 수 있는가에 대해 논의하고 있는 연구가 부족해서이다. 우리는 이 논문에서 수치 연구를 통해 AIC와 AICc의 성능을 비교하고 AICc 의 사용이 가져오는 장점에 대해 확인을 할 것이다. 또한, 포아송 또는 이항 분포 자료 분석에서 과대산포(overdispersion) 현상이 나타난 경우 사용하는 quasi Akaike's information criterion(QAIC)와 corrected quasi Akaike's information criterion(QAICc) 성능에 대해서도 시뮬레이션을 통해 비교해보고자 한다.

이변량 조건부자기회귀모형을이용한강력범죄자료분석 (Analysis of Violent Crime Count Data Based on Bivariate Conditional Auto-Regressive Model)

  • 최정순;박만식;원유복;김학열;허태영
    • Communications for Statistical Applications and Methods
    • /
    • 제17권3호
    • /
    • pp.413-421
    • /
    • 2010
  • 본 연구에서는 5대 범죄중 사람의 생명과 신체에 심각한 위해를 가하는 강력범죄인 살인과 강도 범죄의 이변량 가산자료에 대해 이변량조건부자기회귀모형을 사용하여 공간상관성을 반영한 강력범죄모형을 제안하였다. 범죄자료와 같은 가산자료에 대한 과대산포 검정을 위해 우도비 검정 실시하였으며, 그 결과 과대산포가 유의하지 않음에 따라 공간포아송모형을 이용하였다. 실증예제로 2007년 서울시에서 제공하는 25개 자치구별 강력범죄자료를 지리정보시스템을 이용하여 강력범죄 발생실태를 시각화하였으며 강력범죄에 영향을 주는 다양한 요인들에 대하여 분석을 실시하였다.

영과잉 및 허들 회귀모형을 이용한 과학화 전투훈련 자료 분석 (Analysis of scientific military training data using zero-inflated and Hurdle regression)

  • 김재오;방성완;권오정
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권6호
    • /
    • pp.1511-1520
    • /
    • 2017
  • 본 연구는 과학과 전투훈련 자료를 분석하여 작전 및 군사훈련 방법을 향상하고 필요한 군사교리를 검증하기 위한 것이다. 우리는 과학화 전투훈련 중 대대급 공격작전에 대해 개별 전투원이 공격작전간 개인 화기를 이용하여 적을 중상 이상의 전투불능 상태로 만든 인원수를 반응변수로 둔다. 본 연구의 반응변수는 영이 지나치게 많이 관측되어 전통적인 일반화 선형모형에서 분석이 제한된다. 우리는 과대산포 및 영이 과도하게 관측된 점을 고려하여 영과잉 회귀모형과 허들 회귀모형을 자료에 적합하여 분석한다. 우리의 분석 결과는 대한민국 육군의 보병대대와 같은 소부대의 다양한 작전 및 전술적 요인에 대한 분석과 전술제대의 군사교리 검증함에 있어 적절한 참고자료로 활용될 수 있다.

Ghosh와 Kim 모수 δ의 영향함수 유도 및 확인 (Derivation and verification of influence function on parameter δ proposed by Ghosh and Kim)

  • 김민정;김홍기
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.529-538
    • /
    • 2017
  • Ghosh와 Kim에 의해 소개된 영 변환 모형은 0이 많거나 적을 때 계수형 자료(count data)를 분석하는 모형이다. 이 모형의 산포형태모수는 평균과 분산, 0 확률로 구성되며 ${\mu}$${\sigma}^2$의 관계에 따라 2가지 형태를 가진다. 본 논문에서는 ${\sigma}^2{\geq}{\mu}$일 때, Ghosh와 Kim 영 변환확률 모형의 모수 ${\delta}$에 대한 영향함수를 도출하였다. 도출한 영향함수의 타당성을 검증하기 위해서 인구주택총조사 자료를 이용해 관측치가 제거된 경우에서 영향함수로 도출한 ${\delta}$ 추정치 변화값과 직접 계산한 ${\delta}$ 추정치 변화값을 비교하였다. 그 결과 영향함수는 ${\delta}$의 변화를 매우 정확히 추정하였다.

GLM 날씨 발생기를 이용한 서울지역 일일 기온 모형 (A Modeling of Daily Temperature in Seoul using GLM Weather Generator)

  • 김현정;도해영;김용구
    • 응용통계연구
    • /
    • 제26권3호
    • /
    • pp.413-420
    • /
    • 2013
  • 확률적 날씨 발생기(Stochastic weather generator)는 일일 날씨를 생성하는데 일반적으로 사용되는 방법으로 최근에는 일반화선형모형에 기초한 확률적 날씨 발생 방법이 제안되었다. 본 논문에서는 서울지역의 일일 기온을 모형화하하기 위해서 일반화선형모형에 기초한 확률적 날씨 발생기를 고려하였다. 이 모형에서는 계절성을 나타내는 변수와 강우발생 유무가 공변수로 사용되었다. 일반적으로 확률적 날씨 발생기에서는 생성된 일일 날씨가 월별 또는 계절별 총강우량이나 평균온도에 충분한 변동을 만들어 내지 못하는 과대산포 현상이 발생하는데, 이러한 한계를 극복하기 위해 본 연구에서는 평활된 계절별 평균 온도를 일반화선형모형의 공변수로 추가하였다. 그리고 제안된 모형을 1961년부터 2011년까지 51년 동안의 서울지역 일일 평균 기온자료에 적용하였다.

영과잉 음이항회귀 모형을 이용한 보험설계사들의 이직횟수 적합 (Fit of the number of insurance solicitor's turnovers using zero-inflated negative binomial regression)

  • 전희주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1087-1097
    • /
    • 2017
  • 본 연구는 계수자료 (count data)를 반응변수로 갖는 포아송회귀 모형, 음이항회귀 모형, 영과잉 포아송회귀 모형, 영과잉 음이항회귀 모형의 4 모형의 비교를 통해 보험 설계사들의 이직횟수 적합을 위한 최적모형을 찾고자 한다. 보험설계사 이직횟수의 분산이 평균보다 큰 과대산포가 존재하고 0인 경우의 비중이 높을 경우에 영과잉 음이항회귀 모형을 적합하는 것이 타당함을 보여주고 보험 설계사들의 이직횟수에 영향을 주는 요인을 규명하고자 한다. 로그우도값, AIC, SBC 등을 고려하여 보험설계사 이직횟수 적합을 최적의 모형은 영과잉 이항모형과 음이항회귀모형의 결합인 영과잉 음이항 모형이 선택되었다. 영과잉 이항모형에 포함된 변수로는 성별, 총 보험설계사 근무연월, 교차모집 설계사 등록, 보유고객 수, 소속회사 유형이었고, 음이항회귀 모형에 포함된 변수로는 직무만족, 조직몰입, 채널경영만족, 총 보험설계사 근무연월, 현 직장에서 근무연월, 소속회사 유형이었다. 영과잉 음이항회귀 모형의 적합결과, 이직횟수에 유의한 영향을 주는 요인으로는 현 직장에서 근무연월, 총 보험설계사 근무연월, 소속회사 유형, 채널경영만족, 직무만족 순으로 나타났다.