• 제목/요약/키워드: 이항반응변수

검색결과 27건 처리시간 0.03초

앙상블기법을 이용한 다양한 데이터마이닝 성능향상 연구 (A Study for Improving the Performance of Data Mining Using Ensemble Techniques)

  • 정연해;어수행;문호석;조형준
    • Communications for Statistical Applications and Methods
    • /
    • 제17권4호
    • /
    • pp.561-574
    • /
    • 2010
  • 본 논문은 8가지 방법의 데이터 마이닝 알고리즘(CART, QUEST, CRUISE, 로지스틱 회귀분석, 선형판별분석, 이차판별분석, 신경망분석, 서포트 벡터 머신) 기법과 단일 알고리즘에 2가지 앙상블기법(배깅, 부스팅)을 적용한 16가지 방법을 바탕으로 총 24가지의 방법을 비교하였다. 알고리즘의 성능 비교를 위하여 13개의 이항반응변수로 구성된 데이터를 사용하였다. 비교 기준은 민감도, 특이도 및 오분류율을 사용하여 데이터 마이닝 기법의 성능향상에 대해 평가하였다.

제로팽창 음이항 회귀모형에 대한 베이지안 추론 (Bayesian Inference for the Zero In ated Negative Binomial Regression Model)

  • 심정숙;이동희;정병철
    • 응용통계연구
    • /
    • 제24권5호
    • /
    • pp.951-961
    • /
    • 2011
  • 본 논문에서는 제로팽창 음이항(ZINB) 회귀모형에서 회귀계수에 대한 추론방법으로 마코프체인몬테카를로(MC MC) 기법을 이용한 베이지안 추론방법을 제안하였다. 본 연구에서 고려한 ZINB 회귀모형은 반응변수의 평균뿐만 아니라 제로팽창확률에 대한 회귀모형을 고려한 것으로서 Jang, et al.(2010)의 연구를 확장한 것이다. 아울러 실제사례에 본 연구에서 제안한 베이지안 추론방법을 적용하고 과대산포를 허용하지 않는 제로팽창 포아송(ZIP) 회귀모형과 적합결과를 DIC를 이용하여 비교하였다. 실제 사례분석 결과 ZINB 회귀모형의 DIC가 ZIP모형보다 작게 나타나 ZINB 회귀모형이 ZIP 회귀모형보다 잘 적합되었음을 알 수 있었다.

영과잉 음이항회귀 모형을 이용한 보험설계사들의 이직횟수 적합 (Fit of the number of insurance solicitor's turnovers using zero-inflated negative binomial regression)

  • 전희주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1087-1097
    • /
    • 2017
  • 본 연구는 계수자료 (count data)를 반응변수로 갖는 포아송회귀 모형, 음이항회귀 모형, 영과잉 포아송회귀 모형, 영과잉 음이항회귀 모형의 4 모형의 비교를 통해 보험 설계사들의 이직횟수 적합을 위한 최적모형을 찾고자 한다. 보험설계사 이직횟수의 분산이 평균보다 큰 과대산포가 존재하고 0인 경우의 비중이 높을 경우에 영과잉 음이항회귀 모형을 적합하는 것이 타당함을 보여주고 보험 설계사들의 이직횟수에 영향을 주는 요인을 규명하고자 한다. 로그우도값, AIC, SBC 등을 고려하여 보험설계사 이직횟수 적합을 최적의 모형은 영과잉 이항모형과 음이항회귀모형의 결합인 영과잉 음이항 모형이 선택되었다. 영과잉 이항모형에 포함된 변수로는 성별, 총 보험설계사 근무연월, 교차모집 설계사 등록, 보유고객 수, 소속회사 유형이었고, 음이항회귀 모형에 포함된 변수로는 직무만족, 조직몰입, 채널경영만족, 총 보험설계사 근무연월, 현 직장에서 근무연월, 소속회사 유형이었다. 영과잉 음이항회귀 모형의 적합결과, 이직횟수에 유의한 영향을 주는 요인으로는 현 직장에서 근무연월, 총 보험설계사 근무연월, 소속회사 유형, 채널경영만족, 직무만족 순으로 나타났다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

한우 수소 고기 관능평가 데이터에 대한 범주형 자료 분석 (Categorical data analysis of sensory evaluation data with Hanwoo bull beef)

  • 이혜정;조수현;김재희
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권5호
    • /
    • pp.819-827
    • /
    • 2009
  • 국립축산과학원에서 수집한 한우 관능 평가 데이터에 대해 사회 인구학적 요인과 한국 소비자들의 맛 평가에 대한 연관성을 연구하고자 한다. 소비자 거주지역, 연령, 성별, 직업, 월수입과 쇠고기 부위를 설명변수로 맛등급 평가를 반응변수로 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 회귀계수별 유의성 검정과 적합도 검정을 실시하였다. 단계별 변수 선택으로 최종 모형을 선택하고 반응변수 범주에 대한 오즈비를 계산하여 관련성을 파악한다. 그 결과 거주 지역, 연령, 월수입과 쇠고기 부위 변수들이 선택되었다. 영남에서 맛을 비교적 높게 평가하는 경향이 있으며 수입이 많고 연령이 높을수록 맛을 까다롭게 평가하는 경향을 보인다. 쇠고기 부위별로는 우둔에 비해서 등심이 다른 부위들 중 맛에 대한 차이가 크다고 볼 수 있다.

  • PDF

서로 다른 산포를 갖는 이변량 음이항 회귀모형에서 산포의 동일성에 대한 검정 (Tests for Equality of Dispersions in the Generalized Bivariate Negative Binomial Regression Model with Heterogeneous Dispersions)

  • 한상문;정병철
    • Communications for Statistical Applications and Methods
    • /
    • 제18권2호
    • /
    • pp.219-227
    • /
    • 2011
  • 본 연구에서는 두 반응변수의 이질적 산포를 허용하는 좀 더 일반적인 형태의 이변량 음이항 회귀모형을 삼각소거법(trivariate reduction technique)을 이용하여 제안하였다. 이 분포에서 산포의 동일성에 대한 스코어 검정과 LR 검정을 유도하고 모의실험을 통하여 각 검정법의 효율성을 비교하였다. 모의실험 결과 스코어 검정과 LR 검정 모두 명목유의수준을 제대로 유지하고 검정력도 높게 나타나 산포의 동일성을 검정하는데 효율적인 검정법으로 나타났다. 하지만 스코어 검정은 LR 검정에 비하여 계산이 간편하다는 장점이 존재하고 모의실험을 통하여 스코어 검정이 LR 검정보다 약간 나은 효율을 보였으므로 산포의 동일성에 대한 검정에서 스코어 검정의 사용을 제안하고자 한다. 더불어 실제 사례에 두 검정법을 적용하고 그 결과를 제시하였다.

일차방정식에서 변수의 위치에 따른 반응 유형에 관한 연구 -중학교 1학년과 3학년을 중심으로- (The Study of Response' Type according to a Position of Variable on Linear Equation - Centering around the First and Third Grade of Middle School -)

  • 서종진
    • 한국학교수학회논문집
    • /
    • 제12권3호
    • /
    • pp.267-289
    • /
    • 2009
  • 학생들은 변수가 등호의 좌변에 있는 일차방정식보다 우변에 있는 일차방정식 문제를 해결하는데 어려움을 겪고 있다. 이러한 어려움을 학생들이 극복할 수 있도록, 기본적인 여러 유형의 일차방정식 문제를 경험할 수 있는 기회를 제공하여야 할 것이다. 그리고 일차방정식의 교수 학습에서 여러 유형의 평가 문항을 구성하여 테스트 한 후에 학생들의 풀이 과정을 면밀히 검토하거나, 개별 면담을 통하여 학생들의 학습상황을 파악하고 이를 토대로 피드백을 통한 오류 교정이 이루어져야 할 필요성이 있다.

  • PDF

$2\times2$ 분할표를 이용한 조건부 독립성 검정 (A Study on Mante1-Haenszel Test of Conditional Independence)

  • 김지현;임현선
    • 응용통계연구
    • /
    • 제11권2호
    • /
    • pp.257-268
    • /
    • 1998
  • 역학연구에서 두 수준을 갖는 위험인자 X와 이항 반응변수 Y의 관계에 관심을 갖는 경우가 많다. 이 때 두 변수의 상관관계에 영향을 미칠 수 있는 인자 Z의 값을 제어함에 따라 X와 Y의 상관관계가 여전히 존재하는지를, 즉 X와 Y의 조건부 독립성을 검정할 필요가 있다 관측값의 수가 많지 않을 때, X와 Y의 조건부 독립성 검정을 위해 Mantel-Haenszel 검 정 이 널리 사용되고 있다. 하지 만 X와 Y의 상관관계가 Z의 수준에 따라 그 방향까지 변할 경우 이 검정은 낮은 검정력을 갖는다. 본 연구에서는 이 경우에 높은 검정력을 갖는 대안 검정통계량을 제안한다. 대안 검정통계량의 분포에 대해 알아보고 모의실험을 통해 Mantel-Haenszel 검정과 비교해 본다.

  • PDF

초기하분포 소프트웨어 신뢰성 성장 모델 : 일반화, 추정과 예측 (Hyper-Geometric Distribution Software Reliability Growth Model : Generalizatio, Estimation and Prediction)

  • 박중양;유창열;박재홍
    • 한국정보처리학회논문지
    • /
    • 제6권9호
    • /
    • pp.2343-2349
    • /
    • 1999
  • 최근에 개발되어 성공적으로 적용되고 있는 초기하분포 소프트웨어 신뢰성 성장 모델은 이 모델에서 중요한 역할을 하는 반응계수(sensitivity factor)를 추정 대상인 모수로 가정하고 있다. 본 논문은 먼저 디버깅과정의 무작위성을 반영하기 위해 반응계수를 이항분로를 하는 확률변수로 가정하여 초기하분포 신뢰성 성장 모델을 일반화한다. 이러한 일반화는 초기하분포 소프트웨어 신뢰성 성장 모델의 통계적 특성을 쉽게 파악할 수 있게 한다. 특히 일반화 된 모델의 모수를 최소자승법으로 추정하면 기존 모델에 최소자승법을 적용한 것과 같은 결과를 얻을 수 있음을 보이고, 더불어 최우추정치를 최소자승법으로 구하는 방법과 예측방법도 제시한다.

  • PDF

감마 일반화 선형 모형에서의 가능도비 검정과 F-검정 비교연구 (Comparing the performance of likelihood ratio test and F-test for gamma generalized linear models)

  • 조성일;한정섭;이우주
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.475-484
    • /
    • 2018
  • 감마 일반화 선형모형은 음이 아니며 치우침이 있는 반응변수에 유용한 모형으로 알려져 있다. 그러나 포아송 분포 또는 이항 분포에 기반한 일반화 선형모형에 비해 적은 관심을 받아왔다. 특히, 회귀계수의 유의성 검정에 대해서는 연구가 면밀히 되어 있지 않다. 본 논문에서는 감마 일반화 선형 모형의 검정에 대해 다양한 통계량들을 알아보고 수치 연구를 통해 그들의 성능을 비교한다. 수치 실험의 결과 부분 이탈도 검정 방법의 문제점이 나타났으며, 가능도비 검정 방법과 F-검정 방법이 좋은 성능을 보임을 확인하였다.