• 제목/요약/키워드: 이항반응자료

검색결과 21건 처리시간 0.022초

이항 반응 자료에 대한 학습곡선의 모형화 (Statistical Modeling of Learning Curves with Binary Response Data)

  • 이슬지;박만식
    • Communications for Statistical Applications and Methods
    • /
    • 제19권3호
    • /
    • pp.433-450
    • /
    • 2012
  • 연구자가 같은 작업을 반복적으로 수행할 때, 작업 효율성은 연구에 관련된 지식, 경험, 기술이 축적되면서 향상된다. 결과를 얻기 위해 연구에 투자하는 시간은 같은 작업을 반복함으로써 줄일 수 있다. 이러한 현상을 학습곡선 효과(learning curve effect)라고 일컫는다. 학습곡선(learning curves)은 학습의 변화를 시각적으로 나타낸 것으로 이전의 학습곡선 연구에서는 시간을 일정한 구간으로 나누어 구간별 작업에 대한 숙련도의 평균 차이 여부를 확인하였다. 이러한 방법은 구간을 어떻게 나눌 것인가 하는 기준이 존재하지 않으며, 더욱이 이항 반응 자료로 모형을 적합하기 어려운 문제점을 가지고 있다. 본 연구에서는 이산형 확률변수 중 이항 반응 자료(베르누이자료)에 대한 학습곡선의 통계적 모형에 초점을 맞추고자 한다. 누적확률분포의 특성을 이용하여 모수를 추정하기 위해서 뉴튼-랩슨 방법(Newton-Raphson method)을 사용하였고, 이 연구에서 제안한 모형의 점근적 분포를 구하였다.

국소선형 준가능도 추정량의 자료 희박성 문제 해결방안 (Sparse Design Problem in Local Linear Quasi-likelihood Estimator)

  • 박동련
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.133-145
    • /
    • 2007
  • 국소선형 추정량은 여러 면에서 바람직한 특성을 많이 갖고 있는 좋은 추정량이다. 그러나 자료가 희박한 부분에서는 매우 불안정한 추정값을 갖게 되는 문제가 있음이 밝혀졌으며, 이 문제를 해결하기 위한 여러 방안이 많이 연구되었다. 그러나 이항반응변수를 위한 국소선형 추정량의 변형이라고 할 수 있는 국소선형 준가능도 추정량에 대해서는 아직 자료의 희박성 문제가 다루어지지 않고 있었다. 이 논문에서는 국소선형 준가능도 추정량이 갖고 있는 자료의 희박성 문제를 인식하고, 몇 가지 해결방안을 제시하였으며, 모의 실험을 통하여 가장 효과적인 방안을 선택하였다.

서로 다른 산포를 허용하는 이변량 영과잉 음이항 회귀모형 (Bivariate Zero-Inflated Negative Binomial Regression Model with Heterogeneous Dispersions)

  • 김동석;정슬기;이동희
    • Communications for Statistical Applications and Methods
    • /
    • 제18권5호
    • /
    • pp.571-579
    • /
    • 2011
  • 본 연구에서는 두 반응 변수에 서로 다른 산포를 허용하는 새로운 이변량 영과잉 음이항 회귀모형을 제안하고, Deb과 Trivedi (1997)에 나타난 헬스케어 자료를 이용하여 두 반응변수가 갖는 서로 다른 산포도를 무시한 Wang (2003)이 제안한 이변량 영과잉 음이항 회귀모형과의 효율성을 로그우도와 AIC의 관점에서 비교 하였다. 모형적합결과, 본 연구에서 제안한 모형이 모형선택기준 관점에서 기존모형에 비하여 월등히 우수한 결과를 보여주었다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

베이지안 순서형 프로빗 준모수 회귀 모형 : 국민건강영양조사 2016 자료를 통한 흡연양태와 커피섭취 간의 관계 분석 (Bayesian ordinal probit semiparametric regression models: KNHANES 2016 data analysis of the relationship between smoking behavior and coffee intake)

  • 이다솜;이은지;조성일;최태련
    • 응용통계연구
    • /
    • 제33권1호
    • /
    • pp.25-46
    • /
    • 2020
  • 본 논문에서는 Bayesian spectral analysis regression (BSAR) 방법론을 이용한 베이지안 순서형 프로빗 준모수 회귀모형에 대해서 고찰한다. 순서형 프로빗 회귀모형은 순서가 있는 범주형 자료를 모형화하는 방법으로, 정규 분포의 분포함수의 역함수인 프로빗 연결함수를 이용해 각 범주의 확률과 설명변수을 연결함으로써 반응변수의 확률을 모형화한다. 베이지안 프로빗 회귀 모형은 정규 분포를 따르는 잠재변수를 도입함으로써 사후 분포 도출을 용이하게 하고, 절단점에 따라 나뉘어지는 잠재변수들의 값에 따라서 반응 변수들이 범주화된다. 본 논문에서는 이러한 잠재 변수 방법을 확장해 BSAR 방법론에 기반하여 단조증가/감소와 같은 형태제약을 반영할 수 있는 베이지안 이항형 및 순서형 프로빗 준모수 회귀모형에 대해 연구한다. 모의실험을 통하여 이항형 프로빗 준모수 회귀모형과 기존의 다른 모형들 간의 적합결과를 비교하고, 형태 제약에 따른 순서형 프로빗 준모수 회귀모형의 적합결과를 비교 분석하도록 한다. 아울러, 국민건강영양조사 제 7기 1차년도 (2016) 자료(Korean National Health and Nutrition Examination Survey (KNHANES), 2016)를 바탕으로, 본 논문에서 고찰한 이항형 및 순서형 프로빗 준모수 회귀모형을 적용하여, 흡연양태와 커피섭취 간의 관계에 대한 실증적 분석을 수행한다.

생존 분석 자료에서 적용되는 시간 가변 ROC 분석에 대한 리뷰 (Review for time-dependent ROC analysis under diverse survival models)

  • 김양진
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.35-47
    • /
    • 2022
  • Receiver operating characteristic (ROC) 곡선은 이항 반응 자료에 대한 마커의 분류 예측력을 측정하기 위해 널리 적용되어왔으며 최근에는 생존 분석에서도 매우 중요한 역할을 하고 있다. 여러 가지 유형의 중도 절단과 원인 불명 등 다양한 종류의 결측 자료를 포함한 생존 자료 분석에서 마커의 사건 발생 여부에 대한 예측력을 판단하기 위해 기존의 통계량을 확장하였다. 생존 분석 자료는 각 시점에서의 사건 발생 여부로 이해할 수 있으며, 따라서 시점마다 ROC 곡선과 AUC를 구할 수 있다. 본 논문에서는 우중도 절단과 경쟁 위험 모형하에서 사용되는 다양한 방법론과 관련 R 패키지를 소개하고 각 방법의 특성을 설명하고 비교하였으며 이를 검토하기 위해 간단한 모의실험을 시행하였다. 또한, 프랑스에서 수집된 치매 자료의 마커 분석을 시행하였다.

초고차원 다범주분류를 위한 변수선별 방법 비교 연구 (A comparative study of feature screening methods for ultrahigh dimensional multiclass classification)

  • 이경은;김경희;신승준
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.793-808
    • /
    • 2017
  • 본 논문에서는 초고차원 자료의 다항분류를 위한 변수선별 방법에 대해 비교 연구를 진행하였다. 다항분류를 위한 변수선별 방법에는 일대일 혹은 일대다 비교를 통해 이항분류를 위한 방법을 확장시켜 적용하는 방법과 다항 반응 변수에 직접 적용할 수 있는 방법이 있다. 다항분류를 위한 변수선별 성능을 확인하기 위하여 여러가지 상황-설명변수의 꼬리가 두꺼운 경우, 신호변수와 잡음변수가 서로 연관된 경우, 결합분포상으로 연관되어 있지만 주변분포 상으로는 연관되어 있지 않은 경우, 다범주 반응변수의 분포가 불균형인 경우-을 가정하고 모의실험을 진행하였고, 실제 자료에도 적용해 보았다. 그 결과, 모형 가정을 필요로 하지 않는 방법들이 안정적인 성능을 보이는 것을 확인하였다.

이항 반응 계수를 가진 연속 시간형 HGDM의 개발 (Development of the Continuous-Time HGDM with Binomial Sensitivity Factor)

  • 박중양;김성희;박재흥
    • 한국정보처리학회논문지
    • /
    • 제6권12호
    • /
    • pp.3490-3499
    • /
    • 1999
  • 초기하분포 소프트웨어 신뢰성 성장 모델(HGDM)은 최근에 개발되어 테스트와 디버그의 시작 단계에서 소프트웨어에 남아 있는 초기 결함 수를 추정할 수 있는 문제에 성공적으로 적용되고 있다. 그러나 HGDM은 시간 도메인 소프트웨어 신뢰성 성장 모델(SRGM)에 속하지만 시험자 수 등과 같은 시험에 투입하는 자원을 고려하는 과정에서 다른 시간 도메인 SRGM과 비교하기 곤란한 점을 내포하게 되었다. 특히, 시간 도메인 SRGM에서 일반적으로 사용하는 소프트웨어 신뢰성을 계산할 수 없다. 본 논문은 HGDM이 시간에 의해 기술되지 않음으로 인해 생기는 이러한 문제점을 해결하기 위해 이항 반응 계수를 가진 연속 시간형 HGDM을 개발하고 그 특성을 연구한다. 그리고 제안된 모델을 실제 자료에 적용해서 기존 HGDM을 대신하여 사용할 수 있음을 보인다.

  • PDF

영과잉 음이항회귀 모형을 이용한 보험설계사들의 이직횟수 적합 (Fit of the number of insurance solicitor's turnovers using zero-inflated negative binomial regression)

  • 전희주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권5호
    • /
    • pp.1087-1097
    • /
    • 2017
  • 본 연구는 계수자료 (count data)를 반응변수로 갖는 포아송회귀 모형, 음이항회귀 모형, 영과잉 포아송회귀 모형, 영과잉 음이항회귀 모형의 4 모형의 비교를 통해 보험 설계사들의 이직횟수 적합을 위한 최적모형을 찾고자 한다. 보험설계사 이직횟수의 분산이 평균보다 큰 과대산포가 존재하고 0인 경우의 비중이 높을 경우에 영과잉 음이항회귀 모형을 적합하는 것이 타당함을 보여주고 보험 설계사들의 이직횟수에 영향을 주는 요인을 규명하고자 한다. 로그우도값, AIC, SBC 등을 고려하여 보험설계사 이직횟수 적합을 최적의 모형은 영과잉 이항모형과 음이항회귀모형의 결합인 영과잉 음이항 모형이 선택되었다. 영과잉 이항모형에 포함된 변수로는 성별, 총 보험설계사 근무연월, 교차모집 설계사 등록, 보유고객 수, 소속회사 유형이었고, 음이항회귀 모형에 포함된 변수로는 직무만족, 조직몰입, 채널경영만족, 총 보험설계사 근무연월, 현 직장에서 근무연월, 소속회사 유형이었다. 영과잉 음이항회귀 모형의 적합결과, 이직횟수에 유의한 영향을 주는 요인으로는 현 직장에서 근무연월, 총 보험설계사 근무연월, 소속회사 유형, 채널경영만족, 직무만족 순으로 나타났다.