• 제목/요약/키워드: Bayesian logistic regression

검색결과 36건 처리시간 0.035초

고혈압 예측을 위한 노모그램 구축 및 비교 (Comparison of nomograms designed to predict hypertension with a complex sample)

  • 김민호;신민석;이제영
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.555-567
    • /
    • 2020
  • 고혈압은 발병률이 꾸준히 증가하고 있을 뿐 아니라, 심혈관 질환과 같은 2차 질병의 주된 위험 요인이 되었다. 게다가 고혈압은 뇌졸중, 혈관성 치매와 같은 다른 합병증을 유발하는 질병이다. 따라서 고혈압 발병률을 예측하는 것은 중요한 일이다. 본 연구에서, 고혈압 발병률을 예측할 수 있는 노모그램을 구축하였다. 데이터는 2013년부터 2016년까지의 국민건강영양조사로부터 얻어졌다. 복합 표본의 특성을 고려하여 Rao-Scott chi-squared test를 통해 고혈압에 영향을 미치는 10가지 요인을 규명하였다. 하지만 로지스틱 회귀분석 시, 흡연 상태와, 운동 유무는 유의하지 않았다. 따라서 8개의 주 효과를 고혈압의 위험요인으로 최종 선별하였다. 그리고 최종 선별된 위험 요인들로 로지스틱 노모그램과 베이지안 노모그램을 제시 및 비교하였다. 마지막으로 ROC curve 그래프와 calibration plot을 통해 노모그램을 검증하였다.

Effective Computation for Odds Ratio Estimation in Nonparametric Logistic Regression

  • Kim, Young-Ju
    • Communications for Statistical Applications and Methods
    • /
    • 제16권4호
    • /
    • pp.713-722
    • /
    • 2009
  • The estimation of odds ratio and corresponding confidence intervals for case-control data have been done by traditional generalized linear models which assumed that the logarithm of odds ratio is linearly related to risk factors. We adapt a lower-dimensional approximation of Gu and Kim (2002) to provide a faster computation in nonparametric method for the estimation of odds ratio by allowing flexibility of the estimating function and its Bayesian confidence interval under the Bayes model for the lower-dimensional approximations. Simulation studies showed that taking larger samples with the lower-dimensional approximations help to improve the smoothing spline estimates of odds ratio in this settings. The proposed method can be used to analyze case-control data in medical studies.

기계학습 방법을 이용한 MOOC 학습자의 중도 포기 예측 성능 비교 연구 (A Study of Performance Comparison of MOOC Dropout Prediction utilizing Machine Learning)

  • 허윤아;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.323-326
    • /
    • 2016
  • 웹 서비스를 기반으로 이루어진 MOOC(Massive Open Online Course)는 대규모 학습자에게 공개된 온라인 교육이다. MOOC는 교수와 학습자 사이 커뮤니티를 통해 상호 참여적으로 수업을 진행한다. 그러나 무료로 강의를 들을 수 있고 성적을 내지 않기 때문에 학습자들에게 큰 동기 부여가 되지 않아 등록하는 학습자는 많지만 수료하는 학습자는 현저히 적게 나타났다. 본 논문은 이러한 문제 해결 방안 마련을 위해 KDD Cup 2015에서 제공한 MOOC 데이터를 통해 중도 포기와 관련된 변수들을 선정하였으며, Decision Tree, KNN, Logistic Regression, Naive Bayesian, SVM, Neural Network인 6가지 머신 러닝 알고리즘을 통해 데이터 예측의 정확률을 확인하였다. 그 결과 Naive Bayesian이 89.3%로 가장 높은 정확률을 보였다. 본 연구를 통해 중도포기를 정확히 예측하며, 향후 학습자들에게 특정 동기부여의 효과로 학습을 수료하는 결과를 기대할 수 있다.

On a Bayes Criterion for the Goodness-of-Link Test for Binary Response Regression Models : Probit Link versus Logit Link

  • Kim, Hea-Jung
    • Journal of the Korean Statistical Society
    • /
    • 제26권2호
    • /
    • pp.261-276
    • /
    • 1997
  • In the context of binary response regression, the problem of constructing Bayesian goodness-of-link test for testing logit link versus probit link is considered. Based upon the well known facts that cdf of logistic variate .approx. cdf of $t_{8}$/.634 and, as .nu. .to. .infty., cdf of $t_{\nu}$ approximates to that of N(0,1), Bayes factor is derived as a test criterion. A synthesis of the Gibbs sampling and a marginal likelihood estimation scheme is also proposed to compute the Bayes factor. Performance of the test is investigated via Monte Carlo study. The new test is also illustrated with an empirical data example.e.

  • PDF

베이지안 분계점 모형에 의한 순서 범주형 변수의 대체 (Imputation for Binary or Ordered Categorical Traits Based on the Bayesian Threshold Model)

  • 이승천
    • 응용통계연구
    • /
    • 제18권3호
    • /
    • pp.597-606
    • /
    • 2005
  • 대개의 표본조사에서 무응답은 필연적으로 발생되고 있고, 직접 표본조사에 참가하지 않은 데이터의 사용자는 무응답의 원인을 알 수 없는 것이 일반적이므로 데이터 분석에 어려움을 갖는다. 또 대부분의 통계분석 방법은 무응답을 전제하지 않고 있어 무응답이 있는 항목은 데이터 분석의 걸림돌이 된다고 하겠다. 최근 무응답에 대해 대체법이 하나의 표준적인 처리 방법이 되고 있어 현재까지 대체법에 대한 많은 연구가 있었으나 대부분의 대체법은 정규성 등을 가정한 연속형 변수의 대체법에 대한 것이었다. 그러나 표본조사에서 많은 중요한 항목들이 순서 범주에 의해 측정되는 경우가 많으므로 범주형변수의 대체법에 대한 연구가 필요하며, 본 연구에서는 보조변수가 있는 경우 Bayesian 모형에 의한 순서범주형 항목의 대체법에 대해 알아본다.

출발지 공간 연관성을 고려한 지역별 수단선택확률 추정 연구 (Estimating Probability of Mode Choice at Regional Level by Considering Spatial Association of Departure Place)

  • 엄진기;박만식;허태영
    • 한국철도학회논문집
    • /
    • 제12권5호
    • /
    • pp.656-662
    • /
    • 2009
  • 일반적으로 교통수단선택 모형은 이용자의 인구 및 개인통행특성 등을 반영한 수단별 선호도를 효용함수로 구축하여 분석하고 있다. 본 연구에서는 이용자의 출발지에 대한 공간적 연관성을 수단선택모형에 고려한 방법을 제시하였다. 이를 위하여 공간적 연관성을 포함하는 공간로지스틱 회귀모형을 고려하였다. 신뢰성있는 추정값을 얻기 위해 베이지안 기법을 적용하였으며 이 연구에서 제시한 방법론은 수단선호도 조사가 이루어지지 않은 지역에 대해서도 수단분담률을 추정할 수 있을 것으로 기대된다.

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

마케팅 데이터를 대상으로 중요 통계 예측 기법의 정확성에 대한 비교 연구 (A Comparative Study on the Accuracy of Important Statistical Prediction Techniques for Marketing Data)

  • 조민호
    • 한국전자통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.775-780
    • /
    • 2019
  • 미래를 예측하는 기법은 통계에 기반을 둔 것과 딥러닝에 기반을 둔 기술로 분류할 수 있다. 그중 통계에 기반을 둔 것이 간단하고 정확성이 높아서 많이 사용된다. 하지만 실무자들은 많은 분석기법의 올바른 사용에 어려움이 많다. 이번 연구에서는 마케팅에 관련된 데이터에 다항로지스틱회귀, 의사결정나무, 랜덤포레스트, 서포트벡터머신, 베이지안 추론을 적용하여 예측의 정확성을 비교하였다. 동일한 마케팅 데이터를 대상으로 하였고, R을 활용하여 분석을 진행하였다. 마케팅 분야의 데이터 특성을 반영한 다양한 기법의 예측 결과가 실무자들에게 좋은 참고가 될 것으로 생각한다.

GPS 프로브 차량 속도자료를 이용한 고속도로 사고 위험구간 추출기법 (Extraction of Hazardous Freeway Sections Using GPS-Based Probe Vehicle Speed Data)

  • 박재홍;오철;김태형;주신혜
    • 한국ITS학회 논문지
    • /
    • 제9권3호
    • /
    • pp.73-84
    • /
    • 2010
  • 본 연구에서는 고속도로에서 GPS(Global Positioning System)수신기를 장착한 프로브차량을 이용하여 수집한 속도자료를 이용하여 사고 위험구간을 추출하는 방법론을 제시하였다. 위험구간 추출을 사고발생 유 무를 판단하는 분류문제(Classification)로 정형화하고 베이지안 신경망을 적용하였다. 개별차량의 속도자료를 이용하여 다양한 잠재적 독립변수를 설정하고 이항 로지스틱 회귀분석을 이용하여 통계적으로 유의미한 변수만을 추출하여 베이지안 신경망의 입력자료로 사용하였다. 제안된 방법론의 성능 평가를 위해 사고 발생 경험이 있는 위험구간을 정확히 추출하는 분류정확도를 효과척도로 활용하였다. 본 연구에서 제안한 방법론의 타당성을 60%의 분류정확도를 통해 확인할 수 있었다. 고속도로 신설노선의 교통안전성을 평가하고 사고예방을 위한 대응책 개발 및 적용에 본 연구의 결과가 효과적으로 활용될 것으로 기대된다.

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.