• Title/Summary/Keyword: 로지스틱회귀분석기법

Search Result 155, Processing Time 0.022 seconds

Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data (보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교)

  • Rhee, Eun Hee;Hwang, Beom Seuk
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.1
    • /
    • pp.131-146
    • /
    • 2022
  • Logit models are commonly used to predicting and classifying categorical response variables. Most Bayesian approaches to logit models are implemented based on the Metropolis-Hastings algorithm. However, the algorithm has disadvantages of slow convergence and difficulty in ensuring adequacy for the proposal distribution. Therefore, we use auxiliary mixture sampler proposed by Frühwirth-Schnatter and Frühwirth (2007) to estimate logit models. This method introduces two sequences of auxiliary latent variables to make logit models satisfy normality and linearity. As a result, the method leads that logit model can be easily implemented by Gibbs sampling. We applied the proposed method to diabetes data from the Community Health Survey (2020) of the Korea Disease Control and Prevention Agency and compared performance with Metropolis-Hastings algorithm. In addition, we showed that the logit model using auxiliary mixture sampling has a great classification performance comparable to that of the machine learning models.

인공신경망을 이용한 부실기업예측모형 개발에 관한 연구

  • Jung, Yoon;Hwang, Seok-Hae
    • Proceedings of the Korea Database Society Conference
    • /
    • 1999.06a
    • /
    • pp.415-421
    • /
    • 1999
  • Altman의 연구(1965, 1977)나 Beaver의 연구(1986)와 같은 전통적 예측모형은 분석자의 판단에 따른 예측도가 높은 재무비율을 선정하여 다변량판별분석(MDA: multiple discriminant analysis), 로지스틱회귀분석 등과 같은 통계기법을 주로 이용해 왔으나 1980년 후반부터 인공지능 기법인 귀납적 학습방법, 인공신경망모형, 유전모형 둥이 부실기업예측에 응용되기 시작했다. 최근 연구에서는 인공신경망을 활용한 변수 및 모형개발에 관한 보고가 있다. 그러나 지금까지의 연구가 주로 기업의 재무적 비율지표를 고려한 모형에 치중되었으며 정성적 자료인 비재무지표에 대한 검증과 선정이 자의적으로 이루어져온 경향이었다. 또한 너무 많은 입력변수를 사용할 경우 다중공선성 문제를 유발시킬 위험을 내포하고 있다. 본 연구에서는 부실기업예측모형을 수립하기 위하여 정량적 요인인 재무적 지표변수와 정성적요인인 비재무적 지표변수를 모두 고려하였다. 재무적 지표변수는 상관분석 및 요인분석들을 통하여 유의한 변수들을 도출하였으며 비재무적 지표변수는 조직생태학내에서의 조직군내 조직사멸과 관련된 생태적 과정에 대한 요인들 중 조직군 내적요인으로 조직의 연령, 조직의 규모, 조직의 산업밀도를 도출하여 4개의 실험집단으로 분류하여 비재무적 지표변수를 보완하였다. 인공신경망은 다층퍼셉트론(multi-layer perceptrons)과 역방향 학습(back-propagation )알고리듬으로 입력변수와 출력변수, 그리고 하나의 은닉층을 가지는 3층 퍼셉트론(three layer perceptron)을 사용하였으며 은닉충의 노드(node)수는 3개를 사용하였다. 입력변수로 안정성, 활동성, 수익성, 성장성을 나타내는 재무적 지표변수와 조직규모, 조직연령, 그 조직이 속한 산업의 밀도를 비재무적 지표변수로 산정하여 로지스틱회귀 분석과 인공신경망 기법으로 검증하였다. 로지스틱회귀분석 결과에서는 재무적 지표변수 모형의 전체적 예측적중률이 87.50%인 반면에 재무/비재무적 지표모형은 90.18%로서 비재무적 지표변수 사용에 대한 개선의 효과가 나타났다. 표본기업들을 훈련과 시험용으로 구분하여 분석한 결과는 전체적으로 재무/비재무적 지표를 고려한 인공신경망기법의 예측적중률이 높은 것으로 나타났다. 즉, 로지스틱회귀분석의 재무적 지표모형은 훈련, 시험용이 84.45%, 85.10%인 반면, 재무/비재무적 지표모형은 84.45%, 85.08%로서 거의 동일한 예측적중률을 가졌으나 인공신경망기법 분석에서는 재무적 지표모형이 92.23%, 85.10%인 반면, 재무/비재무적 지표모형에서는 91.12%, 88.06%로서 향상된 예측적 중률을 나타내었다.

  • PDF

인공신경망을 이용한 부실기업예측모형 개발에 관한 연구

  • Jung, Yoon;Hwang, Seok-Hae
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 1999.03a
    • /
    • pp.415-421
    • /
    • 1999
  • Altman의 연구(1965, 1977)나 Beaver의 연구(1986)와 같은 전통적 예측모형은 분석자의 판단에 따른 예측도가 높은 재무비율을 선정하여 다변량판별분석(MDA:multiple discriminant analysis), 로지스틱회귀분석 등과 같은 통계기법을 주로 이용해 왔으나 1980년 후반부터 인공지능 기법인 귀납적 학습방법, 인공신경망모형, 유전모형 등이 부실기업예측에 응용되기 시작했다. 최근 연구에서는 인공신경망을 활용한 변수 및 모형개발에 관한 보고가 있다. 그러나 지금까지의 연구가 주로 기업의 재무적 비율지표를 고려한 모형에 치중되었으며 정성적 자료인 비재무지표에 대한 검증과 선정이 자의적으로 이루어져온 경향이었다. 또한 너무 많은 입력변수를 사용할 경우 다중공선성 문제를 유발시킬 위험을 내포하고 있다. 본 연구에서는 부실기업예측모형을 수립하기 위하여 정량적 요인인 재무적 지표변수와 정성적 요인인 비재무적 지표변수를 모두 고려하였다. 재무적 지표변수는 상관분석 및 요인분석들을 통하여 유의한 변수들을 도출하였으며 비재무적 지표변수는 조직생태학내에서의 조직군내 조직사멸과 관련된 생태적 과정에 대한 요인들 중 조직군 내적요인으로 조직의 연령, 조직의 규모, 조직의 산업밀도를 도출하여 4개의 실험집단으로 분류하여 비재무적 지표변수를 보완하였다. 인공신경망은 다층퍼셉트론(multi-layer perceptrons)과 역방향 학습(back-propagation)알고리듬으로 입력변수와 출력변수, 그리고 하나의 은닉층을 가지는 3층 퍼셉트론(three layer perceptron)을 사용하였으며 은닉층의 노드(node)수는 3개를 사용하였다. 입력변수로 안정성, 활동성, 수익성, 성장성을 나타내는 재무적 지표변수와 조직규모, 조직연령, 그 조직이 속한 산업의 밀도를 비재무적 지표변수로 산정하여 로지스틱회귀 분석과 인공신경망 기법으로 검증하였다. 로지스틱회귀분석 결과에서는 재무적 지표변수 모형의 전체적 예측적중률이 87.50%인 반면에 재무/비재무적 지표모형은 90.18%로서 비재무적 지표변수 사용에 대한 개선의 효과가 나타났다. 표본기업들을 훈련과 시험용으로 구분하여 분석한 결과는 전체적으로 재무/비재무적 지표를 고려한 인공신경망기법의 예측적중률이 높은 것으로 나타났다. 즉, 로지스틱회귀 분석의 재무적 지표모형은 훈련, 시험용이 84.45%, 85.10%인 반면, 재무/비재무적 지표모형은 84.45%, 85.08%로서 거의 동일한 예측적중률을 가졌으나 인공신경망기법 분석에서는 재무적 지표모형이 92.23%, 85.10%인 반면, 재무/비재무적 지표모형에서는 91.12%, 88.06%로서 향상된 예측적중률을 나타내었다.

  • PDF

A Study on Assessment of Personality Test using Data Mining (데이터 마이닝을 이용한 신인성검사 판정 연구 - 복무적합도검사를 중심으로 -)

  • Park, YoungGill;In, Hoh Peter;Kim, Nunghoe;Lee, Jungbin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1373-1376
    • /
    • 2012
  • 복무적합도 검사는 정신질환이나 사고가능성이 있는 병사를 감별하고, 입대 후 적응문제로 조기 전역할 수 있는 집단을 예측하는 신인성검사 중 하나로, 현재 군에서 징병 및 입영단계에 실시하는 인성검사이다. 이는 전체 검사대상자를 상대로 정신과적 문제 식별을 위한 개별면담이 불가능하기 때문에 위 검사를 통해 대상자를 효율적으로 선별하기 위함이다. 본 연구는 데이터 마이닝을 통해 복무적합도 검사의 판정을 예측 할 수 있을지 확인하고자 하였다. 이를 위해 데이터 마이닝의 기법 중 회귀분석의 로지스틱 회귀분석 기법이 복무적합도검사 판정에 우수한 성능을 보임을 확인하였고, 로지스틱 회귀분석의 추정된 회귀계수를 이용하여 만든 반응확률에 대한 예측 모형식은 높은 정분류율을 보였고 평가 결과 통계적으로 의미가 있음을 증명하였다. 따라서 본 연구 결과를 활용하면 소수의 문항으로 복무적합도 검사 이전의 선별용 검사 개발이나 자가 진단용 검사 개발로 활용이 가능 할 것으로 기대한다.

Developing the high-risk drinking predictive model in Korea using the data mining technique (데이터마이닝 기법을 활용한 한국인의 고위험 음주 예측모형 개발 연구)

  • Park, Il-Su;Han, Jun-Tae
    • Journal of the Korean Data and Information Science Society
    • /
    • v.28 no.6
    • /
    • pp.1337-1348
    • /
    • 2017
  • In this paper, we develop the high-risk drinking predictive model in Korea using the cross-sectional data from Korea Community Health Survey (2014). We perform the logistic regression analysis, the decision tree analysis, and the neural network analysis using the data mining technique. The results of logistic regression analysis showed that men in their forties had a high risk and the risk of office workers and sales workers were high. Especially, current smokers had higher risk of high-risk drinking. Neural network analysis and logistic regression were the most significant in terms of AUROC (area under a receiver operation characteristic curve) among the three models. The high-risk drinking predictive model developed in this study and the selection method of the high-risk intensive drinking group can be the basis for providing more effective health care services such as hazardous drinking prevention education, and improvement of drinking program.

A Study on the Fraud Detection of Industrial Accident Compensation Insurance (산재보험 부정수급 식별모형에 관한 연구)

  • Ham, Seung-O;Hong, Jeong-Sik
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2008.10a
    • /
    • pp.342-345
    • /
    • 2008
  • 산재 발생 시 산재근로자는 근로복지공단을 통해서 각종 급여를 받게 된다. 본 논문은 심사 과정과 급여지급 후에 부정수급으로 판명된 산재 청구 건을 데이터 마이닝을 통해서 분석하여 부정수급의 유형을 발견하고자 한다. 이 연구에서는 서울관내 4개 지사에서 8년 동안(2000년$\sim$2007년)의 총 61,536명의 최초요양 신청을 한 산재근로자 자료를 대상으로 하였고, 종속변수에 영향을 미치는 8개의 독립변수를 선택해서 사용한다. 데이터 마이닝을 적용함에 있어서 가장 효율적인 허위 부정 탐지 모델을 만들기 위해 의사결정나무분석(Decision Tree)과 로지스틱 회귀분석(Logistic Regresion)등의 다양한 기법을 적용하여 결과를 비교분석 하고, 오분류 비용을 적용하여, 최적의 분류결정 값을 가지는 모델을 도출한다. 분석결과, 로지스틱 회귀분석이 산재보험 부정수급 유형 발견에 보다 효과적인 모델로 판명되었다. 또한 판별점(Cut-Off) 0.01로 했을 때 4개변수(요양기간, 업종형태, 의료기관, 재해발생형태)가 부정수급에 탐지하는데 영향력이 큰 변수로 선정되었다.

  • PDF

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영;신형원
    • Journal of Korean Society of Transportation
    • /
    • v.16 no.4
    • /
    • pp.187-194
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도 변화에 영향력 있는 변수 선택을 위하여 독립성 검정을 위한 $x^2$ test와 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 Decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합한 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영
    • Proceedings of the KOR-KST Conference
    • /
    • 1998.10a
    • /
    • pp.373-381
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도변화에 영향력 있는 변수선택을 위하여 $X^2$ 독립성 검정과 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합합 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF

A Study on the Prediction Model for Student Dropout (학생 중도탈락 예측 모델에 관한 연구)

  • Lee, JongHyuk;Kim, DaeHak;Gil, JoonMin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.37-40
    • /
    • 2018
  • 빅데이터 산업 부상과 함께 교육 데이터 분석 분야가 새롭게 주목받고 있다. 교육 현장에서 학습 데이터의 양과 종류는 꾸준히 증가하고 있고 이를 분석하기 위한 정보기술도 계속 발전하고 있다. 한편, 학교 교육은 사회적 성취와 밀접한 관련이 있어 사회이동의 중요한 수단이 되는 만큼 학교 교육으로부터 이탈할 위험이 있는 학생들을 조기에 발견하여 이탈을 방지하는 것은 매우 중요하다. 본 논문은 대학생의 중도탈락을 예방하기 위해 로지스틱 회귀분석과 다층 퍼셉트론 기법을 이용해 학습 데이터를 분석하여 예측 모델을 생성하고 해당 모델을 평가한다. 평가 결과, 다층 퍼셉트론 모델이 로지스틱 회귀분석 모델에 비해 정확도와 재현율은 우수하였지만 정밀도는 약간 저조하였다.

An educational tool for binary logistic regression model using Excel VBA (엑셀 VBA를 이용한 이분형 로지스틱 회귀모형 교육도구 개발)

  • Park, Cheolyong;Choi, Hyun Seok
    • Journal of the Korean Data and Information Science Society
    • /
    • v.25 no.2
    • /
    • pp.403-410
    • /
    • 2014
  • Binary logistic regression analysis is a statistical technique that explains binary response variable by quantitative or qualitative explanatory variables. In the binary logistic regression model, the probability that the response variable equals, say 1, one of the binary values is to be explained as a transformation of linear combination of explanatory variables. This is one of big barriers that non-statisticians have to overcome in order to understand the model. In this study, an educational tool is developed that explains the need of the binary logistic regression analysis using Excel VBA. More precisely, this tool explains the problems related to modeling the probability of the response variable equal to 1 as a linear combination of explanatory variables and then shows how these problems can be solved through some transformations of the linear combination.