• Title/Summary/Keyword: 로지스틱회귀분석

Search Result 1,645, Processing Time 0.031 seconds

A Comparative Experiment of Software Defect Prediction Models using Object Oriented Metrics (객체지향 메트릭을 이용한 결함 예측 모형의 실험적 비교)

  • Kim, Yun-Kyu;Kim, Tae-Yeon;Chae, Heung-Seok
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.8
    • /
    • pp.596-600
    • /
    • 2009
  • To support an efficient management of software verification and validation activities, many defect prediction models have been proposed based on object oriented metrics. They usually adopt logistic regression analysis, And, they state that the correctness of prediction is about 60${\sim}$70%, We performed a similar experiment with Eclipse 3.3 to check their prediction effectiveness, However, the result shows that correctness is about 40% which is much lower than the original results. We also found that univariate logistic regression analysis produces better results than multivariate logistic regression analysis.

Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data (보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교)

  • Rhee, Eun Hee;Hwang, Beom Seuk
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.1
    • /
    • pp.131-146
    • /
    • 2022
  • Logit models are commonly used to predicting and classifying categorical response variables. Most Bayesian approaches to logit models are implemented based on the Metropolis-Hastings algorithm. However, the algorithm has disadvantages of slow convergence and difficulty in ensuring adequacy for the proposal distribution. Therefore, we use auxiliary mixture sampler proposed by Frühwirth-Schnatter and Frühwirth (2007) to estimate logit models. This method introduces two sequences of auxiliary latent variables to make logit models satisfy normality and linearity. As a result, the method leads that logit model can be easily implemented by Gibbs sampling. We applied the proposed method to diabetes data from the Community Health Survey (2020) of the Korea Disease Control and Prevention Agency and compared performance with Metropolis-Hastings algorithm. In addition, we showed that the logit model using auxiliary mixture sampling has a great classification performance comparable to that of the machine learning models.

Introduction to variational Bayes for high-dimensional linear and logistic regression models (고차원 선형 및 로지스틱 회귀모형에 대한 변분 베이즈 방법 소개)

  • Jang, Insong;Lee, Kyoungjae
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.3
    • /
    • pp.445-455
    • /
    • 2022
  • In this paper, we introduce existing Bayesian methods for high-dimensional sparse regression models and compare their performance in various simulation scenarios. Especially, we focus on the variational Bayes approach proposed by Ray and Szabó (2021), which enables scalable and accurate Bayesian inference. Based on simulated data sets from sparse high-dimensional linear regression models, we compare the variational Bayes approach with other Bayesian and frequentist methods. To check the practical performance of the variational Bayes in logistic regression models, a real data analysis is conducted using leukemia data set.

수량화 분석과 AHP를 이용한 산사태 예측모형 개발

  • Nam, Eun-Mi;Jun, Kyoung-Ho;Yu, Hyu-Kyong;Na, Jong-Hwa
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2009.05a
    • /
    • pp.114-119
    • /
    • 2009
  • 본 논문에서는 수량화 방법과 AHP(Analytic Hierarchy Process) 기법을 사용하여 산사태 발생에 대한 통계적 예측모형을 구축하는데 목적이 있다. 수량화(Quantification) 방법은 질적변수에 수량을 부여하는 통계적 방법으로, 기 조사된 자료에 기반하여 분석을 수행하는 방법이다. 본 논문에서는 서구의 다변량분석 기법인 정준상관분석의 결과를 토대로 수량화 과정을 구체적으로 제안한다. 데이터에 기반한 수량화 방법과는 달리 AHP(Analytic Hierarchy Process) 기법은 일종의 다기준 의사결정을 위해 사용되는 기법으로, 설문자료에 기반한 분석법이다. 실제자료에 대한 분석으로 산사태 발생여부를 측정한 자료(한국지질자원연구원 제공)와 전문가 설문을 통해 수집된 자료를 이용하였다. 이들 자료에 대해 수량화 분석과 AHP분석을 통해 산사태 발생여부를 예측할 수 있는 두 종류의 평가표와 함께 로지스틱 회귀를 통한 통계적 예측모형을 개발하였으며, 두 모형간의 성능비교와 안정성 평가를 수행하였다.

  • PDF

Logistic regression analysis of newspaper readers characteristics affecting regular subscription (종이신문 열독자의 특성이 정기구독 여부에 미치는 영향에 대한 로지스틱 회귀분석)

  • Lee, Seyoung;Kim, Jaehee
    • The Korean Journal of Applied Statistics
    • /
    • v.32 no.5
    • /
    • pp.653-669
    • /
    • 2019
  • The development of new media has gradually decreased the use of newspapers, which had previously occupied the largest share of media. Subscriptions have declined gradually and fell to 14 percent in 2016. This study explores the effects of Newspaper reader's characteristics on regular newspaper subscriptions. The data used for analysis was provided by the Korean Press Foundation and Media Audience Awareness Survey Data in 2016 and 2017. We considered gender, age, education, income, number of days of reading, reading time and amount of reading as the characteristics of the reader. Multiple logistic regression was fitted and interpreted to see what characteristics affect regular subscription.

Prediction of Snow Damage Using Machine Learning Technique (머신러닝 기법을 이용한 대설피해 예측 및 적합성 검토)

  • Lee, Hyeong Joo;Chung, Gunhui
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.192-192
    • /
    • 2020
  • 취약성 분석의 결과로 폭설에 의한 기후노출은 현재에는 강원권이 가장 취약한 것으로 나타났다. 그러나 미래에는 강원권, 충청권, 호남권을 연결하는 축으로 취약지역이 확대될 것으로 전망된다. 본 연구에서는 다양한 머신러닝 기법을 이용하여 대설피해 예측을 실시하였다. 머신러닝 기법으로는 로지스틱회귀모형, 서포트벡터 머신, 의사결정트리 모형을 적용하였다. 종속변수로 대설피해액 자료를 이용하였고, 독립변수로 기상관측자료, 사회·경제적 요소를 사용하였다. 결과적으로 기존에 사용했던 다중회귀모형과 머신러닝 기법으로 예측한 예측력을 비교 및 분석하였고, 예측력이 가장 높은 머신러닝 기법을 제시하였다. 본 연구에서 대설피해 예측을 위해 사용된 예측력이 가장 높은 기법을 활용하여 대설피해를 예측한다면, 미래에 전국적으로 확대될 대설피해에 대해 효과적으로 대비할 수 있을 것으로 기대된다.

  • PDF

A Study on the Fraud Detection of Industrial Accident Compensation Insurance (산재보험 부정수급 식별모형에 관한 연구)

  • Ham, Seung-O;Hong, Jeong-Sik
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2008.10a
    • /
    • pp.342-345
    • /
    • 2008
  • 산재 발생 시 산재근로자는 근로복지공단을 통해서 각종 급여를 받게 된다. 본 논문은 심사 과정과 급여지급 후에 부정수급으로 판명된 산재 청구 건을 데이터 마이닝을 통해서 분석하여 부정수급의 유형을 발견하고자 한다. 이 연구에서는 서울관내 4개 지사에서 8년 동안(2000년$\sim$2007년)의 총 61,536명의 최초요양 신청을 한 산재근로자 자료를 대상으로 하였고, 종속변수에 영향을 미치는 8개의 독립변수를 선택해서 사용한다. 데이터 마이닝을 적용함에 있어서 가장 효율적인 허위 부정 탐지 모델을 만들기 위해 의사결정나무분석(Decision Tree)과 로지스틱 회귀분석(Logistic Regresion)등의 다양한 기법을 적용하여 결과를 비교분석 하고, 오분류 비용을 적용하여, 최적의 분류결정 값을 가지는 모델을 도출한다. 분석결과, 로지스틱 회귀분석이 산재보험 부정수급 유형 발견에 보다 효과적인 모델로 판명되었다. 또한 판별점(Cut-Off) 0.01로 했을 때 4개변수(요양기간, 업종형태, 의료기관, 재해발생형태)가 부정수급에 탐지하는데 영향력이 큰 변수로 선정되었다.

  • PDF

Data Mining for Road Traffic Accident Type Classification (데이터 마이닝을 이용한 교통사고 심각도 분류분석)

  • 손소영;신형원
    • Journal of Korean Society of Transportation
    • /
    • v.16 no.4
    • /
    • pp.187-194
    • /
    • 1998
  • 본 연구는 교통사고 심각도와 관련된 중요변수를 찾고 이들 변수를 바탕으로 신경망, Decision Tree, 로지스틱 회귀분석을 이용하여 사고 심각도 분류 예측모형을 추정하였다. 다수의 범주형 변수로 이루어진 교통사고 통계원표상의 설명변수 들로부터 사고 심각도 변화에 영향력 있는 변수 선택을 위하여 독립성 검정을 위한 $x^2$ test와 Decision Tree를 이용하였고, 선택된 변수들은 신경망과 로지스틱 회귀분석의 기초로 이용되었다. 분석결과 세가지기법간에 분류정확도에는 유의한 차이가 없는 것으로 나타났다. 그러나 Decision Tree가 설명변수 선택능력과 분석수행시간, 사고 심각도 결정요인 식별의 용이함 측면에서 범주형 종속변수인 사고 심각도의 분석에 적합한 것으로 보이며 사고 심각도에는 보호장구가 가장 큰 영향을 미치는 것으로 재입증되었다.

  • PDF