• 제목/요약/키워드: Logistic 모형

검색결과 690건 처리시간 0.023초

제 2형 당뇨병을 이용한 로지스틱과 베이지안 노모그램 구축 및 비교 (Nomogram comparison conducted by logistic regression and naïve Bayesian classifier using type 2 diabetes mellitus (T2D))

  • 박재철;김민호;이제영
    • 응용통계연구
    • /
    • 제31권5호
    • /
    • pp.573-585
    • /
    • 2018
  • 본 연구에서는 제 2형 당뇨(type 2 diabetes mellitus)의 발병 확률을 예측하기 위해 11가지 위험요인을 가지고 로지스틱 회귀모형과 순수 베이지안 분류기 모형에 적합시킨다. 그런 다음 이를 시각적으로 쉽게 이해하는데 도움을 주는 노모그램 구축 방법을 소개한다. 분석은 2013-2015년 6기 국민건강영양조사 데이터를 가지고 분석하였다. 또 로지스틱 회귀모형에 세 가지 상호작용 항을 넣어 분석의 질을 높이고자 하였고 베이지안 노모그램에 left-aligned 방법을 사용하여 비교하기 쉽게 만들었다. 최종적으로 두 노모그램을 비교하고 효용성을 알아보았다. 마지막으로 ROC 곡선을 이용하여 노모그램이 적절한지 검증하였다.

한우 거세우 고기 관능평가 데이터의 로지스틱 회귀분석 (Logistic Regressions with Sensory Evaluation Data about Hanwoo Steer Beef)

  • 이혜정;김재희
    • 응용통계연구
    • /
    • 제23권5호
    • /
    • pp.857-870
    • /
    • 2010
  • 국립축산과학원에서는 2006년 부터 2008년 까지 전국 소비자들을 대상으로 한우 거세우 표본 시료에 대한 관능 평가 조사를 실시하여 데이터를 수집하였으며 본 연구에서는 한우 관능 평가 데이터에 대해 사회 인구학적 요인과 한국 소비자들의 맛 평가에 대한 연관성을 탐구하고자 한다. 소비자 거주지역, 연령, 성별, 직업, 월수입과 쇠고기 부위를 설명변수로 맛등급 평가를 반응변수로 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 회귀계수별 유의성 검정과 적합도 검정을 실시한다. 단계별 변수 선택으로 최종 모형을 선택하고 반응변수 범주에 대한 오즈비를 계산하여 맛등급과 설명변수들 간의 관련성을 파악한다. 또한 맛과 관련 있는 연속형 변수를 설명변수로 포함한 경우에 대해서도 이항 다중 로지스틱 모형과 다항 다중 로지스틱 모형을 적합하고 비교한다. 그 결과 거주 지역, 연령, 월수입과 쇠고기 부위 변수들이 선택되었으며 영남지역에서 맛에 대한 오즈가 큰 편이며 수입이 많고 연령이 높을수록 맛에 대한 오즈가 작은 편이었다. 요리법으로는 탕에 대한 구이의 오즈비가 큰 편이며 쇠고기 부위별로는 우둔에 비해서 등심이 다른 부위들 보다 맛에 대한 차이가 크다고 볼 수 있다. 연속형 변수로는 연도가 맛등급에 큰 영향을 미치는 변수로 나타났다.

AUC 최적화를 이용한 낮은 부도율 자료의 모수추정 (Parameter estimation for the imbalanced credit scoring data using AUC maximization)

  • 홍종선;원치환
    • 응용통계연구
    • /
    • 제29권2호
    • /
    • pp.309-319
    • /
    • 2016
  • 이항 분류모형에서 선형 스코어의 함수인 리스크 스코어를 고려하고, 선형 스코어의 계수를 추정하는 문제를 고려한다. 계수를 추정하는 대표적인 방법으로 로지스틱모형을 이용하는 방법과 AUC를 최대화하여 구하는 방법이 있다. AUC 접근방법으로 구한 모수 추정량은 로지스틱모형을 이용한 선형 스코어의 모수의 최대가능도 추정량보다 자료가 로지스틱 가정이 맞지 않는 일반적인 상황에서도 좋은 추정 결과를 보인다. 본 연구에서는 신용평가모형에서 흔히 접하는 정상보다 부도 경우가 현저하게 작은 상태인 낮은 부도율의 자료를 고려하고, 낮은 부도율의 자료에 AUC 접근방법을 적용한다. 부도의 비율이 정상의 비율보다 현저하게 낮은 불균형 자료를 생성하기 위하여 수정된 로짓함수를 연결함수로 사용한다. 낮은 부도율의 상황인 불균형 자료에 AUC 접근방법을 적용한 판별결과가 로지스틱 모형 추정방법보다 동등하거나 더 나은 모수추정 결과를 보이는 것을 확인하였다.

로지스틱회귀모형에서 로그-밀도비를 이용한 변수의 선택 (Variable Selection with Log-Density in Logistic Regression Model)

  • 강명욱;신은영
    • Communications for Statistical Applications and Methods
    • /
    • 제19권1호
    • /
    • pp.1-11
    • /
    • 2012
  • 로지스틱회귀모형에서 반응변수가 주어졌을 때 설명변수의 조건부 확률분포의 로그-밀도비는 어떤 설명변수가어떻게모형에포함되는지에대한변수선택문제에서유용한정보를제공한다. 설명변수의 조건부 확률분포가 좌우대칭이 아닌 경우 감마분포로 가정하는 것이 적절하다. 여러 가지 모의실험을 수행한 결과를 보면, $x{\mid}y$ = 0과 $x{\mid}y$ = 1의 두 분포가 겹치는 경우에서는 x항과 log(x)항 모두 필요하다. 그리고 두 분포가 분리된 경우에는 x항 또는 log(x)항 중 하나만 필요하다.

한우 암소의 성장곡선 모수에 대한 유전적 경향 (Genetic Aspects of the Growth Curve Parameters in Hanwoo Cows)

  • 이창우;최재관;전기준;김형철
    • Journal of Animal Science and Technology
    • /
    • 제48권1호
    • /
    • pp.29-38
    • /
    • 2006
  • 본 연구는 축산연구소 한우시험장에서 출생한 한우 암소로부터 시간적인 간격을 두고 조사된 체중측정 기록에 대해 비선형의 성장곡선 모형을 적용하여 추정된 성장곡선 모수의 유전적인 경향을 평가하기 위해 실시하였다. 본 연구에서 성장곡선 모수들의 유전력 추정은 단형질 모형과 다형질 모형으로 분석하였으며 단형질 모형의 경우 선형모형은 출생년도-계절과 어미소의 나이의 효과가 포함된 동기우 집단을 고정효과로 상가적 개체유전효과를 임의효과로 하는 Model I과 Model I에 최종 체중측정시의 일령을 일차식 공변이로 추가시킨 Model II 등 두 가지 분석모형을, 그리고 다형질 모형의 경우 출생년도-계절과 어미소 나이의 효과를 고정효과로 하는 Model I과 Model I에 최종 측정시 일령을 공변이로 추가시킨 Model II 등 두 가지 분석모형을 이용하였는데, 단형질 모형의 Model I을 이용하여 추정된 성장곡선 모수 중 성숙체중의 유전력은 모형별로 0.09~0.22의 범위였으며, 성장비는 0.07~0.13의 범위였고, 성숙률은 0.05~0.07의 범위였다. 그리고 Model II를 이용하였을 때는 모형별로 성숙체중이 0.12~0.28, 성장비가 0.07~0.13의 범위였으며 성숙률은 0.12로 Gompertz 모형이나, Von Bertalanffy 모형 그리고 Logistic 모형이 모두 같았다. 한편 다형질 모형의 Model I을 이용하여 추정된 성장곡선모수 중 성숙체중의 유전력은 모형별로 0.09~0.17의 범위였으며, 성장비는 0.07~ 0.13의 범위였고, 성숙률은 0.06으로 세모형이 같았다. 그리고 Model II를 이용하였을 때는 성숙체중은 0.10~0.23, 성장비는 0.00~0.01, 성숙률은 0.06~0.11의 범위였다. 본 연구에서 추정된 성장곡선 모수들의 유전력은 외국의 육우에서 보고되는 유전력보다 낮았으며 한우수소에서 보고된 것과 유사한 결과였다. 그리고 Model II는 성숙체중과 성숙률의 유전력이 Model I보다 크게 추정되어 최종 측정시 일령을 공변이로 첨가할 경우 성숙체중과 성숙률의 상가적유전분산의 크기를 증가시키는 결과를 얻었다. 각 월령별 실측체중과 각 성장곡선 모형에 적합시켜 추정한 월령별 체중들에 대해서는 단형질모형을 이용하여 유전력을 추정하였는데 분석에 이용된 선형모형은 출생년도-계절과 어미소의 나이의 효과가 포함된 동기우 집단을 고정효과로 상가적 개체유전효과를 임의효과로 하는 Model I이었다. 실측체중의 경우 24개월령 체중만 0.52로 한우에 대한 타 연구자들의 결과에 비해 높았고 그 외의 월령별 체중은 타 연구자들의 결과 범위에 포함되는 성적이었다. 각 성장곡선모형으로 적합시켜 구한 생시체중의 유전력은 Gom- pertz 모형이 0.08, Von Bertalanffy 모형이 0.08 그리고 Logistic 모형이 0.06으로서 실측된 생시체중의 유전력 0.27에 비해 높게 나타났다. 그리고 실측체중의 경우 24개월령 체중의 유전력이 0.52, 36개월령 체중의 유전력이 0.32로서 36개월령의 유전력이 24개월령의 유전력에 비해 낮아지는데 적합체중의 경우에는 36개월령 체중의 유전력과 24개월령 체중의 유전력의 차이가 없거나(Gompertz 모형), 오히려 36개월령 체중이 24개월령 체중에 비해 유전력 추정치가 높아지고 있다(Von Bertalanffy 모형, Logistic 모형). 이렇게 적합체중에서 생시의 유전력이 낮아지거나 실측체중의 경우처럼 24개월령 체중보다 36개월령 체중의 유전력이 낮아지지 않는 것은 본 연구에 이용된 각 성장모형들이 생시체중을 실측체중보다 높게 추정하고 36개월령 체중을 낮게 추정하기 때문인 것으로 판단된다. 본 연구 결과로 볼 때 성장곡선 모형으로 추정된 월령별 체중들간에 유전력의 차이가 나타나 한우 암소의 성장예측을 위한 성장곡선의 사용은 중요하게 다루어져야 할 것으로 사료되며, 성장곡선 모수들에 대한 유전능력을 예측하여 한우 암소집단에 대한 선발과 도태의 기준으로 활용한다면 암소의 육용형 개량에 도움이 될 것으로 사료된다.

GIS와 Logistic 회귀모형을 이용한 접도사면 재해위험도 작성 (Making a Hazard Map of Road Slope Using a GIS and Logistic Regression Model)

  • 강인준;강호윤;장용구;곽영주
    • 대한공간정보학회지
    • /
    • 제14권1호
    • /
    • pp.85-91
    • /
    • 2006
  • 최근, 사면붕괴는 산악지역에 접해있는 국도변에서 자연재해로 발생하고 있다. 산악지역의 급속한 도로개설, 확장 등 경제개발로 인하여 사면붕괴와 관련된 사고로 직결된다. 따라서, 국도 안전관리와 국도 기능을 유지하기 위하여 모든 사면의 정기점검은 필수적인 사항이다. 본 연구에서는 도로사면을 평가, 분석하기 이전에 사면붕괴 위험요소를 지리정보(GIS) 데이터베이스로 구축하는 것을 우선시 하고 있다. 따라서, 국도 접도사면의 지리정보(GIS) 정보가 수록되어진 사면대장(SMIS) 작성의 표준안을 제안하였다. 그 다음 연구단계로 로지스틱 회귀모형 적용함으로써 접도사면의 위험성을 사전 평가 할 수 있는 모델을 제시하였다.

  • PDF

로지스틱 회귀모형과 머신러닝 모형을 활용한 주요산업의 부산 지역총생산 및 고용 효과 예측 (Prediction on Busan's Gross Product and Employment of Major Industry with Logistic Regression and Machine Learning Model)

  • 이재득
    • 무역학회지
    • /
    • 제47권2호
    • /
    • pp.69-88
    • /
    • 2022
  • This paper aims to predict Busan's regional product and employment using the logistic regression models and machine learning models. The following are the main findings of the empirical analysis. First, the OLS regression model shows that the main industries such as electricity and electronics, machine and transport, and finance and insurance affect the Busan's income positively. Second, the binomial logistic regression models show that the Busan's strategic industries such as the future transport machinery, life-care, and smart marine industries contribute on the Busan's income in large order. Third, the multinomial logistic regression models show that the Korea's main industries such as the precise machinery, transport equipment, and machinery influence the Busan's economy positively. And Korea's exports and the depreciation can affect Busan's economy more positively at the higher employment level. Fourth, the voting ensemble model show the higher predictive power than artificial neural network model and support vector machine models. Furthermore, the gradient boosting model and the random forest show the higher predictive power than the voting model in large order.

로지스틱회귀분석 모델을 활용한 화학사고 사상사고 예측모형 개발 연구 (A Study on Accident Prediction Models for Chemical Accidents Using the Logistic Regression Analysis Model)

  • 이태형;박춘화;박효현;곽대훈
    • 한국화재소방학회논문지
    • /
    • 제33권6호
    • /
    • pp.72-79
    • /
    • 2019
  • 본 연구를 통해 화학사고 사상사고 예측모형을 개발하였다. 모형은 로지스틱회귀분석 모델을 활용하여 사상사고에 영향을 주는 변수를 도출하여 적용하였고, 통계적 검증방법과 오즈비를 활용하여 모형의 신뢰성 및 정확성을 검증하였다. 모형에 활용한 사고 자료는 과거 발생했던 화학사고 통계를 분석하여 활용하였으며, 사고의 유형, 원인, 발생 장소, 사상자 현황 및 사상자를 발생시킨 화학사고 등의 자료 분석을 통해 통계적으로 유의하게 나타난 독립변수(p < 0.05)를 적용하였다. 본 연구에서 개발한 모형은 사업장에서 화학사고로 인해 발생하는 사상사고의 예방 및 안전시스템 구축을 위한 연구로서 의의가 있다고 할 수 있다. 모형에 의한 분석결과 사상사고 발생에 가장 크게 영향을 미치는 변수는 폭발에 의한 화학사고인 것으로 조사되었다. 따라서 사업장에서 발생하는 폭발 유형의 화학사고를 예방하기 위한 대책마련이 시급하다고 판단된다.

기운 일반화 t 분포를 이용한 이진 데이터 회귀 분석 (Binary regression model using skewed generalized t distributions)

  • 김미정
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.775-791
    • /
    • 2017
  • 이진 데이터는 일상 생활에서 자주 접할 수 있는 데이터이다. 이진 데이터를 회귀 분석하는 방법으로 로지스틱(Logistic), 프로빗(Probit), Cauchit, Complementary log-log 모형이 주로 쓰이는데, 이 방법 이외에도 Liu(2004)가 제시한 t 분포를 이용한 로빗(Robit) 모형, Kim 등 (2008)에서 제시한 일반화 t-link 모형을 이용한 방법 등이 있다. 유연한 분포를 이용하면 유연한 회귀 모형이 가능해지는 점에 착안하여, 이 논문에서는 Theodossiou(1998)에서 제시된 기운 일반화 t 분포 (Skewed Generalized t Distribution)의 이용하여 우도 함수를 최대로 하는 이진 데이터 회귀 모형을 소개한다. 기운 일반화 t 분포를 R glm 함수, R sgt 패키지를 연결하여 이 논문에서 제시한 방법을 R로 분석할 수 있는 방법을 소개하고, 피마 인디언(Pima Indian) 데이터를 분석한다.

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.