• 제목/요약/키워드: 로지스틱모델

검색결과 239건 처리시간 0.021초

빅데이터 기반 2형 당뇨 예측 알고리즘 개발 (Development of Type 2 Prediction Prediction Based on Big Data)

  • 심현;김현욱
    • 한국전자통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.999-1008
    • /
    • 2023
  • 당뇨병과 같은 만성 질환의 조기 예측은 중요한 이슈이며, 그중에서도 당뇨 예측의 정확도 향상은 매우 중요하다. 당뇨 예측을 위한 다양한 기계 학습 및 딥 러닝 기반 방법론을 도입하고 있으나, 이러한 기술들은 다른 방법론보다 더 우수한 성능을 위해 대량의 데이터를 필요로 하며, 복잡한 데이터 모델 때문에 학습 비용이 높다. 본 연구에서는 pima 데이터셋과 k-fold 교차 검증을 사용한 DNN이 당뇨 진단 모델의 효율성을 감소시킨다는 주장을 검증하고자 한다. 의사 결정 트리, SVM, 랜덤 포레스트, 로지스틱 회귀, KNN 및 다양한 앙상블 기법과 같은 기계 학습 분류 방법을 사용하여 어떤 알고리즘이 최상의 예측 결과를 내는지 결정하였다. 모든 분류 모델에 대한 훈련 및 테스트 후 제안된 시스템은 ADASYN 방법과 함께 XGBoost 분류기에서 최상의 결과를 제공하였으며, 정확도는 81%, F1 계수는 0.81, AUC는 0.84였다. 또한 도메인 적응 방법이 제안된 시스템의 다양성을 보여주기 위해 구현되었다. LIME 및 SHAP 프레임워크를 사용한 설명 가능한 AI 접근 방식이 모델이 최종 결과를 어떻게 예측하는지 이해하기 위해 구현되었다.

머신러닝을 활용한 식품소비에 따른 대사성 질환 분류 모델 (Metabolic Diseases Classification Models according to Food Consumption using Machine Learning)

  • 홍준호;이경희;이혜림;정환석;조완섭
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.354-360
    • /
    • 2022
  • 대사성 질환은 국내의 경우 유병률이 26%에 이르는 질환으로 복부비만, 고혈압, 공복혈당장애, 고중성지방, 낮은 HDL 콜레스테롤 5가지 상태 중 3가지를 동시에 가진 상태를 말한다. 본 논문은 농촌진흥청의 소비자패널 데이터와 건강보험공단의 진료 데이터를 연계하여 식품 소비 특성을 통해 대사성 질환자군과 대조군으로 나누는 분류 모델을 생성하고 차이를 비교하고자 한다. 기존의 국내외에서 연구된 많은 대사성 질환과 식품 소비 특성 관련 연구는 특정 식품군이나 특정 성분의 질환 상관성 연구이며, 본 논문은 일반 식사에서 포함하는 모든 식품군을 고려한 로지스틱 회귀를 이용한 분류 모델, 의사결정나무 기반 분류 모델, XGBoost를 활용한 분류 모델을 생성하였다. 세 가지 모델 중 정확도가 높은 모델은 XGBoost 분류 모델이지만, 정확도가 0.7 미만으로 높지 않았다. 향후 연구로 환자군의 식품 소비 관찰 기간을 5년 이상으로 확대하고 섭취한 식품을 영양적 특성으로 변환한 후 대사성 질환 분류 모델 연구가 필요하다.

뇌혈관질환자의 미 충족 의료에 미치는 영향요인 연구 (Study of the Factors affecting Unmet Medical Needs in Patients with Cerebrovascular Diseases)

  • 이정욱
    • 디지털융복합연구
    • /
    • 제16권9호
    • /
    • pp.279-291
    • /
    • 2018
  • 본 연구는 뇌혈관질환자의 미 충족 의료 발생의 위험요인을 실증하기 위한 연구이다. 이를 위해 2014년 한국의료패널 데이터를 활용해 SPSS/WIN24.0 프로그램으로 위계적 로지스틱 회귀분석을 적용하여 통계 분석을 실시하였다. Anderson 모형에 따라 소인 요인과 가능 요인을 보정해 필요 요인을 투입한 위계적 로지스틱 회귀분석의 최종 모델에서 미 충족 의료 발생에 영향을 미치는 설명변수로서 성별, 경제활동 여부, 소득, 와병 경험, 활동제한 여부, 주관적 건강상태, 만성질환 개수가 유의한 영향변수로 검증되었다. 이러한 연구 결과를 토대로 뇌혈관질환의 효과적인 관리와 치료에 필요한 실무적 정책적 시사점으로서 뇌혈관질환자의 미 충족 의료 발생률을 감소시키기 위한 전략적 방안을 뇌혈관질환 관리 대책에 포함시켜야 할 필요성, 뇌혈관질환자의 의료적 필요 충족을 위해 다양한 차원의 변수들을 고려한 포괄적 대책 마련의 필요성, 미 충족 의료 발생의 유의한 영향변수들을 중심으로 의료서비스에 대한 접근성을 높일 수 있는 구체화된 서비스 매뉴얼 제작의 필요성에 대해 제언하였다.

기업 인적자원 관련 변수를 이용한 기업 신용점수 모형 구축에 관한 연구 (A Study for Building Credit Scoring Model using Enterprise Human Resource Factors)

  • 이영섭;박주완
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.423-440
    • /
    • 2007
  • 본 논문의 목적은 기업 신용점수에 영향을 미치는 기업 인적자원 요소들을 찾아서 기업 신용점수 모형을 구축하는 것이다. 모형 구축을 위해 사용된 자료는 2005년 한국직업능력개발원의 인적자본 기업패널 (Human Capital Corporate Panel, HCCP) 설문조사 자료와 한국신용평가(주)의 KIS-신용평점모델에서 생성된 기업 신용점수이다. 모형 구축을 위한 독립변수는 McLagan (1989)의 '인적자원 바퀴모델'을 토대로 인적자본 기업패널 설문조사 문항을 선택하여 사용하였으며, 종속변수로는 기업 신용평가점수를 사용하였다. 또한 기업 인적자원 관련 변수를 이용한 기업 신용점수 모형 구축을 위해 로지스틱 회귀모형을 사용하였다. 모형 구축 결과 최종적으로 선택된 변수는 22개였다 영역별로 세분화해서 살펴보면 대분류 기준으로 HRD 영역은 6개, HRM 영역은 15개, 기타 1개이고, 중분류 기준으로 개인개발 2개, 경력개발 2개, 조직개발 2개, 조직직무설계 1개, 인적자원계획 4개, 정보체계 2개, 보상 및 장려 6개, 복지후생 1개, 노사관계 1개, 기업규모 1개가 선택되었다. 구축된 모형을 평가하기 위하여 10등급 교차타당성 분석을 통한 오분류율, G-mean은 각각 30.81, 68.27이었다. 그리고 반응율은 가장 좋은 십분위가 가장 나쁜 십분위보다 약 6.08배가 크고 점차 감소하는 경향을 보이고 있다. 그러므로 구축된 모형은 기업 인적자원 관련 변수를 이용해 기업 신용점수를 측정하는데 적당한 모형이라는 결론을 내릴 수 있다

범이론적 모델에 기반을 둔 흡연자의 금연행동 변화단계에 대한 탐색적 연구 (Longitudinal Patterns of Stages of Changes in Smoking Behaviors among Korean Adult Smokers: Applying the Transtheoretical Model of Change)

  • 박현용;전진아;손선주
    • 사회복지연구
    • /
    • 제49권1호
    • /
    • pp.5-28
    • /
    • 2018
  • 개인의 건강에 부정적인 영향을 미치고 높은 사회경제적 비용 부담을 초래하는 흡연은 예방이 가능하다는 측면에서 중요한 사회문제로 인식되고 있지만, 성인 흡연자의 금연의도에서 행동으로의 종단적인 변화 패턴을 살펴보는 연구는 매우 제한적이다. 따라서 본 연구는 3~11차의 한국복지패널 자료를 활용하여 한국 성인 흡연자 4,968명의 금연행동의 변화 패턴을 반복측정 잠재계층 모형을 사용하여 확인하였다. 반복측정 잠재계층 분석 결과, 본 연구는 (1) 지속적으로 금연 실행/유지 단계에 있는 집단(33.6%) (2) 금연 숙고/준비 단계에서 금연 실행/유지 단계로 변화하는 집단(14.8%), (3) 지속적으로 숙고/준비 단계에 머무르는 집단(29.6%), (4) 지속적으로 숙고이전 단계에 머무를 집단(22.1%)의 4개의 잠재적 집단을 확인하였다. 또한 다항로지스틱 분석을 통하여 금연행동 변화 패턴과 인구사회학적 요인 및 임상적 특성(우울수준 및 음주행동) 간 연관성을 살펴보았다. 다항로지스틱 회귀분석 결과 높은 우울수준과 음주를 하는 흡연자의 경우 지속적 금연 실행/유지 단계의 집단보다는 지속적 숙고 이전 단계에 속할 가능성이 높은 것으로 나타났다. 본 연구의 결과는 금연을 전혀 고려하지 않고 있는 숙고 이전 단계의 사람들과 지속적으로 숙고/준비 단계에 머무를 사람들에 대한 타켓화된 접근이 필요함을 시사한다.

맥파의 특징점 추출 방법에 따른 만성위염 판별 모형 (Classification Model of Chronic Gastritis According to The Feature Extraction Method of Radial Artery Pulse Signal)

  • 최상호;신기영;김재욱;진승오;이태범
    • 전자공학회논문지
    • /
    • 제51권1호
    • /
    • pp.185-194
    • /
    • 2014
  • 한국에서 만성위염은 10명당 한 명 꼴로 발생하는 질병이다. 만성위염을 진단하기 위해서 일반적으로 내시경 검사를 하지만 이는 환자에게 고통을 주고 비용이 비싸다는 단점을 가지고 있다. 한편 비침습적이고 저비용인 전통한방의학의 맥진에 따르면, 오른쪽 손목의 '관' 위치에서 비위의 기능적 이상을 진단할 수 있다. 본 연구에서는, 전통한방의학의 견해에 따라 오른쪽 손목 '관' 부위의 맥파를 분석하여 만성위염 판별모델을 개발하였다. 모델의 판별률을 비교하기 위해, 피크-밸리 검출법과 가우시안 모델을 적용한 상이한 방법의 특징점 추출방법에 대해 선형판별분석 기법과 로지스틱 회귀분석법을 적용해 보았다. 그 결과, 판별모델과 특징점 추출 방법에 따라 77%~89%의 민감도와 72%~83%의 특이도를 보였고 각 모델의 평균 판별률은 약 80% 내외로 얻어졌다. 구체적으로, 가우시안 모델이 상대적으로 우수한 민감도(89.1%와 87.5%)를 보인 반면, 피크-밸리 검출법은 우수한 특이도(82.8%와 81.3%)를 보였고, 평균적인 판별률에 있어서는 가우시안 모델이 1.2% 정로 앞섰다(80.9% vs 79.7%). 결론적으로, 전통의학적 맥진원리에 기반한 요골동맥 맥파의 특성을 이용하여 유의미한 만성위염 판별모델을 얻을 수 있었고, 민감도에 있어서 가우시안 모델이 더 우수하였고, 특이도에 있어서 피크-밸리 검출법이 더 우수하였다.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

약물유전체학에서 약물반응 예측모형과 변수선택 방법 (Feature selection and prediction modeling of drug responsiveness in Pharmacogenomics)

  • 김규환;김원국
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.153-166
    • /
    • 2021
  • 약물유전체학 연구의 주요 목표는 고차원의 유전 변수를 기반으로 개인의 약물 반응성을 예측하는 것이다. 변수의 개수가 많기 때문에 변수의 개수를 줄이기 위해서는 변수 선택이 필요하며, 선택된 변수들은 머신러닝 알고리즘을 사용하여 예측 모델을 구축하는데 사용된다. 본 연구에서는 400명의 뇌전증 환자의 차세대 염기서열 분석 데이터에 로지스틱 회귀, ReliefF, TurF, 랜덤 포레스트, LASSO의 조합과 같은 여러 가지 혼합 변수 선택 방법을 적용하였다. 선택된 변수들에 랜덤포레스트, 그래디언트 부스팅, 서포트벡터머신을 포함한 머신러닝 방법들을 적용했고 스태킹을 통해 앙상블 모형을 구축하였다. 본 연구의 결과는 랜덤포레스트와 ReliefF의 혼합 변수 선택 방법을 이용한 스태킹 모형이 다른 모형보다 더 좋은 성능을 보인다는 것을 보여주었다. 5-폴드 교차 검증을 기반으로 하여 적합한 최적 모형의 평균 검증 정확도는 0.727이고 평균 검증 AUC 값은 0.761로 나타났다. 또한, 동일한 변수를 사용할 때 스태킹 모델이 단일 머신러닝 예측 모델보다 성능이 우수한 것으로 나타났다.

순수전기차 경험 고객의 우려 요인에 따른 전기차 구매 의사 영향 (The Effect of Experienced Consumers' Concerns on Willingness to Purchase Battery Electric Vehicles)

  • 정직한
    • 디지털융복합연구
    • /
    • 제19권6호
    • /
    • pp.143-162
    • /
    • 2021
  • 국내 순수전기차 시장은 초기 시장형성 단계이므로 보급확대를 위해서는 고객의 순수전기차에 대한 인식과 구매 의사에 관한 연구가 필요하다. 본 논문은 고객세분화를 위한 이론적 프레임을 전기차 사용 경험 전후에 고객의 전기차 구매 의사를 기반으로 도출하였다. 특히 순수전기차 사용 경험이 있는 서울 및 제주지역 응답자만을 대상으로 한 설문조사를 통해 고객의 구매 의사와 우려 요인들을 실증분석하였다. 로지스틱 회귀모델의 분석 결과, 경험 고객이 차내 냉난방기기에 대한 우려가 클수록 고객의 구매 의사는 감소하고, 고객의 전기차의 일일 주행거리가 길수록 구매 의사는 증가한다. 또한 순차형 프로빗 모델의 분석 결과, 경험 고객의 전기차의 주행거리, 사고 시 A/S, 경사로 주행에 대한 우려가 클수록 고객이 냉난방기기에 대해 우려가 증가했다. 본 논문은 정책입안자 및 기업에게 전기차 관련 고객세분화, 연구개발, 마케팅 전략, 지원정책 수립과 관련하여 시사점을 제공할 수 있다.

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.