• 제목/요약/키워드: Decision Tree

검색결과 1,650건 처리시간 0.025초

장기요양 필요 발생의 고위험 대상자 발굴을 위한 예측모형 개발 (Development of prediction model identifying high-risk older persons in need of long-term care)

  • 송미경;박영우;한은정
    • 응용통계연구
    • /
    • 제35권4호
    • /
    • pp.457-468
    • /
    • 2022
  • 고령인구가 증가함에 따라 국가차원에서 노인의 건강노화 실현을 위한 장기요양 필요 발생의 예방 방안을 마련하는 것은 매우 중요하며, 정책적 효과를 극대화하기 위해서는 적절한 대상자의 선정이 선행되어야 한다. 이에 본 연구는 국민건강보험공단의 국민건강정보를 활용하여, 장기요양 필요를 야기하는 기능장애 발생 가능성이 높은 대상자를 발굴하기 위한 예측모형을 개발하고자 한다. 본 연구는 연구대상자의 과거 수집된 자료를 활용하는 후향적 연구로, 본 연구의 연구대상자는 만 65세 이상 의료보장등록인구이다(총 7,724,101명). 예측모형 개발을 위해 고유 방법인 로지스틱 회귀모형, 머신러닝 방법인 의사결정나무와 랜덤포레스트, 딥러닝 방법인 다층퍼셉트론 신경망을 분석하였다. 체계적 분석절차를 통해 각 분석방법별 모형을 적합하였고, 내적 타당성 및 외적 타당성 평가 결과를 기반으로 최종 예측모형을 랜덤포레스트로 선정하였다. 랜덤포레스트는 모집단에서의 4.50%밖에 되지 않는 장기요양 필요 대상자의 약 90%를 장기요양 필요 발생 고위험 대상자로 예측할 수 있다. 본 연구의 예측모형 및 고위험군 기준은 노인의 욕구 중심에서 예방 서비스가 필요한 대상자를 선제적으로 발굴하는데 기여할 것으로 기대된다.

머신러닝을 활용한 식품소비에 따른 대사성 질환 분류 모델 (Metabolic Diseases Classification Models according to Food Consumption using Machine Learning)

  • 홍준호;이경희;이혜림;정환석;조완섭
    • 한국콘텐츠학회논문지
    • /
    • 제22권3호
    • /
    • pp.354-360
    • /
    • 2022
  • 대사성 질환은 국내의 경우 유병률이 26%에 이르는 질환으로 복부비만, 고혈압, 공복혈당장애, 고중성지방, 낮은 HDL 콜레스테롤 5가지 상태 중 3가지를 동시에 가진 상태를 말한다. 본 논문은 농촌진흥청의 소비자패널 데이터와 건강보험공단의 진료 데이터를 연계하여 식품 소비 특성을 통해 대사성 질환자군과 대조군으로 나누는 분류 모델을 생성하고 차이를 비교하고자 한다. 기존의 국내외에서 연구된 많은 대사성 질환과 식품 소비 특성 관련 연구는 특정 식품군이나 특정 성분의 질환 상관성 연구이며, 본 논문은 일반 식사에서 포함하는 모든 식품군을 고려한 로지스틱 회귀를 이용한 분류 모델, 의사결정나무 기반 분류 모델, XGBoost를 활용한 분류 모델을 생성하였다. 세 가지 모델 중 정확도가 높은 모델은 XGBoost 분류 모델이지만, 정확도가 0.7 미만으로 높지 않았다. 향후 연구로 환자군의 식품 소비 관찰 기간을 5년 이상으로 확대하고 섭취한 식품을 영양적 특성으로 변환한 후 대사성 질환 분류 모델 연구가 필요하다.

데이터의 불균형성을 제거한 네트워크 침입 탐지 모델 비교 분석 (Experimental Comparison of Network Intrusion Detection Models Solving Imbalanced Data Problem)

  • 이종화;방지원;김종욱;최미정
    • KNOM Review
    • /
    • 제23권2호
    • /
    • pp.18-28
    • /
    • 2020
  • 컴퓨팅 환경의 발전에 따라 IT 기술이 의료, 산업, 통신, 문화 등의 분야에서 사람들에게 제공해주는 혜택이 늘어나 삶의 질도 향상되고 있다. 그에 따라 발전된 네트워크 환경을 노리는 다양한 악의적인 공격이 존재한다. 이러한 공격들을 사전에 탐지하기 위해 방화벽, 침입 탐지 시스템 등이 존재하지만, 나날이 진화하는 악성 공격들을 탐지하는 데에는 한계가 있다. 이를 해결하기 위해 기계 학습을 이용한 침입 탐지 연구가 활발히 진행되고 있지만, 학습 데이터셋의 불균형으로 인한 오탐 및 미탐이 발생하고 있다. 본 논문에서는 네트워크 침입 탐지에 사용되는 UNSW-NB15 데이터셋의 불균형성 문제를 해결하기 위해 랜덤 오버샘플링 방법을 사용했다. 실험을 통해 모델들의 accuracy, precision, recall, F1-score, 학습 및 예측 시간, 하드웨어 자원 소모량을 비교 분석했다. 나아가 본 연구를 기반으로 랜덤 오버샘플링 방법 이외에 불균형한 데이터 문제를 해결할 수 있는 다른 방법들과 성능이 높은 모델들을 이용하여 좀 더 효율적인 네트워크 침입 탐지 모델 연구로 발전시키고자 한다.

특성화고등학교 졸업 후 취업자의 근속 원인 분석 연구 -상업계 고등학교를 중심으로 (Analysis of the Causes for Continuous Employment of Employed Students after Graduation from Characterization High School -Focusing on the Commercial High Schools)

  • 정규한;이장희
    • 실천공학교육논문지
    • /
    • 제14권1호
    • /
    • pp.165-177
    • /
    • 2022
  • 본 연구는 특성화고등학교를 졸업한 취업자의 근속 원인 분석을 통해 일선 학교에서 장기 근속을 위한 취업 지도의 방향을 제시하기 위함이다. 특별히, 상업계고등학교를 졸업한 학생들이 취업을 결정하는데 끼친 개인적 이유와 취업 후 근속에 대한 개인, 학교, 회사 및 정부 정책 요인 등을 분석하여 장기 근속을 위한 학생 지도 방안을 제시하는데 그 목적이 있다. 이를 위해, 전국의 상업계고등학교 졸업자를 대상으로 설문조사를 실시하고, 탐색적 요인 분석, Cronbach's Alpha, 의사결정나무 분석기법을 적용하여 설문 데이터의 타당도, 신뢰도 및 인과관계를 분석하였다. 취업에 대한 개인적인 목표 설정이 1년 이상 근속에 중요한 요인이고, 직장에서의 인간관계와 개인 성격이 3년 이상 근속에 중요한 요인이며, 취업을 하는 계기는 개인적 사유와 학교의 권장 영향이 크고, 취업 특강, 캠프, '선배와 교사의 조언' 프로그램이 취업에 도움이 되고, 회계 및 컴퓨터 관련 교과가 근속에 도움이 된다는 것을 확인할 수 있었다. 이에 따라, 특성화고등학교에서는 개인적인 목표 설정을 위한 교육과 사회생활의 기반이 되는 인간관계 형성 등에 대한 구체적인 지도방안 마련과 취업 및 근속에 도움되는 상기한 과목 및 프로그램의 적극적인 운영이 요구된다.

자연장 활성화를 위한 서비스 개선방안 연구 (A Study on the Improvement of Service for the Revitalization of Natural Burial)

  • 이정선;안진호
    • 서비스연구
    • /
    • 제13권3호
    • /
    • pp.70-81
    • /
    • 2023
  • 장사 방법의 선택은 생의 마지막 순간에 필요한 결단이며, 이를 위해 우리는 몇 가지를 판단기준으로 삼는다. 우리의 장례방법에는 자연이 아닌 조상숭배 문화와 종교가 지배적이었다. 인간적인 시각에서 자연을 수단화하여 이용했을 뿐 자연에 대한 배려나 자연과의 공생과 같은 자연장의 방법이 등장한 건 최근이다. 최근 자연장의 국민 선호도가 높은 것은 오늘날의 강력한 시대정신, 자연 친화적 가치이다. 2021년 통계 기준, 우리나라 전국 화장률 92%를 상회 했으며, 불과 20년 전 화장률 20% 미만에 견주면 우리의 장사방법은 급변했다. 90년대 초반부터 시작된 화장장려 운동과 정부시책이 체계적으로 전개되면서 봉안시설이 우리 곁에 자리 잡았다. 하지만 이 또한 국토훼손이라는 비난의 굴레를 면하지 못하던 중, 2008년 자연장이라는 장법이 제도권에 도입되었고, 약 15년이 흘렀지만 자연장 활성화는 예상보다 더디다. 발전 정체의 원인 중 하나는 "(한번 숲으로 돌아가면) 숲에 영원히 잠든다"라는 자연장의 기본 정신을 잊고, 마치 묘지의 분묘처럼 생각(改葬을 인정)한 데서 출발했다고 본다. 이에, 본 연구에서는 자연장의 도입배경과 현재 운영실태를 파악하고 자연장이 국민들로부터 사랑받는 추모 공간으로 거듭기 위한 추모서비스 개선을 위한 발전방안을 제시하고자 한다, 또한 국내외 우수 사례와 고품격이면서도 친환경적인 선진국 자연장의 조성사례를 통해 시사점과 적용 가능성을 검토한다.

정수장 전염소 공정제어를 위한 침전지 잔류염소농도 예측 머신러닝 모형 (Machine learning model for residual chlorine prediction in sediment basin to control pre-chlorination in water treatment plant)

  • 김주환;이경혁;김수전;김경훈
    • 한국수자원학회논문집
    • /
    • 제55권spc1호
    • /
    • pp.1283-1293
    • /
    • 2022
  • 본 연구는 정수장의 수처리 공정에서 계측되고 있는 수량 및 수질데이터의 활용과 수처리 공정제어의 지능화를 위한 것으로 정수장에서 전염소 공정이 수반되는 처리공정에서 침전지 유출수 잔류염소농도 안정화를 위하여 이를 추정할 수 있는 모형을 구축하고자 하였다. 정수장 침전지 유출수의 잔류염소농도를 예측하기 위하여 중회귀모형과 인공지능 알고리즘 중 다층퍼셉트론 신경망, 랜덤포레스트 및 장단기기억(Long Short Term Memory; LSTM) 모형을 활용하였고 그 결과를 비교, 평가하였다. 모형의 입력변수로는 전염소 공정이 도입된 정수장에서의 잔류염소농도, 수온, 탁도, pH, 전기전도도, 유량, 알칼리도 등이 사용되었고 전염소에 따른 침전지의 안정적 운영을 위해 요구되는 침전지 잔류염소농도를 출력변수로 구성하였다. 적용 결과에서는 랜덤포레스트 모형이 가장 양호한 결과를 보여 주었으며 다음으로 LSTM, 다층퍼셈트론 신경망 순으로 나타났다. 수학적 모형인 중회귀모형은 적합도 측면에서 가장 낮은 결과를 보여 주었는데, 이는 수량과 수질데이터의 수치적인 규모나 차원의 차이뿐만 아니라 계절별 수질특성에 따라 염소소비 특성이 매우 다양하게 반응하기 때문으로 판단된다. 따라서 정수장 수처리 공정에서 인공지능 알고리즘의 적용을 위해서는 랜덤포레스트와 같이 의사결정 트리구조의 도입과 적용이 타당한 것으로 나타났다. 본 연구에서 분석된 결과를 근거로 전염소 공정이 도입된 정수장 수처리 공정에서 염소주입량을 실시간으로 예측 가능하게 함으로써 침전지 유출수에서 잔류염소농도를 일정하게 유지하는데 기여할 수 있을 것으로 기대된다.

통계와 시각화를 결합한 데이터 분석: 예측모형 대한 시각화 검증 (Data analysis by Integrating statistics and visualization: Visual verification for the prediction model)

  • 문성민;이경원
    • 디자인융복합연구
    • /
    • 제15권6호
    • /
    • pp.195-214
    • /
    • 2016
  • 예측 분석은 패턴인식(Pattern recognition) 혹은 기계학습(Machine learning)으로 불리는 확률적 학습 알고리즘을 기반으로 하기 때문에 사용자가 분석 과정에 개입하여 더 많은 정보를 얻어내기 위해서는 높은 통계적 지식수준이 요구된다. 또한 사용자는 분석 결과외의 다른 정보를 확인 할 수 없고 데이터의 특성 변화와 데이터 하나하나의 특징을 파악하기 힘들다는 단점이 있다. 본 연구는 이러한 예측분석의 단점을 보완하고자 통계적인 데이터 분석 방법과 시각화 분석 방법을 결합하여 데이터 분석을 진행하였으며 통계적인 분석 방법만을 진행 할 경우 발생하는 단점을 보완하고 데이터에서 더 많은 정보를 도출해 내기 위한 방법론을 제시 하고자하였다. 이를 위해 본 연구는 영화 리뷰에서 추출한 감정 어휘가 독립변인이고 영화의 흥행 값이 종속변인인 데이터를 예제 데이터로 활용하여 진행하였다. 본 연구의 연구 방법론을 적용하였을 때의 이점은 다음과 같다. 첫째, 의사결정나무 분석에서 제시된 분할 기준이 적용될 때 마다 변하는 데이터의 패턴을 파악할 수 있다. 둘째, 제시된 최종 예측모형에 포함된 데이터들의 특성을 확인 할 수 있다. 본 연구의 시사점은 예측모형의 단점을 보완하고 데이터로부터 더 많은 정보를 추출하기 위해 통계적인 데이터 분석과 시각적인 데이터 분석을 결합하여 시행하였다는 것이다. 통계적인 분석 방법을 통해 각 변수의 관계를 파악하고 높은 예측 값을 가지는 모형을 도출하였으며, 시각화 분석에서는 인터랙션 기능을 제공함으로서 통계적으로 제시된 예측모형을 검증하고 더 다양한 정보를 도출 할 수 있게 하였다.

여행자 페르소나 기반 도서관 여행 코스 추천 모델 개발 - J시 도서관 여행을 위한 시설 및 동선 중심으로 - (Developing Library Tour Course Recommendation Model based on a Traveler Persona: Focused on facilities and routes for library trips in J City)

  • 이수현;김현수;백지원;오효정
    • 한국도서관정보학회지
    • /
    • 제54권2호
    • /
    • pp.23-42
    • /
    • 2023
  • 도서관 여행 프로그램은 J시가 처음 도입, 운영하고 있는 새로운 형태의 문화프로그램으로, 도서관 여행자는 정해진 코스에 따라 관내 특화 도서관을 여행하며 다양한 체험을 하게 된다. 본 연구는 보다 많은 이용자들이 도서관 여행에 참여할 기회를 누릴 수 있도록 기존 고정된 단체여행 형태 외에 개별 참여하는 이용자의 특성을 고려한 맞춤형 코스 추천 모델 구축을 목적으로 한다. 이를 위해 도서관 여행자의 특성을 유형화하여 여행자 페르소나를 설정하였으며, 그에 따른 도서관 평가 항목과 평가 기준을 수립하였다. 도서관 여행 프로그램의 대상이 되는 도서관 22관을 선정, 실제 답사를 통해 도서관 데이터를 실측하였다. 수집한 데이터를 기반으로 여행자의 특성에 적합한 도서관의 특징을 도출하였으며, 의사결정나무 알고리즘을 활용해 페르소나 기반의 도서관 여행 코스 추천 모델을 개발하였다. 나아가 추천 모델의 활용 가능성을 시연하기 위해 이를 적용한 모바일 앱 목업을 제작하였으며, 실제 J시 도서관 이용자들을 대상으로 사용자 평가를 진행해 개발한 모델의 만족도와 개선사항을 파악하였다.

머신러닝 기반 대학생 중도 탈락 예측 모델의 성능 비교 (Performance Comparison of Machine Learning based Prediction Models for University Students Dropout)

  • 정석봉;김두연
    • 한국시뮬레이션학회논문지
    • /
    • 제32권4호
    • /
    • pp.19-26
    • /
    • 2023
  • 전국 대학생의 중도 탈락 비율의 증가는 학생 개인 뿐만 아니라 대학과 사회에 심각한 부정적 영향을 끼친다. 본 연구에서는 중도 탈락이 예상되는 학생을 사전에 식별하기 위하여, 각 대학의 학사관리 시스템에서 손쉽게 얻을 수 있는 학적 데이터를 기반으로 머신러닝 분야의 결정트리, 랜덤 포레스트, 로지스틱 회귀 및 딥러닝 기반의 중도 탈락 예측 모델을 구축하고, 그 성능을 비교·분석하였다. 분석 결과 로지스틱 회귀 기반 예측 모델의 재현율이 가장 높았으나 f-1 및 auc 값이 낮은 한계를 보였고, 랜덤 포레스트 기반의 예측 모델의 경우 재현율을 제외한 다른 모든 지표에서 가장 우수한 성능을 보였다. 또한 예측 기간에 따른 예측 모델의 성능을 확인하기 위하여 예측 기간을 단기(1개 학기 이내), 중기(2개 학기 이내) 및 장기(3개 학기 이내)로 나누어 분석해 본 결과, 장기 예측 시 가장 높은 예측력을 보였다. 본 연구를 통해 각 대학은 중도 탈락이 예상되는 학생들을 조기에 식별하고, 이들에 대한 집중 관리를 통해 중도 탈락 비율을 줄이며 나아가 대학 재정 안정화에 기여할 수 있을 것으로 기대된다.

이수식 TBM 데이터와 랜덤포레스트를 이용한 일축압축강도 분류 예측에 관한 연구 (A Study on the Prediction of Uniaxial Compressive Strength Classification Using Slurry TBM Data and Random Forest)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.547-560
    • /
    • 2023
  • 최근 국내외에서 기계학습 기법으로 TBM 굴진 데이터와 지반데이터를 분석하는 지반 분류예측 연구가 증가하고 있다. 본 연구에서는 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 의사결정트리 기반 랜덤포레스트 모델을 3곳의 이수식 TBM 현장에서 획득한 기계 데이터와 지반 데이터에 적용하여 일축압축강도에 대한 다중 분류예측 연구를 하였다. 일축압축강도의 다중 분류 예측을 위해서 학습과 테스트 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 의사 결정 트리를 기반으로 한 랜덤 포레스트를 사용하여 일축압축강도 분류 학습을 수행한 결과, 다중 분류 예측 모델의 정확도는 학습 세트와 테스트 세트에서 각각 0.983 및 0.982로 모두 높게 나타났다. 다만, 클래스 간 데이터 분포의 불균형으로 인하여 클래스 4에서는 재현율이 낮게 평가되었다. 다양한 현장에서 획득한 일축압축강도의 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.