• 제목/요약/키워드: 의사결정나무알고리즘

검색결과 106건 처리시간 0.03초

동적계획법 적용에 의한 삼나무 임분의 간벌시업체계 분석 (Analysis of Optimal Thinning Prescriptions for a Cryptomeria japonica Stand Using Dynamic Programming)

  • 한희;권기범;정혜진;설아라;정주상
    • 한국산림과학회지
    • /
    • 제104권4호
    • /
    • pp.649-656
    • /
    • 2015
  • 이 연구의 목적은 국립산림과학원 한남시험림의 삼나무조림지에서 목재 및 탄소 경영을 위한 최적의 간벌시업체계를 결정하기 위해 수행되었다. 이 문제를 풀기 위해 Paderes and Brodie에 의해 개발된 PATH 알고리즘을 의사결정 지원체계로 그리고 임분생장예측을 위해 권기범 등이 개발한 임분생장모델을 적용하였다. 이 임분생장모델은 개체목간의 거리에 대한 고려가 없이 임목의 고사나 간벌과 같은 임분밀도 조절 요인에 의한 생장효과를 예측할 수 있다. 분석 결과 순현재가를 극대화하기 위한 목재생산경영은 탄소흡수량을 극대화하기 위한 탄소경영에 비해 간벌의 횟수는 적었지만 간벌강도가 상대적으로 큰 값으로 나타났다. 탄소경영의 경우 목재생산경영에 비해 탄소흡수량이 약 6% 증가한데 비해 순수익은 약 3.2% 감소하는 것으로 나타났다. 한편 탄소경영이나 목재생산경영을 위한 집약적 경영은 무간벌 시업조건을 전제로 하는 '무간벌 대조구'의 경우에 비해 약 60% 정도의 탄소흡수 및 순수익 증진효과가 있는 것으로 나타났다.

의사결정나무 CART 알고리즘을 이용한 청소년 아침결식 예측 모형: 제7기 (2016-2018년) 국민건강영양조사 자료분석 (A prediction model for adolescents' skipping breakfast using the CART algorithm for decision trees: 7th (2016-2018) Korea National Health and Nutrition Examination Survey)

  • 최선아;정성석;노정옥
    • Journal of Nutrition and Health
    • /
    • 제56권3호
    • /
    • pp.300-314
    • /
    • 2023
  • 본 연구는 2016-2018년 국민건강영양조사 자료를 이용하여 청소년의 아침결식과 관련된 요인을 찾고 아침결식 예측모형을 분석하여 청소년의 아침결식 예방 교육 및 정책 수립에 기초 자료를 제공하고자 하였다. 2016-2018년 국민건강영양조사의 참여자는 총 24,269명으로 12-18세의 청소년 중 변수 결측자를 제외한 대상자는 1,024명이며, 이중 아침식사 섭취자 579명, 결식자 445명이었다. 남학생의 49.1%, 여학생의 50.9%가 아침결식자였다. 연령은 아침식사 결식군이 유의적으로 높으며, 결식군의 고등학생 비율이 높았다. 가구소득 4분위수는 아침식사 섭취군의 9.1%, 결식군의 15.4%가 '하'로 유의적인 차이를 보였다. 조사대상자의 신체적 요인은 유의적인 차이를 보이지 않았으나 체중감소를 위해 결식을 하는 경우는 아침식사 결식군의 25.3%, 섭취군의 10.4%로 유의적인 차이를 보였다. 조사대상자의 식습관과 정신건강에서 아침식사 결식군이 섭취군보다 1일 1회이상 외식횟수가 유의적으로 높았으며, 최근 1년간 1주 동안 5-7회 이상의 저녁식사 섭취빈도는 아침섭취군이 유의적으로 높았다. 또한, 아침식사 섭취군은 결식군보다 영양교육 경험이 유의적으로 높았으며, 아침식사 섭취군이 결식군보다 에너지, 단백질, 지방, 탄수화물, 식이섬유, 콜레스테롤, 비타민 A, 비타민 B1, 비타민 B2, 니아신, 비타민 C, 칼슘, 인, 나트륨, 칼륨, 철의 섭취율 및 탄수화물, 단백질, 지방의 섭취비율도 유의적으로 높았다. 아침결식 예측 모형을 도출하기 위해 CART 알고리즘을 사용한 의사결정나무 분석결과, 아침식사 섭취여부를 결정하는 주요인은 투입된 7개의 변수 중 교육수준과 영양교육 경험을 제외한 결식을 통한 체중조절, 가구소득 4분위수, 저녁식사 빈도, 연령, 외식 횟수였다. 체중조절을 위하여 결식을 하는 경우는 아침식사 결식군에서 높았다. 체중조절을 위하여 결식을 하지 않는 대상자는 가구소득 4분위수의 수준에서 소득이 '하', '중하'일 때 아침결식 비율이 높았다. 가구소득수준이 '상', '중상' 대상자의 경우는 저녁식사 빈도가 주 3-4회 이하인 경우 아침결식 비율이 높았다. 저녁식사 빈도가 주 5-7회이더라도 연령이 14.5세 초과인 경우 아침결식을 하고 있으며, 연령이 14.5세 미만인 대상자들은 외식횟수가 일 1회 이상인 경우, 주 6회 이하인 경우 아침결식을 하고 있었다. 따라서 아침결식을 감소시키기 위해서 청소년 대상의 각 그룹의 결식 주요인에 따라 올바른 체중조절 방법, 아침식사 배달, 건강정보에 대한 접근성 높이기, 아침결식과 질병과의 관련성 교육을 위한 토론수업 및 역할놀이 등과 같은 맞춤형 교육이 필요하며, 향후 청소년의 저녁식사 결식 감소 방안에 대한 연구가 추가적으로 진행되어야 하겠다.

재가장애인 사례관리의 욕구사정 정확도 향상을 위한 사정도구 개발과 욕구추출 알고리즘 과정 연구 - 데이터 마이닝 분석기법을 활용하여 - (Development of Needs Assessment tool and Extraction Algorithm Fitting for Individuals in Care Management for the disabled in Home)

  • 김영숙;정국인
    • 한국사회복지학
    • /
    • 제60권2호
    • /
    • pp.155-173
    • /
    • 2008
  • 본 연구는 지역사회 내에 거주하는 재가 장애인의 신체적, 심리적, 사회 환경적 상황을 종합적으로 평가하여 그에 적합한 서비스를 제공하기 위한 욕구 중심의 사정도구를 개발하고, 개발된 도구를 활용하여 재가 장애인 200명의 사정 데이터를 수집한 후 데이터마이닝의 의사결정 나무분석 기법을 활용하여 욕구에 적합한 서비스제공을 위한 욕구 추출 알고리즘을 구성하였다. 본 연구는 2006년 6월부터 10월까지 5개월간 이루어졌으며, 크게 사정도구 개발과 개발된 도구를 활용한 욕구추출 과정으로 나뉠 수 있다. 도구개발은 문헌고찰을 통하여 기본적인 틀을 구성하였고, 포커스집단과 전문가들을 통하여 사정도구의 주관적 호소와 욕구 문항을 개발하였으며, 도구의 타당도를 확인하기 위해 통계적인 검증과정을 거쳤다. 검증결과 본 도구는 <표 2>와 <표 3>의 결과처럼 타당도와 신뢰도를 확보하였으며, 이 도구를 활용하여 욕구추출 알고리즘 요약을 <표 5>와 같이 제시하였다. 본 연구의 결과로 제시한 사정도구와 알고리즘은 재가 장애인의 객관적 욕구를 사정하고 확인함으로써 체계적인 사례관리를 수행하는 자료로 활용될 수 있다.

  • PDF

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.

대화식 의사결정나무를 이용한 보건의료 데이터 질 관리 알고리즘 개발: 당뇨환자의 고혈압 동반을 중심으로 (Development of Healthcare Data Quality Control Algorithm Using Interactive Decision Tree: Focusing on Hypertension in Diabetes Mellitus Patients)

  • 황규연;이은숙;김고원;홍성옥;박정선;곽미숙;이예진;임채혁;박태현;박종호;강성홍
    • 보건의료산업학회지
    • /
    • 제10권3호
    • /
    • pp.63-74
    • /
    • 2016
  • Objectives : There is a need to develop a data quality management algorithm to improve the quality of healthcare data using a data quality management system. In this study, we developed a data quality control algorithms associated with diseases related to hypertension in patients with diabetes mellitus. Methods : To make a data quality algorithm, we extracted the 2011 and 2012 discharge damage survey data from diabetes mellitus patients. Derived variables were created using the primary diagnosis, diagnostic unit, primary surgery and treatment, minor surgery and treatment items. Results : Significant factors in diabetes mellitus patients with hypertension were sex, age, ischemic heart disease, and diagnostic ultrasound of the heart. Depending on the decision tree results, we found four groups with extreme values for diabetes accompanying hypertension patients. Conclusions : There is a need to check the actual data contained in the Outlier (extreme value) groups to improve the quality of the data.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

악성코드 분류를 위한 중요 연산부호 선택 및 그 유용성에 관한 연구 (A Study on Selecting Key Opcodes for Malware Classification and Its Usefulness)

  • 박정빈;한경수;김태근;임을규
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.558-565
    • /
    • 2015
  • 최근 새롭게 제작되는 악성코드 수의 증가와 악성코드 변종들의 다양성은 악성코드 분석가의 분석에 소요되는 시간과 노력에 많은 영향을 준다. 따라서 효과적인 악성코드 분류는 악성코드 분석가의 악성코드 분석에 소요되는 시간과 노력을 감소시키는 데 도움을 줄 뿐만 아니라, 악성코드 계보 연구 등 다양한 분야에 활용 가능하다. 본 논문에서는 악성코드 분류를 위해 중요 연산부호를 이용하는 방법을 제안한다. 중요 연산부호란 악성코드 분류에 높은 영향력을 가지는 연산부호들을 의미한다. 실험을 통해서 악성코드 분류에 높은 영향력을 가지는 상위 10개의 연산부호들을 중요 연산부호로 선정할 수 있음을 확인하였으며, 이를 이용할 경우 지도학습 알고리즘의 학습시간을 약 91% 단축시킬 수 있었다. 이는 향후 다량의 악성코드 분류 연구에 응용 가능할 것으로 기대된다.

머신러닝 기법을 활용한 토양수분 예측 가능성 연구 (Study on Soil Moisture Predictability using Machine Learning Technique)

  • 조봉준;최완민;김영대;김기성;김종건
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.248-248
    • /
    • 2020
  • 토양수분은 증발산, 유출, 침투 등 물수지 요소들과 밀접한 연관이 있는 주요한 변수 중에 하나이다. 토양수분의 정도는 토양의 특성, 토지이용 형태, 기상 상태 등에 따라 공간적으로 상이하며, 특히 기상 상태에 따라 시간적 변동성을 보이고 있다. 기존 토양수분 측정은 토양시료 채취를 통한 실내 실험 측정과 측정 장비를 통한 현장 조사 방법이 있으나 시간적, 경제적 한계점이 있으며, 원격탐사 기법은 공간적으로 넓은 범위를 포함하지만 시간 해상도가 낮은 단점이 있다. 또한, 모델링을 통한 토양수분 예측 기술은 전문적인 지식이 요구되며, 복잡한 입력자료의 구축이 요구된다. 최근 머신러닝 기법은 수많은 자료 학습을 통해 사용자가 원하는 출력값을 도출하는데 널리 활용되고 있다. 이에 본 연구에서는 토양수분과 연관된 다양한 기상 인자들(강수량, 풍속, 습도 등)을 활용하여 머신러닝기법의 반복학습을 통한 토양수분의 예측 가능성을 분석하고자 한다. 이를 위해 시공간적으로 토양수분 실측 자료가 잘 구축되어 있는 청미천과 설마천 유역을 대상으로 머신러닝 기법을 적용하였다. 두 대상지에서 2008년~2012년 수문자료를 확보하였으며, 기상자료는 기상자료개방포털과 WAMIS를 통해 자료를 확보하였다. 토양수분 자료와 기상자료를 머신러닝 알고리즘을 통해 학습하고 2012년 기상 자료를 바탕으로 토양수분을 예측하였다. 사용되는 머신러닝 기법은 의사결정 나무(Decision Tree), 신경망(Multi Layer Perceptron, MLP), K-최근접 이웃(K-Nearest Neighbors, KNN), 서포트 벡터 머신(Support Vector Machine, SVM), 랜덤 포레스트(Random Forest), 그래디언트 부스팅 (Gradient Boosting)이다. 토양수분과 기상인자 간의 상관관계를 분석하기 위해 히트맵(Heat Map)을 이용하였다. 히트맵 분석 결과 토양수분의 시간적 변동은 다양한 기상 자료 중 강수량과 상대습도가 가장 큰 영향력을 보여주었다. 또한 다양한 기상 인자 기반 머신러닝 기법 적용 결과에서는 두 지역 모두 신경망(MLP) 기법을 제외한 모든 기법이 전반적으로 실측값과 유사한 형태를 보였으며 비교 그래프에서도 실측값과 예측 값이 유사한 추세를 나타냈다. 따라서 상관관계있는 과거 기상자료를 통해 머신러닝 기법 기반 토양수분의 시간적 변동 예측이 가능할 것으로 판단된다.

  • PDF

머신러닝 기반 부산 청년인구 유출위험 요인 분석 (Analysis of Risk Factors for Youth Population Outflow in Busan Based on Machine Learning)

  • 손서영;양혜성;박민서
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.131-136
    • /
    • 2023
  • 지방을 떠나 수도권으로 이동하는 청년들이 나날이 늘고 있다. 청년 유출의 요인을 파악하기 위한 연구들이 다양하게 진행되고 있으나 각 지방별로 분석하는 연구는 부족한 실정이다. 이에 따라 본 연구는 부산의 청년 인구 유출 요인을 분석하고, 머신러닝 기법을 사용해 청년 인구 유출 위험 등급을 예측하고자 한다. 국가통계포털에서 수집한 부산의 구별 데이터를 활용하여 나이대(20대 초반, 20대 후반, 30대 초반)별로 세 그룹으로 나눈 뒤, 의사결정나무와 랜덤 포레스트 알고리즘을 이용해 청년 인구 유출 위험 등급을 분류하고 예측한다. 그 결과, 청년 인구 유출 위험 등급 예측 모델은 나이 그룹별 각각 최고 정확도 0.93, 0.75, 0.63을 갖는다.