• 제목/요약/키워드: 의사결정나무 분류기

검색결과 15건 처리시간 0.023초

CRT 알고리즘을 이용한 우리나라 노인의 사회활동 영향요인 예측 모형 개발 (Development of Predictive Model of Social Activity for the Elderly in Korea using CRT Algorithm)

  • 변해원
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.243-248
    • /
    • 2018
  • 노년기의 사회참여는 사회적 상호작용의 기회를 제공하여 삶의 만족감을 고취시키기 때문에 성공적인 노화를 달성하기 위해서 중요하다. 이 연구는 우리나라 지역사회 노인을 대상으로 노년기 사회 활동의 관련요인과 사회 참여를 예측하는 통계적 분류 모형을 구축하였다. 분석 대상은 2015년도 지역사회 건강조사를 완료한 60세 이상 노인 1,864명(남 829명, 여 1,035명)이었다. 결과 변수는 지난 1달 간 사회 활동 경험(있음, 없음)으로 정의하였다. 예측모형은 Classification and Regression Trees(CRT) 알고리즘 기반 의사결정나무모형을 이용하여 구축하였다. 연구결과, 사회참여의 유의미한 분류 변수는 주관적 건강, 이웃과의 만남빈도, 친척과의 만남빈도, 배우자 동거여부이었고, 그 중에서도 가장 우선적으로 관여하는 예측 요인은 주관적 건강수준이었다. 본 연구의 결과를 기초로 도래하는 초고령사회의 성공적인 노화를 대비하기 위해서 노인의 사회 활동에 대한 사회적 관심과 지원이 요구된다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

데이터마이닝 기법을 이용한 기업부실화 예측 모델 개발과 예측 성능 향상에 관한 연구 (Development of Prediction Model of Financial Distress and Improvement of Prediction Performance Using Data Mining Techniques)

  • 김량형;유동희;김건우
    • 경영정보학연구
    • /
    • 제18권2호
    • /
    • pp.173-198
    • /
    • 2016
  • 본 연구의 목적은 비즈니스 인텔리전스 연구 관점에서 기업부실화 예측 성능을 향상키시는 것이다. 이를 위해 본 연구는 기존 연구들에서 미흡하게 다루어졌던 1) 데이터셋을 구성하는 과정에서 발생하는 바이어스 문제, 2) 거시경제위험 요소의 미반영 문제, 3) 데이터 불균형 문제, 4) 서술적 바이어스 문제를 다루어 경기순환국면을 반영한 기업부실화 예측 프레임워크를 제안하고, 이를 바탕으로 기업부실화 예측 모델을 개발하였다. 본 연구에서는 경기순환국면별로 각각의 데이터셋을 구성하고, 각 데이터셋에서 의사결정나무, 인공신경망 등 단일 분류기부터 앙상블 기법까지 다양한 데이터마이닝 알고리즘을 적용하여 실험하였다. 또한 본 연구는 데이터불균형 문제를 해결하기 위해, 오버샘플링 기법인 SMOTE(synthetic minority over-sampling technique) 기법을 통해 초기 데이터 불균형 상태에서부터 표본비율을 1:1까지 변화시켜 가며, 기업부실화 예측 모델을 개발하는 실험을 하였고, 예측 모델의 변수 선정 시에 선행연구를 바탕으로 재무비율을 추출하고, 여기서 파생된 IT 산출물인 재무상태변동성과 산업수준상태변동성을 예측 모델에 삽입하였다. 마지막으로, 본 연구는 각 순환국면에서 만들어진 기업부실화 예측 모델의 예측 성능 비교와 경기 확장기와 수축기에서의 기업부실화 예측 모델의 유용성에 대해 논의하였다. 본 연구는 비즈니스 인텔리전스 연구 측면에서 기존 연구에서 미흡하게 다루어졌던 4가지 문제점을 검토하고, 이를 해결할 프레임워크를 제안함으로써 기존 연구 대비 기업부실화 예측률을 10% 이상 향상시켰다는 점에서 연구의 의의를 찾을 수 있다.

1시간 호우피해 규모 예측을 위한 AI 기반의 1ST-모형 개발 (Development of 1ST-Model for 1 hour-heavy rain damage scale prediction based on AI models)

  • 이준학;이하늘;강나래;황석환;김형수;김수전
    • 한국수자원학회논문집
    • /
    • 제56권5호
    • /
    • pp.311-323
    • /
    • 2023
  • 집중호우, 홍수 및 도시침수와 같은 재해를 저감시키기 위하여 자연 재난으로 인한 재해의 발생 여부를 사전에 파악하는 것은 중요하다. 현재 국내는 기상청에서 운영하고 있는 호우주의보 및 호우경보를 발령하고 있지만, 이는 전국에 일괄적인 기준으로 적용하고 있어 사전에 호우로 인한 피해를 명확하게 인지하지 못하고 있는 실정이다. 따라서, 일괄된 기준을 지역적 특성을 반영한 호우특보 기준으로 재설정하고 1시간 후에 강우로 발생할 수 있는 피해의 규모를 예측하고자 하였다. 연구 대상 지역으로는 호우피해가 가장 빈번하게 발생하였던 경기도 지역으로 선정하였고, 강우량 및 호우 피해액 자료를 활용하여 지역적 특성을 고려한 시간단위 재해 유발 강우를 설정하였다. 강우에 의한 호우피해 발생 여부를 예측하는 모형을 개발하기 위해 재해 유발 강우 및 강우 자료를 활용하였으며, 머신러닝 기법인 의사 결정 나무 모형과 랜덤 포레스트 모형을 활용하여 분석 및 비교하였다. 또한 1시간 후의 강우를 예측하기 위한 모형으로는 장단기 메모리, 심층 신경망 모형을 활용하여 분석 및 비교하였다. 최종적으로 예측 모형을 통해 예측된 강우를 훈련된 분류 모형에 적용하여 1시간 후 호우에 의한 규모별 피해 발생 여부를 예측하였고, 이를 1ST-모형이라고 정의하였다. 본 연구를 통해 개발된 1ST-모형을 활용하여 예방 및 대비 차원의 재난관리를 실시한다면 호우로 인한 피해를 저감하는데 기여 할 수 있을 것으로 판단된다.