• 제목/요약/키워드: Decision Tree Technique

검색결과 206건 처리시간 0.023초

지역사회획득 폐렴 환자의 퇴원시 사망 요인 분석 (A study on analysis of factors on in-hospital mortality for community-acquired pneumonia)

  • 김유미
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권3호
    • /
    • pp.389-400
    • /
    • 2011
  • 본 연구의 목적은 행정자료를 이용하여 지역사회획득 폐렴 환자의 사망 요인을 분석하기 위해 수행되었다. 2004~2006년 퇴원손상환자 조사자료 중 지역사회획득 폐렴환자 5,353건을 연구대상으로 하였으며, 사망률의 차이분석은 카이제곱 검정을 실시하였고, 사망 요인을 분석하기 위해 데이터마이닝 기법 중 의사결정나무 모형을 이용하였다. 의사결정나무 모형 중 C4.5가 성능이 우수하였는데, 입원경로, 호흡부전, 울혈성심부전을 포함하여 연령, 동반질환, 병상규모 등이 폐렴 사망의 위험 요인으로 나타났다. 본 연구는 행정데이터를 이용하여 지역사회획득 폐렴환자의 사망 위험요인을 밝히고자 하였다. 그러나 향후 병원특성, 지역특성, 의료행태 등에 대한 보다 포괄적인 변수를 포함한 후속 연구가 필요할 것으로 생각된다.

Predictive Analysis of Problematic Smartphone Use by Machine Learning Technique

  • Kim, Yu Jeong;Lee, Dong Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.213-219
    • /
    • 2020
  • 본 연구는 스마트폰 과의존을 진단하고 예측하기 위하여 할 수 있는 분류분석 방법과 스마트폰 과의존 분류율에 영향을 미치는 중요변수를 규명하고자 시도되었다. 이를 위해 인공지능의 방법인 기계학습 분석 기법 중 의사결정트리, 랜덤포레스트, 서포트벡터머신의 분류율을 비교하였다. 자료는 한국정보화진흥원에서 제공한 '2018년 스마트폰 과의존 실태조사'에 응답한 25,465명의 데이터였고, R 통계패키지(ver. 3.6.2)를 사용하여 분석하였다. 분석한 결과, 3가지 분류분석 기법은 정분류율이 유사하게 나타났으며, 모델에 대한 과적합 문제가 발생되지 않았다. 3가지 분류분석 방법 중 서포트벡터머신의 분류율이 가장 높게 나타났고, 다음으로 의사결정트리 기법, 랜덤포레스트 기법 순이었다. 스마트폰 이용 유형 중 분류율에 영향을 미치는 상위 3개 변수는 생활서비스형, 정보검색형, 여가추구형이었다.

PA기법을 이용한 건축공사 공종별 사망사고 예측모델 개발에 관한 연구 - 의사결정나무를 중심으로 - (Predictive Analytics Model for Death Accidents in Building Projects by Trade - Based on Decision Tree-)

  • 최정원;김한수
    • 한국건설관리학회논문집
    • /
    • 제22권5호
    • /
    • pp.55-65
    • /
    • 2021
  • 건설업은 타 산업에 비해 높은 사망사고율을 보이고 있으며, 최근 사망사고에 대한 기업의 법적 책임이 강화되고 있다. 이는 건설사에게 큰 부담이 되고 있으며, 건설 사망사고에 대한 선제적 예측과 관리의 필요성을 증대시키고 있다. 본 연구의 목적은 의사결정나무를 활용하여 건축공사에서 발생할 수 있는 사망사고를 사전에 예측할 수 있는 모델을 개발하는데 있다. 본 연구에서 의미하는 사망사고 예측모델이란 건축공사의 조건에 따라 공종별로 발생할 수 있는 사망사고의 가능성(확률)을 예측하는 모델을 의미한다. 예측모델의 활용을 통한 사망사고에 대한 사전 예측과 선제적 대응은 법적 처벌을 예방하고 건축공사의 성공적인 수행이라는 측면에서 중요한 의의를 지닌다.

불완전한 데이터를 처리하기 위한 데이터 확장기법 (A data extension technique to handle incomplete data)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권2호
    • /
    • pp.7-13
    • /
    • 2021
  • 본 논문은 학습 데이터에 손실값을 포함하고 있는 불완전한 데이터를 위하여 확률을 나타낼 수 있는 형식으로 변환한 후 손실값을 보상하는 알고리즘을 소개한다. 기존에 이러한 데이터 변환을 사용한 방법에서는 손실 변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하는 것이었다. 이 방법으로 많은 문제에 적용하여 좋은 결과를 얻었으나, 손실 변수에 남아있는 모든 정보를 무시하고 새로운 값을 할당한다는 점에서 정보의 손실이 있다는 지적이 있었다. 이에 반해 새로운 제안 방법은 손실값을 포함하지 않는 완전한 정보만을 잘 알려진 분류 알고리즘(C4.5)에 입력하고 학습하는 중에 결정트리가 구축된다. 그리고 이 결정트리로 부터 손실값에 대한 확률을 구하여 이를 손실 변수의 추정값으로 할당한다. 즉, 불완전한 학습 데이터에서 손실되지 않은 많은 정보들을 사용하여 손실된 일부 정보를 복구하는 것이다.

Classification Model of Food Groups in Food Exchange Table Using Decision Tree-based Machine Learning

  • Kim, Ji Yun;Kim, Jongwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권12호
    • /
    • pp.51-58
    • /
    • 2022
  • 본 논문에서 우리는 기존 식품과 웹 크롤링으로 찾은 식품 데이터에 대해 기계학습으로 식품군을 분류하여 식품교환표를 갱신하기 위한 의사결정트리 기반의 기계학습 모델을 제안한다. 식품교환표는 영양 관리가 필요한 환자의 식이요법이나 다이어트 식단을 편성할 때 식품 교환 섭취에 사용된다. 식단의 기준이 되는 식품교환표는 국민건강영양조사를 통한 개정과정에서 많은 인력과 시간이 소요되어 새로운 식품이나 트렌드에 따른 식품 변화를 신속하게 반영하기 어렵다. 제안 기법은 기존의 식품군을 바탕으로 새롭게 추가되는 식품을 분류하기 때문에 식품의 트렌드를 반영한 식품교환표 구성이 가능하다. 연구에서 제안 모델로 식품을 분류한 결과, 식품교환표의 식품군에 대한 정확도가 97.45%로 나타났으며, 본 식품 분류 모델은 병원, 요양원 등에서 식단 구성에 활용도가 높을 것으로 전망된다.

의사결정트리 기법을 이용한 파프리카용 스마트팜 전문가 시스템 (Smart Farm Expert System for Paprika using Decision Tree Technique)

  • 정혜선;이인용;임중선
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.373-376
    • /
    • 2018
  • 기존의 파프리카 스마트팜 시스템의 경우 여러 센서 값을 기준 값에 추종하도록 설정 되어 있기 때문에 다른 외란의 값이 들어오면 시스템이 최적의 판단을 하지 못하는 경우가 많아 파프리카 생장에 유해한 경우가 발생한다. 이를 의사결정 나무 기법을 활용하여 파프리카 스마트팜용 전문가 시스템을 설계하여 주변 환경에 따라 달라지는 요소들에 의해 생성되는 데이터를 사용하여 농민의 경험치와 유사한 의사결정 구조를 가진 제어 알고리즘을 구축한다. 현재의 스마트팜 제어시스템의 경우 농민이 설정해둔 기준 값에 센서 값들을 추종하도록 시스템화 되어 있기 때문에 주변 환경의 외란에 대한 사용자의 개입이 필수적이다. 파프리카 스마트팜 장비를 제어하기 전 여러 환경 요소 중 가장 영향력을 미치는 것을 선정한 후 농민들의 경험치와 표준 의사결정 기준이 반영된 복합 환경제어를 위한 전문가 시스템을 모델링하였다. 설계된 모델은 내외부 환경 데이터에 의해 학습된 의사결정트리 기반의 파프리카용 전문가시스템으로 서, 사용자의 간섭을 최소화한 제어기를 설계할 수 있도록 지원한다. 이번 연구를 통해 여러 데이터를 복합 시키면서 각 환경 요소들이 상호관계를 갖고 있으며, 나아가 여러 주변 환경 요소들이 생장에 영향을 미치고 있기에 전문가용 파프리카 스마트팜을 만들 때 표준이 될 수 있는 제어 알고리즘이 될 것으로 기대한다.

  • PDF

Finding a plan to improve recognition rate using classification analysis

  • Kim, SeungJae;Kim, SungHwan
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.184-191
    • /
    • 2020
  • With the emergence of the 4th Industrial Revolution, core technologies that will lead the 4th Industrial Revolution such as AI (artificial intelligence), big data, and Internet of Things (IOT) are also at the center of the topic of the general public. In particular, there is a growing trend of attempts to present future visions by discovering new models by using them for big data analysis based on data collected in a specific field, and inferring and predicting new values with the models. In order to obtain the reliability and sophistication of statistics as a result of big data analysis, it is necessary to analyze the meaning of each variable, the correlation between the variables, and multicollinearity. If the data is classified differently from the hypothesis test from the beginning, even if the analysis is performed well, unreliable results will be obtained. In other words, prior to big data analysis, it is necessary to ensure that data is well classified according to the purpose of analysis. Therefore, in this study, data is classified using a decision tree technique and a random forest technique among classification analysis, which is a machine learning technique that implements AI technology. And by evaluating the degree of classification of the data, we try to find a way to improve the classification and analysis rate of the data.

극궤도 기상위성 자료를 이용한 한반도의 지면피복 분류 (Classification of Land Cover over the Korean Peninsula Using Polar Orbiting Meteorological Satellite Data)

  • 서명석;곽종흠;김희수;김맹기
    • 한국지구과학회지
    • /
    • 제22권2호
    • /
    • pp.138-146
    • /
    • 2001
  • 이 연구에서는 극궤도 기상위성인 NOAA/AVHRR 시계열 자료를 이용하여 한반도의 지면 피복을 분류하였다. 일주기 기상위성자료로부터 구름이 없는 상태의 지면상태 자료를 획득하기 위하여 10일 간격 최대치 합성법 자료를 작성하였으며 27개의 10일주기 식생지수 자료들(겨울철 12, 1, 2월 자료 9개 제외)로부터 4개의 식생 계절성 자료를 작성하였다. 또한 위성자료로부터 분석한 연 최고 및 연평균 지면온도, 그리고 지형고도 자료를 이용하였다. 각 지면 피복에 대한 특성 자료 수집이 어렵기 때문에 여기서는 2단계 무감독 분류법을 이용하였다. 즉, 초기 입력자료는 신경망 기법의 일종인 SOFM을 이용하여 군집화한 다음 결정나무를 이용하여 각 군집을 분류하였다. 최종 분류 결과는 식생지수의 시계열과 지상 자료로 검증한 결과 대도시, 농지, 낙엽수림 및 상록수림 등 우리 나라의 지면 피복을 개략적으로 잘나타내고 있는 것으로 판단된다.

  • PDF

Data Mining을 이용한 전략시뮬레이션 게임 데이터 분석 (A Study of Analyzing Realtime Strategy Game Data using Data Mining)

  • 용혜련;김도진;황현석
    • 한국게임학회 논문지
    • /
    • 제15권4호
    • /
    • pp.59-68
    • /
    • 2015
  • 정보통신기술의 발달로 빅데이터 분석을 통해 사람들 일상의 기록과 잠재적 요구까지 통찰할 수 있게 되었으며, 우리의 일상 속에서 방대한 정보를 실시간으로 도출하고 있다. 여러 산업이나 기업에서 이미 빅데이터와 결합시켜 비즈니스 등 다양한 분야에 활용하고 있지만 게임 산업에서의 빅데이터 활용은 아직까지 미흡한 실정이다. 이에 본 연구에서는 데이터 마이닝을 기법을 적용하여 전략시뮬레이션 게임 데이터를 분석하였다. 전략시뮬레이션 게임 데이터를 Decision Tree, Random Forest, Multi-class SVM, Linear Regression 분석 기법을 적용하여 게임 유저의 게임수준에 영향을 미치는 요인을 분석하였다. 게임수준을 예측하는데 있어 가장 우수한 성능을 보인 기법과 변수들을 도출하여 게임 디자인과 사용성을 증대시키기 위한 제안을 하고자 한다.

Discovering Relationships between Skin Type and Life Style Using Data Mining Techniques: A Case Study of Korea

  • Kim, Taeheung;Ha, Jihyun;Lee, Jong-Seok;Oh, Younhak;Cho, Yong Ju
    • Industrial Engineering and Management Systems
    • /
    • 제15권1호
    • /
    • pp.110-121
    • /
    • 2016
  • With the growing interest in skincare and maintenance, there are increasing numbers of studies on the classification of skin type and the factors influencing each type. This study presents a novel methodology by using data mining, for the determination of the relationships between skin type, lifestyle, and patterns of cosmetic utilization. Eight skin-specific factors, which are moisture, sebum in U-zone (both cheeks), sebum in T-zone (forehead, nose, and chin), pore, melanin, wrinkle, acne, hemoglobin, were measured in 1,246 subjects living in South Korea, in conjunction with a questionnaire survey analyzing their lifestyles and pattern of cosmetic utilization. Using various multivariate statistical methods and data mining techniques, we classified the skin types based on the skin-specific values, determined the relationship between skin type and lifestyle, and accordingly sorted the subjects into clusters. Logistic regression analysis revealed gender-related differences in the skin; therefore, separate analyses were performed for males and females. Using the Gaussian Mixture Modeling (GMM) technique, we classified the subjects based on skin type (two male and four female). Using the ANOVA and decision tree techniques, we attempted to characterize the relationship between each skin type and the lifestyles of the subjects. Menstruation, eating habits, stress, and smoking were identified as the major factors affecting the skin.