• 제목/요약/키워드: decision tree(C4.5)

검색결과 84건 처리시간 0.025초

지역사회획득 폐렴 환자의 퇴원시 사망 요인 분석 (A study on analysis of factors on in-hospital mortality for community-acquired pneumonia)

  • 김유미
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권3호
    • /
    • pp.389-400
    • /
    • 2011
  • 본 연구의 목적은 행정자료를 이용하여 지역사회획득 폐렴 환자의 사망 요인을 분석하기 위해 수행되었다. 2004~2006년 퇴원손상환자 조사자료 중 지역사회획득 폐렴환자 5,353건을 연구대상으로 하였으며, 사망률의 차이분석은 카이제곱 검정을 실시하였고, 사망 요인을 분석하기 위해 데이터마이닝 기법 중 의사결정나무 모형을 이용하였다. 의사결정나무 모형 중 C4.5가 성능이 우수하였는데, 입원경로, 호흡부전, 울혈성심부전을 포함하여 연령, 동반질환, 병상규모 등이 폐렴 사망의 위험 요인으로 나타났다. 본 연구는 행정데이터를 이용하여 지역사회획득 폐렴환자의 사망 위험요인을 밝히고자 하였다. 그러나 향후 병원특성, 지역특성, 의료행태 등에 대한 보다 포괄적인 변수를 포함한 후속 연구가 필요할 것으로 생각된다.

A Study on Split Variable Selection Using Transformation of Variables in Decision Trees

  • Chung, Sung-S.;Lee, Ki-H.;Lee, Seung-S.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권2호
    • /
    • pp.195-205
    • /
    • 2005
  • In decision tree analysis, C4.5 and CART algorithm have some problems of computational complexity and bias on variable selection. But QUEST algorithm solves these problems by dividing the step of variable selection and split point selection. When input variables are continuous, QUEST algorithm uses ANOVA F-test under the assumption of normality and homogeneity of variances. In this paper, we investigate the influence of violation of normality assumption and effect of the transformation of variables in the QUEST algorithm. In the simulation study, we obtained the empirical powers of variable selection and the empirical bias of variable selection after transformation of variables having various type of underlying distributions.

  • PDF

의사결정 트리의 효용성 제고 방안에 관한 비교 연구 (A Comparative Study on The Effective Use of Decision Tree Algorithms)

  • 석현태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.321-324
    • /
    • 2009
  • 비교적 적은 크기이면서 예측력에 있어 만족할 만한 의사결정목을 생성하는 방법으로서 적절한 크기의 샘플링을 제안하였다. 일반적으로 샘플의 크기가 작을수록 작은 의사결정목이 생성되므로 적절한 예측 정확도를 갖는 작은 트리를 생성하기를 원할 경우 적당한 크기의 샘플링을 하는 것이 트리의 최적화를 위한 계산을 더 시행하는 것보다 바람직하다고 할 수 있으며, 이와 같은 사실은 현재 알려진 가장 대표적 의사결정목 생성 알고리즘인 C4.5 및 CART를 사용하여 실험으로서 보여주었다.

  • PDF

의사결정나무와 손실함수를 이용한 공정파라미터 허용차 설계에 관한 연구 (A Study on the Design of Tolerance for Process Parameter using Decision Tree and Loss Function)

  • 김용준;정영배
    • 산업경영시스템학회지
    • /
    • 제39권1호
    • /
    • pp.123-129
    • /
    • 2016
  • In the manufacturing industry fields, thousands of quality characteristics are measured in a day because the systems of process have been automated through the development of computer and improvement of techniques. Also, the process has been monitored in database in real time. Particularly, the data in the design step of the process have contributed to the product that customers have required through getting useful information from the data and reflecting them to the design of product. In this study, first, characteristics and variables affecting to them in the data of the design step of the process were analyzed by decision tree to find out the relation between explanatory and target variables. Second, the tolerance of continuous variables influencing on the target variable primarily was shown by the application of algorithm of decision tree, C4.5. Finally, the target variable, loss, was calculated by a loss function of Taguchi and analyzed. In this paper, the general method that the value of continuous explanatory variables has been used intactly not to be transformed to the discrete value and new method that the value of continuous explanatory variables was divided into 3 categories were compared. As a result, first, the tolerance obtained from the new method was more effective in decreasing the target variable, loss, than general method. In addition, the tolerance levels for the continuous explanatory variables to be chosen of the major variables were calculated. In further research, a systematic method using decision tree of data mining needs to be developed in order to categorize continuous variables under various scenarios of loss function.

의사결정트리에서 공간사건 예측을 위한 리프노드 등급 결정 방법 분석 (Analysis of Leaf Node Ranking Methods for Spatial Event Prediction)

  • 연영광
    • 한국지리정보학회지
    • /
    • 제17권4호
    • /
    • pp.101-111
    • /
    • 2014
  • 공간사건들은 데이터마이닝 분류알고리즘을 이용하여 예측 가능하며, 의사결정 트리는 대표적인 분류알고리즘들 중 하나로 사용되고 있다. 의사결정 트리는 레이블 값을 갖는 분류작업에 주로 사용되었으나 규칙평가 기법을 트리 리프노드 등급 계산에 응용하면서부터 공간사건 예측에 이용되고 있다. 이 논문에서는 의사결정 트리에서 사용되는 규칙평가 방법들을 공간예측에 적용하여 비교하였다. 실험을 위해 의사결정 트리 알고리즘인 C4.5알고리즘과 규칙 평가기법인 Laplace, M-estimate 및 m-branch 기법들을 구현하여 자연환경에서 발생되는 대표적인 공간예측 응용분야인 산사태에 적용하였다. 적용한 규칙 평가 기법들의 정확도 평가결과, 그 특성에 따라 정확도의 차이가 있었으며 m-branch가 가장 높은 성능을 보였다. 그러나 m-branch 및 M-estimate와 같이 별도의 파라미터를 갖는 경우 반복적으로 최적의 파라미터 값을 찾는 과정을 요구하였다. 따라서 적용 대상에 따라 선택적으로 활용할 수 있다. 이러한 의사결정 트리를 이용한 공간예측은 예측 결과뿐만 아니라 특정 위치에서의 예측결과에 대한 원인분석을 가능하게 함으로 다양한 응용을 가능하게 한다.

Decision Tree와 SNP정보를 이용한 간경화 환자의 감수성 예측 (Pridict of Liver cirrhosis susceptibility using Decision tree with SNP)

  • 김동회;엄상용;조성원;함기백;김진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (A)
    • /
    • pp.63-66
    • /
    • 2006
  • 본 논문에서는 SNP데이터를 이용하여 간경화에 대한 감수성을 예측하기 위해 의사결정 트리를 이용하였다. 데이터는 간경화 환자와 정상환자 총 116명의 데이터를 사용하였으며, Feature 값으로는 간질환과 밀접한 연관성을 갖는 28개의 SNP데이터를 사용하였다. 실험방법은 각각의 SNP에 대하여 의사결정트리로 분류율을 측정한 후 가장 높은 분류율을 가지는 SNP부터 조합해 나가는 방식으로 C4.5 의사결정트리를 이용 leave-one-out cross validation으로 간경화와 정상을 구분하는 정확도를 측정하였다. 실험결과 간 질환 관련 SNP중 IL1RN-S130S, IRNGR2-Q64R, IL-10(-592), IL1B_S35S 4개의 SNP조합에서 65.52%의 정확도를 얻을 수 있었다.

  • PDF

불완전한 데이터를 처리하기 위한 데이터 확장기법 (A data extension technique to handle incomplete data)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제12권2호
    • /
    • pp.7-13
    • /
    • 2021
  • 본 논문은 학습 데이터에 손실값을 포함하고 있는 불완전한 데이터를 위하여 확률을 나타낼 수 있는 형식으로 변환한 후 손실값을 보상하는 알고리즘을 소개한다. 기존에 이러한 데이터 변환을 사용한 방법에서는 손실 변수가 가질 수 있는 균등한 확률로 손실값을 할당하여 불완전한 데이터를 처리하는 것이었다. 이 방법으로 많은 문제에 적용하여 좋은 결과를 얻었으나, 손실 변수에 남아있는 모든 정보를 무시하고 새로운 값을 할당한다는 점에서 정보의 손실이 있다는 지적이 있었다. 이에 반해 새로운 제안 방법은 손실값을 포함하지 않는 완전한 정보만을 잘 알려진 분류 알고리즘(C4.5)에 입력하고 학습하는 중에 결정트리가 구축된다. 그리고 이 결정트리로 부터 손실값에 대한 확률을 구하여 이를 손실 변수의 추정값으로 할당한다. 즉, 불완전한 학습 데이터에서 손실되지 않은 많은 정보들을 사용하여 손실된 일부 정보를 복구하는 것이다.

의사결정나무분석기법을 이용한 계절별 한우육의 육색 특성에 미치는 요인분석 (Analysis of Factors for Seasonal Meat Color Characteristics in Hanwoo(Korean Cattle) Beef using Decision Tree Method)

  • 김석중;김용선;송영한;이성기
    • Journal of Animal Science and Technology
    • /
    • 제44권5호
    • /
    • pp.607-616
    • /
    • 2002
  • 계절별로 도축된 한우육의 육색에 미치는 요인들을 구체적으로 분석하고자 2000년도에 도축된 한우의 pH, 성별, 등지방두께, 등심단면적, 도체중, 출하연령, 도체심부온도, 외기온도, 외기상대습도 요인이 육색에 미치는 영향을 분석하였다. 분석결과, 여름에는 L*값(명도)이 비거세우가 유의적으로 낮았던 것을 제외하고 모든 육색특성에서 유의적이지 않은 것으로 나타났으며 기타 계절에서는 모든 육색특성에서 거세우가 유의적으로 높은 값을 나타내었다. 또한 중회귀분석결과 모든 육색특성(L*, a*, C*, $h^0$)에서 pH가 증가할수록 그 값들은 감소하였으며, 등지방두께는 증가할수록 그 값들은 증가하였다. 각 요인별로 의사결정나무분석을 실시한 결과, 명도(L*)가 가장 높은 것은 봄과 가을에 도축한 암소와 거세우였으며 적색도(a*)는 가을에 도축한 한우중 pH가 5.63 미만이고 외기상대습도가 71.5% 이상인 경우인 것으로 나타났다. Chroma값(C*)은 여름과 가을에 도축하고 pH가 5.60 미만이면서 등지방두께가 8mm 이상인 한우가 가장 높았으며, hue angle($h^0$)은 봄, 여름, 가을에 도축하고 pH가 5.66 미만이며 등지방두께가 8mm 이상인 한우 중 심부온도가 4.7$^{\circ}C$ 미만인 것으로 나타났다.

의사결정트리 프로그램 개발 및 갑상선유두암에서 질량분석법을 이용한 단백질 패턴 분석 (Development of Decision Tree Software and Protein Profiling using Surface Enhanced laser Desorption/lonization - Time of Flight - Mass Spectrometry (SELDI-TOF-MS) in Papillary Thyroid Cancer)

  • 윤준기;이준;안영실;박복남;윤석남
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제41권4호
    • /
    • pp.299-308
    • /
    • 2007
  • 본 연구의 목적은 의사결정트리를 생성하는 생물정보학 프로그램을 개발하고, 이를 갑상선유두암 혈청의 질량분석자료로 시험해 보는 것이다. 대상 및 방법: C4.5를 커스터마이징하여 의사결정트리 분석을 수행할 수 있는 'Protein analysis'라는 프로그램을 개발하였다 61개의 혈청시료(갑상선유두암 27, 자가면역성 갑상선염 17, 대조군 17)를 일정 기간 동안 순차적으로 냉동한 후 실온에서 일시에 해동하여 분석에 사용하였다. 모든 시료는 탈지질화 과정을 거쳐 준비한 후, 2종류의 단백질칩(CM10, IMAC3)에 각각 60개, 50개 시료를 적용하였다. 갑상선유두암의 특징적인 단백질 패턴을 찾기 위해 질량분석기를 이용하여 단백질칩을 분석했다. 'Protein analysis' 프로그램을 이용하여 단백질분포 자료로부터 의사결정트리를 작성하고, 생체표지자 후보물질을 검출하였다. CM10칩에서 발견된 생체표지자 후보물질을 무작위 표본추출 방법을 이용하여 검증하였다. 결과: 단백질분포 자료의 훈련과 검증이 가능한 의사결정트리 프로그램이 개발되었으며, 이 프로그램은 트리 구조와 노드 정보, 트리 구성 과정을 표시하는 3개의 창으로 구성되었다. CM10칩을 이용한 분석에서 총 113개의 단백질 피크 중 23개가 3그룹 간에 유의한 차이가 있었으며, IMAC3는 41개의 단백질 피크 중 8개가 3그룹 간에 유의한 차이가 있었다. 3그룹 분석에서 의사결정트리는 CM10칩과 IMAE3의 단백질분포 자료로부터 각각 60개와 50개의 시료를 높은 정확도로 분류하였으며(오차율 = 각각 3.3%, 2.0%), 각각 4개와 7개의 생체표지자 후보물질을 검출하였다. 암시료와 비암시료를 구분하는 2그룹 분석 에서, 의사결정트리는 모든 암시료를 정확히 구분하였으며(모두 오차율 = 0%), CM10칩을 이용한 분석에서는 단일 노드를 사용하고, IMAC3칩을 이용한 분석에서는 여러 개의 노드를 사용하였다. CM10칩의 단백질 분포자료를 5번의 무작위 추출에 의해 시행한 검증에서 암시료와 비암시료를 구분하는데 높은 정확도를 보였으나(정확도 = 98%, 54/55), 3그룹을 구분할 때는 중등도의 정확도를 보였다(정확도 = 65%, 36/55). 결론: 우리가 개발한 프로그램은 질량분석 자료로부터 성공적으로 의사결정트리를 생성하고, 생체표지자 후보물질을 검출할 수 있었다. 따라서 이 프로그램은 혈청 시료를 이용한 생체표지자 발굴 및 갑상선유두암의 추적관찰에 유용하게 사용될 수 있을 것이다.

스마트 홈 환경에서 데이터 마이닝 기법을 이용한 지능형 서비스 추론 모델 (Intelligent Service Reasoning Model Using Data Mining In Smart Home Environments)

  • 강명석;김학배
    • 한국통신학회논문지
    • /
    • 제32권12B호
    • /
    • pp.767-778
    • /
    • 2007
  • 본 논문에서는 스마트 홈 환경에서 데이터 마이닝 기법을 이용하여 사용자에게 상황에 적합한 서비스를 추론하는 모델을 제안한다. 의사결정트리 알고리즘들 중에 하나인 C4.5 알고리즘을 기반으로 서비스 추론에 쓰이는 서비스 트리를 생성하고, 정량적 특성 규칙과 정량적 판별 규칙을 이용하는 정량적 가중치 산정 알고리즘을 통해 사용자에게 제공될 서비스를 추론한다. 또한 시뮬레이션을 통해 그 성능을 검증하였다.