• 제목/요약/키워드: data mining(CART)

검색결과 68건 처리시간 0.017초

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

데이터마이닝을 활용한 이직의도와 조직몰입의 결정요인에 대한 연구 (A Study of The Determinants of Turnover Intention and Organizational Commitment by Data Mining)

  • 최영준;심원술;백승현
    • 한국시뮬레이션학회논문지
    • /
    • 제23권1호
    • /
    • pp.21-31
    • /
    • 2014
  • 본 논문에서는 조직관련 변수들의 연구를 위해 이직의도와 조직몰입을 목표(종속)변수로서 데이터마이닝 시뮬레이션을 실시하여 접근 방법을 찾고 분석결과 도출을 목적으로 하였다. 데이터마이닝 분석방법 중 CART 앙상블 기법을 활용하였다. 자료는 한국직업능력개발원의 인적자본기업패널조사 1차~3차(2005~2009)데이터를 사용하였다. 조직몰입 변수는 다항목 측정 사항에 대해 신뢰성, 단일차원성 검토를 실행 후 합산척도 변수를 생성하여 분석하였다. 본 연구 결과는 다음과 같다. 첫째, 이직의도에 대한 주요 결정요인은 신뢰, 커뮤니케이션, 인재 중시 풍조 아이템으로 나타났다. 둘째, 조직몰입에 대한 주요 결정요인은 신뢰, 근속기간, 혁신, 커뮤니케이션 아이템으로 나타났다. 데이터마이닝 방법의 CART 앙상블 방법으로 Bagging과 Arcing 알고리즘을 적용한 결과 Arc-x4 방법이 매우 높은 결정계수를 나타낸 시나리오를 추출했다. 본 연구에서는 데이터마이닝 방법 중 하나인 CART 앙상블 시뮬레이션을 통해 최대치의 결정계수, 최소치의 오류를 산출한 시나리오 모델을 도출하고 실무적 시사점을 제시하였으며 한계점 및 향후 연구에 대해 논의되었다.

CART 방법론을 사용한 클라우드 컴퓨팅 도입 의사 결정 모델링 (Cloud Computing Adoption Decision-Making Modeling Using CART)

  • 백승현;장병윤
    • 한국시뮬레이션학회논문지
    • /
    • 제23권4호
    • /
    • pp.189-195
    • /
    • 2014
  • 본 논문에서는 장소와 시간의 제약을 받지 않는 클라우드 컴퓨팅 도입 의사 결정 모델링에 대한 연구를 진행하였다. 연구에서는 65명의 응답자에게 수집 된 패널데이터와 데이터마이닝 방법 중 하나인 CART(회귀분류나무)를 사용하여 의사결정 모델을 구축하였다. 모델링에는 2단계로 진행되는데 첫 번째 단계에서는 패널데이터를 사용하여 도입 의사를 결정하는데 영향을 미치는 문항들을 선택하고 2 번째 단계에서는 선택된 문항을 사용하여 도입 의사 결정 모델을 구축하였다. 문항 선택을 통하여 설문지 수집 문항수를 25개에서 5개로 줄일 수 있어 응답자에게 빠른 답변을 얻을 수 있고 데이터의 사이즈가 작기 때문에 모델 구축 시간을 줄일 수 있는 장점을 보여주었다.

국민건강영양조사 자료를 이용한 만성신장질환 분류기법 연구 (The Study of Chronic Kidney Disease Classification using KHANES data)

  • 이홍기;명성민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.271-272
    • /
    • 2020
  • Data mining is known useful in medical area when no availability of evidence favoring a particular treatment option is found. Huge volume of structured/unstructured data is collected by the healthcare field in order to find unknown information or knowledge for effective diagnosis and clinical decision making. The data of 5,179 records considered for analysis has been collected from Korean National Health and Nutrition Examination Survey(KHANES) during 2-years. Data splitting, referred as the training and test sets, was applied to predict to fit the model. We analyzed to predict chronic kidney disease (CKD) using data mining method such as naive Bayes, logistic regression, CART and artificial neural network(ANN). This result present to select significant features and data mining techniques for the lifestyle factors related CKD.

  • PDF

데이터마이닝 패키지에서 변수선택 편의에 관한 연구 (A Study on Variable Selection Bias in Data Mining Software Packages)

  • 송문섭;윤영주
    • 응용통계연구
    • /
    • 제14권2호
    • /
    • pp.475-486
    • /
    • 2001
  • 데이터마이닝 패키지에 구현된 분류나무 알고리즘 가운데 CART, CHAID, QUEST, C4.5에서 변수 선택법을 비교하였다. CART의 전체탐색법이 편의를 갖는다는 사실은 잘알려졌으며, 여기서는 상품화된 패키지들에서 이들 알고리즘의 편의와 선택력을 모의실험 연구를 통하여 비교하였다. 상용 패키지로는 CART, Enterprise Miner, AnswerTree, Clementine을 사용하였다. 본 논문의 제한된 모의실험 연구 결과에 의하면 C4.5와 CART는 모두 변수선택에서 심각한 편의를 갖고 있으며, CHAID와 QUEST는 비교적 안정된 결과를 보여주고 있었다.

  • PDF

데이터 마이닝 기법을 이용한 피고용자의 근로환경 만족도 요인 분석 (Analysis of employee's satisfaction factor in working environment using data mining algorithm)

  • 이동열;김태호;이홍철
    • 대한안전경영과학회지
    • /
    • 제16권4호
    • /
    • pp.275-284
    • /
    • 2014
  • Decision Tree is one of analysis techniques which conducts grouping and prediction into several sub-groups from interested groups. Researcher can easily understand this progress and explain than other techniques. Because Decision Tree is easy technique to see results. This paper uses CART algorithm which is one of data mining technique. It used 273 variables and 70094 data(2010-2011) of working environment survey conducted by Korea Occupational Safety and Health Agency(KOSHA). And then refines this data, uses final 12 variables and 35447 data. To find satisfaction factor in working environment, this page has grouped employee to 3 types (under 30 age, 30 ~ 49age, over 50 age) and analyzed factor. Using CART algorithm, finds the best grouping variables in 155 data. It appeared that 'comfortable in organization' and 'proper reward' is the best grouping factor.

데이터 마이닝을 이용한 지능형 전공지도시스템 연구 (A Date Mining Approach to Intelligent College Road Map Advice Service)

  • 최덕원;조경필;신진규
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 춘계학술대회
    • /
    • pp.266-273
    • /
    • 2005
  • 대학의 학사관리 시스템은 학생이 입학하여 졸업하기까지 수행하는 여러 가지 학사활동 및 과외활동으로부터 발생하는 방대한 데이터를 보유하고 있다. 그러나 이들을 학생들의 전공지도나 진로지도에 효과적으로 활용하지 못하고 있다. 본 논문에서는 학사관리 시스템에 축적된 정보를 대상으로 데이터 마이닝 기법을 적용하여 학생들의 전공선택 및 진로지도에 도움을 줄 수 있는 새로운 정보와 지식을 생성하는 방법을 개발, 제시하였다. 이 연구를 위하여 요인분석, 계층분석 (AHP), 인공신경망, CART 기법 등을 동원하여 데이터 마이닝을 수행함으로써 유용한 지식과 규칙을 생성하였다. 방법론의 개발에 사용된 기본 자료들은 학생들의 Holland 적성검사, TOEIC 점수, 이수과목, 평점 등이다. 연구의 결과로서 기존의 학생지도 담당자가 수작업으로는 알아낼 수 없었던 학생지도에 관한 유용한 규칙을 도출할 수 있었다.

  • PDF

데이터 마이닝에서 배깅, 부스팅, SVM 분류 알고리즘 비교 분석 (An Empirical Comparison of Bagging, Boosting and Support Vector Machine Classifiers in Data Mining)

  • 이영섭;오현정;김미경
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.343-354
    • /
    • 2005
  • 데이터 마이닝에서 데이터를 효율적으로 분류하고자 할 때 많이 사용하고 있는 알고리즘을 실제 자료에 적용시켜 분류성능을 비교하였다. 분류자 생성기법으로는 의사결정나무기법 중의 하나인 CART, 배깅과 부스팅 알고리즘을 CART 모형에 결합한 분류자, 그리고 SVM 분류자를 비교하였다. CART는 결과 해석이 쉬운 장점을 가지고 있지만 데이터에 따라 생성된 분류자가 다양하여 불안정하다는 단점을 가지고 있다. 따라서 이러한 CART의 단점을 보완한 배깅 또는 부스팅 알고리즘과의 결합을 통해 분류자를 생성하고 그 성능에 대해 평가하였다. 또한 최근 들어 분류성능을 인정받고 있는 SVM의 분류성능과도 비교?평가하였다. 각 기법에 의한 분류 결과를 가지고 의사결정나무를 형성하여 자료가 가지는 데이터의 특성에 따른 분류 성능을 알아보았다. 그 결과 데이터의 결측치가 없고 관측값의 수가 적은 경우는 SVM의 분류성능이 뛰어남을 알 수 있었고, 관측값의 수가 많을 때에는 부스팅 알고리즘의 분류성능이 뛰어났으며, 데이터의 결측치가 존재하는 경우는 배깅의 분류성능이 뛰어남을 알 수 있었다.

Pre-Adjustment of Incomplete Group Variable via K-Means Clustering

  • Hwang, S.Y.;Hahn, H.E.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제15권3호
    • /
    • pp.555-563
    • /
    • 2004
  • In classification and discrimination, we often face with incomplete group variable arising typically from many missing values and/or incredible cases. This paper suggests the use of K-means clustering for pre-adjusting incompleteness and in turn classification based on generalized statistical distance is performed. For illustrating the proposed procedure, simulation study is conducted comparatively with CART in data mining and traditional techniques which are ignoring incompleteness of group variable. Simulation study manifests that our methodology out-performs.

  • PDF

웹 기반의 산업재해 예측시스템 개발에 관한 연구 (A Study on Development of A Web-Based Forecasting System of Industrial Accidents)

  • 임영문;황영섭;최요한
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2007년도 추계학술대회
    • /
    • pp.269-274
    • /
    • 2007
  • Ultimate goal of this research is to develop a web-based forecasting system of industrial accidents. As an initial step for the purpose of this study, this paper provides a comparative analysis of 4 kinds of algorithms including CHAID, CART, C4.5, and QUEST. In addition, this paper presents the logical process for development of a forecasting system. Decision tree algorithm is utilized to predict results using objective and quantified data as a typical technique of data mining. The sample for this work was chosen from 10,536 data related to manufacturing industries during three years(2002$^{\sim}$2004) in korea.

  • PDF