• 제목/요약/키워드: data mining(CART)

검색결과 68건 처리시간 0.027초

데이터마이닝을 활용한 HR제도들의 상대적 중요도 평가: 제조업을 중심으로 (Analysis of Relative Importance of HR practice Using Data Mining Method: Focus on Manufacturing Companies)

  • 노진수;백승현;전상길
    • 한국시뮬레이션학회논문지
    • /
    • 제22권3호
    • /
    • pp.55-69
    • /
    • 2013
  • 기업의 전략은 환경 변화에 따라 변화하며 전략의 변화에 따라 최적화된 인적자원관리 제도를 도입 및 실행해야 경영성과 극대화를 달성할 수 있다. 그러나 실질적으로 기업의 자원 및 시간은 한정되어 있기 때문에 활동들 간의 상대적 중요도를 고려하여 우선순위에 따라 단계적으로 추진해야한다. 본 연구는 "CART 앙상블" 분석을 통해 제조업에서의 보편적 관점 및 기업규모 및 전략유형에 따른 상황적 관점에 따라 HR제도 중에서 기업성과를 가장 잘 설명할 수 있는 제도를 찾고 분석결과를 통하여 고성과를 위해 우선적으로 도입해야 할 HR제도의 우선순위를 탐색하였다. 분석결과 보편적 관점에서 기업은 최우선적으로 전략과 인사부서의 통합정도를 높이는데 힘써야 하며, 경영 의사결정 참여도를 높이는 것과 업무속도/방법에 대한 자율재량을 높이는 것이 중요한 것으로 나타났다. 상황적 관점에서도 공통적으로 전략과 인사부서의 통합정도를 높이는 것이 중요하게 나타났으나 그 외의 사항들은 다양한 양상으로 나타났다. 본 연구는 기업의 다양한 상황에 따른 HR제도 우선순위를 파악하는데 주요한 결과를 제시하였다.

Comparison of Binary Discretization Algorithms for Data Mining

  • Na, Jong-Hwa;Kim, Jeong-Mi;Cho, Wan-Sup
    • Journal of the Korean Data and Information Science Society
    • /
    • 제16권4호
    • /
    • pp.769-780
    • /
    • 2005
  • Recently, the discretization algorithms for continuous data have been actively studied. But there are few articles to compare the efficiency of these algorithms. In this paper we introduce the principles of some binary discretization algorithms including C4.5, CART and QUEST and investigate the efficiency of these algorithms through numerical study. For various underlying distribution, we compare these algorithms in view of misclassification rate and MSE. Real data examples are also included.

  • PDF

New Splitting Criteria for Classification Trees

  • Lee, Yung-Seop
    • Communications for Statistical Applications and Methods
    • /
    • 제8권3호
    • /
    • pp.885-894
    • /
    • 2001
  • Decision tree methods is the one of data mining techniques. Classification trees are used to predict a class label. When a tree grows, the conventional splitting criteria use the weighted average of the left and the right child nodes for measuring the node impurity. In this paper, new splitting criteria for classification trees are proposed which improve the interpretablity of trees comparing to the conventional methods. The criteria search only for interesting subsets of the data, as opposed to modeling all of the data equally well. As a result, the tree is very unbalanced but extremely interpretable.

  • PDF

식생가뭄반응지수 (VegDRI)를 활용한 위성영상 기반 가뭄 평가 (Satellite-based Hybrid Drought Assessment using Vegetation Drought Response Index in South Korea (VegDRI-SKorea))

  • 남원호;;;장민원;홍석영
    • 한국농공학회논문집
    • /
    • 제57권4호
    • /
    • pp.1-9
    • /
    • 2015
  • The development of drought index that provides detailed-spatial-resolution drought information is essential for improving drought planning and preparedness. The objective of this study was to develop the concept of using satellite-based hybrid drought index called the Vegetation Drought Response Index in South Korea (VegDRI-SKorea) that could improve spatial resolution for monitoring local and regional drought. The VegDRI-SKorea was developed using the Classification And Regression Trees (CART) algorithm based on remote sensing data such as Normalized Difference Vegetation Index (NDVI) from MODIS satellite images, climate drought indices such as Self Calibrating Palmer Drought Severity Index (SC-PDSI) and Standardized Precipitation Index (SPI), and the biophysical data such as land cover, eco region, and soil available water capacity. A case study has been done for the 2012 drought to evaluate the VegDRI-SKorea model for South Korea. The VegDRI-SKorea represented the drought areas from the end of May and to the severe drought at the end of June. Results show that the integration of satellite imageries and various associated data allows us to get improved both spatially and temporally drought information using a data mining technique and get better understanding of drought condition. In addition, VegDRI-SKorea is expected to contribute to monitor the current drought condition for evaluating local and regional drought risk assessment and assisting drought-related decision making.

Zone특성 분할을 통한 유형별 통행발생 모형개발 (Development of Trip Generation Type Models toward Traffic Zone Characteristics)

  • 김태호;노정현;김영일;오영택
    • 한국도로학회논문집
    • /
    • 제12권4호
    • /
    • pp.93-100
    • /
    • 2010
  • 통행발생은 4단계 모형의 처음 단계로 전체수요예측에 상당한 영향을 미치게 되므로 정확성이 무엇보다 필요한 단계라 할 수 있다. 현재 통행발생모형으로 도시교통 및 SOC시설 등의 계획에 널리 사용되고 있는 것은 선형회귀모형이며, 각종 사회경제지표와 통행발생량의 관계가 선형임을 전제로 한다. 하지만 급격한 도시개발이나 도시계획구조가 변경되었을 때 통행량을 추정하기 위한 사회경제지표 자료가 부족하여 추정된 통행량의 오차가 많을 수 있다. 이에 본 연구는 일반적으로 널리 사용되는 사회경제지표를 선형이란 가정을 하지 않고, 다양한 존의 특성을 반영할 수 있는 변수에 대한 시장분할을 토대로 새로운 유형별 통행발생모형을 개발하고자 한다. 본 연구에서는 교통수요예측의 처음 단계인 통행발생 모형의 예측력을 개선하기 위하여 존의 다양한 특성(토지이용, 사회경제적 등)을 고려하였다. 예측력 개선을 위한 시장분할 방법론으로는 통행 발생률을 기반으로 한 Data Mining(CART)방법과 회귀분석을 이용하였다. 연구의 결과를 살펴보면, 첫째, CART분석을 활용한 존 특성 분석결과, 유출통행은 사회경제적 요인(남녀상대비중, 연령대(22~29세))에 영향을 받고 있으며, 유입통행은 토지이용 요인(업무시설상대비중), 사회경제적 요인(3차 종사자상대비중)으로 나타났다. 둘째, 유형별 모형개발 결과 통행발생 계수 값은 유출의 경우 0.977~0.987(통행/인)이며, 유입의 경우 0.692~3.256(통행/인)로 나타나 유형구분이 필요한 것으로 나타났다. 셋째, 실측검증을 수행하였으며, 유출 및 유입의 경우 기존 모형보다 적합도가 높아진 것을 알 수 있다. 따라서 본 연구에서 개발한 유형별 통행발생모형이 기존 연구보다 우수한 것을 알 수 있었다.

토지이용특성을 고려한 서울시 교통사고 발생 모형 개발 (Development of Traffic Accident Models in Seoul Considering Land Use Characteristics)

  • 임삼진;박준태
    • 한국재난정보학회 논문집
    • /
    • 제9권1호
    • /
    • pp.30-49
    • /
    • 2013
  • 본 연구에서는 토지이용에 기반을 두는 새로운 교통사고 예측모형을 개발하였다. 다양한 지역의 특성을 반영할 수 있는 변수에 대한 시장분할 및 추가변수 도입을 토대로 Data Mining 기법의 하나인 의사나무결정법(Classification and Regression Tree)을 활용하여 새로운 유형별 교통사고 예측모형을 개발하였다. 분석결과를 살펴보면 주민등록인구수, 통근 등 활동변수와 활동의 대상이 되는 도로규모, 유발시설 등이 교통사고를 설명하는 변수로 도출되었다.

데이터 마이닝을 활용한 외과수술환자의 회복실 체류시간 분석 (Length of stay in PACU among surgical patients using data mining technique)

  • 유제복;장희정
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3400-3411
    • /
    • 2013
  • 본 연구의 목적은 회복실 환자의 평균 체류시간을 알아보고, 체류시간에 미치는 요인들을 파악하여 회복실 체류 시간 예측을 위한 분석을 하기 위함이다. 본 연구의 대상자는 상급 종합병원에 입원한 전신 마취 하에 일반외과 수술을 받은 18세 이상 성인 남녀 환자 중 회복실로 입실한 환자를 1,500명을 대상으로 하였고 이중 1,293건을 분석하였다. 회복실 체류시간에 영향을 미치는 요인으로 32항목을 측정하였다. 평균 회복실 체류시간은 72.02분이었다. 수술주기별 관련요인과 회복실 체류시간의 관계를 살펴본 결과 나이, 수술종류, 수술시간, 진통제사용회수가 유의미한 관계를 나타내었다 회복실 체류시간에 가장 영향을 많이 주는 변수는 수술종류이며 그 다음 EKG 이상여부, 나이, 마취제, 수술시간으로 나타났다. 범주 I(30분~60분)은 2개의 경우, 범주 II(61분~90분)도 2개의 경우, 범주 III(91분~120분)은 4개의 경우로 분석되었다.

데이터마이닝 기법을 이용한 주상변압기 고장유형 분석 및 복구 예측모델 구축에 관한 연구 (Fault Pattern Analysis and Restoration Prediction Model Construction of Pole Transformer Using Data Mining Technique)

  • 황우현;김자희;장완성;홍정식;한득수
    • 전기학회논문지
    • /
    • 제57권9호
    • /
    • pp.1507-1515
    • /
    • 2008
  • It is essential for electric power companies to have a quick restoration system of the faulted pole transformers which occupy most of transformers to supply stable electricity. However, it takes too much time to restore it when a transformer is out of order suddenly because we now count on operator in investigating causes of failure and making decision of recovery methods. This paper presents the concept of 'Fault pattern analysis and Restoration prediction model using Data mining techniques’, which is based on accumulated fault record of pole transformers in the past. For this, it also suggests external and internal causes of fault which influence the fault pattern of pole transformers. It is expected that we can reduce not only defects in manufacturing procedure by upgrading quality but also the time of predicting fault patterns and recovering when faults occur by using the result.

로그 회귀분석 및 CART를 활용한 수력사업의 CDM 승인여부 예측 모델에 관한 연구 (Predicting the success of CDM Registration for Hydropower Projects using Logistic Regression and CART)

  • 박종호;구본상
    • 한국건설관리학회논문집
    • /
    • 제16권2호
    • /
    • pp.65-76
    • /
    • 2015
  • 청정개발체제(CDM) 사업은 신재생에너지사업의 보조를 통해 지구온난화 가스의 감축을 꾀하는 대표적인 국가 및 기업 간 배출권 거래(cap and trade)제도이다. 재래식 발전 방식에 비해 수익성이 낮은 태양광, 풍력, 수력 등의 사업이 CDM 사업으로 승인을 받으면 매년 탄소배출권(CER)을 제공받고, 이의 판매를 통해 발생한 추가 수익으로 인해 사업 타당성이 향상될 수 있다. 그러나 CDM 사업으로 인정받기 위해서는 환경적, 기술적, 경제적 추가성(Additionality)를 입증해야 하는데, 해당 적용 기술, 베이스라인 측정 방법론, 온실 가스 감축량, 사업 내부 수익률(IRR) 등 다수의 변수에 따라 결과가 달라지기 때문에 사전적으로 승인여부를 파악하기가 어렵다. 본 연구에서는 신재생에너지로 분류되는 수력 사업의 CDM 승인여부를 예측할 수 있는 모델을 개발하는 것을 목표로 하였다. 구체적으로 UNFCCC에서 제공하는 수력 사업 데이터를 활용하여 로그 회귀분석 및 CART 분석을 실시하여 예측모델을 개발하였으며 이와 함께 승인 여부에 유의하게 영향을 미치는 핵심 인자들을 파악하였다. 구축된 로그 회귀 및 CART 예측모델은 AUC가 각각 0.7674 및 0.7231로 예측 정확성이 비교적 높게 나왔다. 또한 수력 사업에서는 온실가스 저감량 대비 투자액, 시간당 발전량 및 내부수익률이 승인여부에 유의한 변수들로 파악되었고, 이에 비해 특정 기술이나 측정 방법론은 영향이 없는 것으로 드러났다. 즉, 특정 기술을 불문하고 온실가스를 투자 대비 가장 효율적으로 저감하는 사업과 수력사업들 중 상대적으로 소규모로 진행되는 사업이 CDM 사업으로 승인될 가능성이 높다는 것으로 해석된다.

단측 순수성에 의한 나무모형의 성장에 대하여 (On the Tree Model grown by one-sided purity)

  • 김용대;최대우
    • 지능정보연구
    • /
    • 제7권1호
    • /
    • pp.17-25
    • /
    • 2001
  • 의사결정 나무라고 불리우기도 하는 나무모형은 결과 해석의 용이성으로 데이터마이닝의 분류예측 모형으로서 큰 각광을 받고 있다. 현재 나무모형으로 가장 많이 사용되는 CART(Breiman et al., 1984)나 C4.5(Quinlan, 1993) 모두 생성된 노드들의 자료 구성이 목표변수(target variable)를 기준으로 각 수준 구성비 측면에서 순수해지도록 진행된다. 그러나 CRM(Customer Relationship Management)에 있어 가장 흔한 주제인 해지예측을 위한 모델링을 실시하는 경우 관심의 대상인 해지자가 전체 자료에 극히 일부를 차지하여, 기존의 분할 방법에서와 같이 분할되어 생성되는 모든 노드의 순수성을 동시에 고려하기란 불가능하다 Buja와 Lee(1999)는 목표변수 중 소수의 관심에 대상이 되는 부류를 찾아내기 위한 나무모형 생성방법을 소개하였다. 즉, 해지자 관리가 중요한 경우 해지자와 비해지자 구분을 진행하는 기존의 방법과는 달리 전체 자료 중 해지자를 집중적으로 찾아가는 탐색적 분할 기준인 단측 순수성(one-sided purity)을 제안하였다. 본 연구에서는 단측 순수성에 의한 나무모형을 모 PC통신 회사의 해지자 자료에 적용하여 기존의 방법과 비교하였고 몇 가지 시뮬레이션 자료를 통해 단측 순수성의 문제점과 앞으로 해결하여야 할 과제에 대하여 살펴보았다.

  • PDF