• 제목/요약/키워드: Tree data

검색결과 3,342건 처리시간 0.034초

단측 순수성에 의한 나무모형의 성장에 대하여 (On the Tree Model grown by one-sided purity)

  • 김용대;최대우
    • 지능정보연구
    • /
    • 제7권1호
    • /
    • pp.17-25
    • /
    • 2001
  • 의사결정 나무라고 불리우기도 하는 나무모형은 결과 해석의 용이성으로 데이터마이닝의 분류예측 모형으로서 큰 각광을 받고 있다. 현재 나무모형으로 가장 많이 사용되는 CART(Breiman et al., 1984)나 C4.5(Quinlan, 1993) 모두 생성된 노드들의 자료 구성이 목표변수(target variable)를 기준으로 각 수준 구성비 측면에서 순수해지도록 진행된다. 그러나 CRM(Customer Relationship Management)에 있어 가장 흔한 주제인 해지예측을 위한 모델링을 실시하는 경우 관심의 대상인 해지자가 전체 자료에 극히 일부를 차지하여, 기존의 분할 방법에서와 같이 분할되어 생성되는 모든 노드의 순수성을 동시에 고려하기란 불가능하다 Buja와 Lee(1999)는 목표변수 중 소수의 관심에 대상이 되는 부류를 찾아내기 위한 나무모형 생성방법을 소개하였다. 즉, 해지자 관리가 중요한 경우 해지자와 비해지자 구분을 진행하는 기존의 방법과는 달리 전체 자료 중 해지자를 집중적으로 찾아가는 탐색적 분할 기준인 단측 순수성(one-sided purity)을 제안하였다. 본 연구에서는 단측 순수성에 의한 나무모형을 모 PC통신 회사의 해지자 자료에 적용하여 기존의 방법과 비교하였고 몇 가지 시뮬레이션 자료를 통해 단측 순수성의 문제점과 앞으로 해결하여야 할 과제에 대하여 살펴보았다.

  • PDF

퍼지의사결정나무 개선방법을 이용한 CRM 적용 사례 (Case Study of CRM Application Using Improvement Method of Fuzzy Decision Tree Analysis)

  • 양승정;이종태
    • 한국콘텐츠학회논문지
    • /
    • 제7권8호
    • /
    • pp.13-20
    • /
    • 2007
  • 의사결정나무는 대량의 데이터를 몇 개의 집단으로 분류하고, 미래상황을 예측하기 위해 자주 사용되는 분석기법 중의 하나이며, 각 노드에서 분할이 일어나면서 자라게 되고, 각 노드에 속하는 자료의 순수도가 효과적으로 증가하도록 진행된다. 또한 의사결정나무를 생성하는 과정에서 필요 이상의 가지(leaves)를 갖게 되면 노드의 분할을 정지하거나, 분류성능 향상에 큰 도움이 되지 못하는 가지를 잘라내게 된다. 이러한 가지치기의 결과로 의사결정나무의 형태가 변하게 되는데 이는 기존의 가지분할이 효율적이지 않았음을 의미하는 것이다. 본 연구에서는 가지치기의 교정뿐 아니라 새로운 분할과정을 혼합한 우수한 의사결정나무 추출 방법을 제안한다. 특히, 새로운 분할 노드의 선택에 있어 퍼지이론을 적용하여 분할의 효과성을 제고할 수 있는 방법을 제시하고자 한다.

트리 자료구조를 이용한 비 휘발성 메모리의 가비지 수집 기법 (Garbage Collection Technique for Non-volatile Memory by Using Tree Data Structure)

  • 이도근;원유집
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.152-162
    • /
    • 2016
  • 비 휘발성 메모리를 할당받아 사용하기 위해서는 비 휘발성 메모리 전용의 가비지 수집 기법이 필수적이다. 본 논문에서는 이를 위해 비 휘발성 메모리 할당 정보 관리용 메타데이터를 설계하였고 이를 Allocation Tree라고 명명하였다. 이 메타데이터는 검색 속도의 향상을 위해 트리 자료구조를 이용하여 구성되었고, 하나의 노드 안에는 할당 메모리 시작 주소와 저장소 ID 정보가 키-밸류 형태로 저장된다. 비 휘발성 메모리 공간이 부족하여 가용 공간이 70% 이하로 떨어지면 가비지 수집기가 작동되어 가비지 수집을 수행하게 되고 Allocation Tree와 사용자 데이터를 비교하여 가비지를 판정한다. 본 연구에서는 이 알고리즘을 Persistent Heap기반의 메모리 할당 플랫폼인 'HEAPO'에서 구현하여 정상적으로 동작함을 증명하였다.

개선된 패스트리를 이용한 지능형 생산관리 시스템 (Intelligent Production Management System with the Enhanced PathTree)

  • 권경락;류재환;손종수;정인정
    • 정보처리학회논문지D
    • /
    • 제16D권4호
    • /
    • pp.621-630
    • /
    • 2009
  • 최근 RFID 기술과 기업정보시스템을 연계하여 사용하려는 많은 시도가 진행되어 왔다. 하지만, 대부분의 경우 동시에 많은 양의 인식할 수 있는 RFID의 기본적인 특징에만 충실했을 뿐, 리더로부터 생성되는 많은 양의 데이터에 대한 관리적인 측면을 고려하지 못하고 있다. 그 결과, 이러한 시스템을 통해 시간이나 흐름과 관련된 연속적이고 동적인 정보를 얻기가 어렵다. 본 논문에서는 대량의 RFID 데이터를 효율적으로 관리하기 위해 RFID 데이터 마이닝 기법의 하나인 경로 트리(PathTree)를 보완한 공정트리(Procedure Tree)라는 새로운 방법을 제안한다. 제안한 방법을 실제 기업 정보 시스템과 연계하여 실시간 공정 관리 시스템에 적용한 후 제안한 시스템의 효율성을 평가한다. 제안한 방법을 통해 기존 RFID 기반 생산관리 시스템이 하기 어려운 실시간 공정 관리를 위한 공정 흐름의 예측이나 추적과 같은 업무를 효과적으로 수행할 수 있었다.

데이터 마이닝 기법을 이용한 피고용자의 근로환경 만족도 요인 분석 (Analysis of employee's satisfaction factor in working environment using data mining algorithm)

  • 이동열;김태호;이홍철
    • 대한안전경영과학회지
    • /
    • 제16권4호
    • /
    • pp.275-284
    • /
    • 2014
  • Decision Tree is one of analysis techniques which conducts grouping and prediction into several sub-groups from interested groups. Researcher can easily understand this progress and explain than other techniques. Because Decision Tree is easy technique to see results. This paper uses CART algorithm which is one of data mining technique. It used 273 variables and 70094 data(2010-2011) of working environment survey conducted by Korea Occupational Safety and Health Agency(KOSHA). And then refines this data, uses final 12 variables and 35447 data. To find satisfaction factor in working environment, this page has grouped employee to 3 types (under 30 age, 30 ~ 49age, over 50 age) and analyzed factor. Using CART algorithm, finds the best grouping variables in 155 data. It appeared that 'comfortable in organization' and 'proper reward' is the best grouping factor.

Cyber Shopping Mall Customer Segmentation

  • 고봉성;김연형
    • Journal of the Korean Data and Information Science Society
    • /
    • 제13권1호
    • /
    • pp.121-127
    • /
    • 2002
  • The volume of electronic commerce based on Internet and network traffic is increasing rapidly. The objective of this study is to examine the current status of the exponentially multiplying cyber-shopping mall phenomenon. To this end, data obtained from a single cyber-shopping mall exemplified customer purchasing behavior and provided decision tree and correspondence analysis derived customer segmentation and merchandise.

  • PDF

Development of Discriminant Analysis System by Graphical User Interface of Visual Basic

  • Lee, Yong-Kyun;Shin, Young-Jae;Cha, Kyung-Joon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제18권2호
    • /
    • pp.447-456
    • /
    • 2007
  • Recently, the multivariate statistical analysis has been used to analyze meaningful information for various data. In this paper, we develope the multivariate statistical analysis system combined with Fisher discriminant analysis, logistic regression, neural network, and decision tree using visual basic 6.0.

  • PDF

악성간암환자의 유전체자료 심볼릭 나무구조 모형연구 (Symbolic tree based model for HCC using SNP data)

  • 이태림
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권5호
    • /
    • pp.1095-1106
    • /
    • 2014
  • 본 연구에서는 악성간암환자의 생존기간에 영향을 주는 인자를 찾기 위하여 반응변수를 악성간암 환자의 생존을 임상변수의 정보와 SNP유전인자를 통합한 자료를 대상으로 이해하기 쉬운 나무구조 생존모형과 심볼릭자료분석을 실시하여 영향을 주는 유의한 인자 뿐 아니라 그 임계치를 구하여 임상적으로 유용한 결과를 찾아 임상에 적용하는 것이 목적이다. 악성간암환자의 임상자료를 계량화하여 통계적 예후진단 모형을 구함으로써 임상변수 간 숨겨진 변수간의 관계를 규명하고 생존기간 군에 따른 예측 분류모형을 구하여 현시적으로 진단후 예후에 영향을 주는 중요 임상변수와 유전체변수 그 임계치를 구하여 임상에서의 치료계획에 중요한 근거를 제시했다. 심볼릭데이터 분석 결과 정상, 만성 간염, 간염, 악성간염 등의 4개 군으로 구성된 1840명의 대상자를 분석 5 유전체의 20개 SNP가 밝혀진 바 있다. 즉 IL10-ht2가 악성간암의 발병에 매위 강한 관련이 있고 TGFB L10P-Prosms가 만성 간염 환자 중 악성간암 발생 위험을 줄여주는 유전체로 밝혀졌다. SNP변수와 질병군의 컴셉트 변수에 따라 상관정도를 원의 반지름 길이로 상대적으로 나타내 줌으로써 가장 판별력 있는 심볼릭변수를 상대적으로 비교할 수 있었다. 임상자료와 유전체자료를 통합하여 심볼릭 나무구조 생존모형을 구하여 생존기간을 군으로 한 나무구조모형을 유의한 변수와 기준치와 함께 구할 수 있었다.

비다양체 모델을 수용하는 CAD 시스템 커널을 위한 불리안 조직의 개발 (Development of Boolean Operations for CAD System Kernel Supporting Non-manifold Models)

  • 김성환;이건우;김영진
    • 한국CDE학회논문집
    • /
    • 제1권1호
    • /
    • pp.20-32
    • /
    • 1996
  • The boundary evaluation technique for Boolean operation on non-manifold models which is regarded as the most popular and powerful method to create and modify 3-D CAD models has been developed. This technique adopted the concept of Merge and Selection in which the CSG tree for Boolean operation can be edited quickly and easily. In this method, the merged set which contains complete information about primitive models involved is created by merging primitives one by one, then the alive entities are selected following the given CSG tree. This technique can support the hybrid representation of B-rep(Boundary Representation) and CSG(Constructive Solid Geometry) tree in a unified non-manifold model data structure, and expected to be used as a basic method for many modeling problems such as data representation of form features, and the interference between them, and data representation of conceptual models in design process, etc.

  • PDF

아동 아토피 피부염을 예측하는 환경적 요인들 - 의사결정 나무분석의 적용 - (Environmental Predictors of Atopic Dermatitis in Children - Using Answer Tree Analysis -)

  • 이주리
    • 아동학회지
    • /
    • 제31권2호
    • /
    • pp.183-195
    • /
    • 2010
  • This study sought to investigate the environmental predictors of atopic dermatitis in children. The participants were 1050 (age 3-5) children taken from data data from the Ministry for Health, Welfare and Family Affairs. A data mining decision tree model revealed that the factors of medical neglect, breakfast, attachment to mother, and mother's depression influenced atopic dermatitis in children. Our results revealed that in the factors considered above, medical neglect had the greatest influence upon atopic dermatitis in children.