• 제목/요약/키워드: Data Tree

검색결과 3,320건 처리시간 0.028초

Interpretation of Data Mining Prediction Model Using Decision Tree

  • Kang, Hyuncheol;Han, Sang-Tae;Choi, Jong-Ho
    • Communications for Statistical Applications and Methods
    • /
    • 제7권3호
    • /
    • pp.937-943
    • /
    • 2000
  • Data mining usually deal with undesigned massive data containing many variables for which their characteristics and association rules are unknown, therefore it is actually not easy to interpret the results of analysis. In this paper, it is shown that decision tree can be very useful in interpreting data mining prediction model using two real examples.

  • PDF

분산형 데이터마이닝 구현을 위한 의사결정나무 모델 전송 기술 (The Transfer Technique among Decision Tree Models for Distributed Data Mining)

  • 김충곤;우정근;백성욱
    • 디지털콘텐츠학회 논문지
    • /
    • 제8권3호
    • /
    • pp.309-314
    • /
    • 2007
  • 분산형 데이터마이닝을 위해 의사결정나무 알고리즘은 분산형 협업 환경에 적합하도록 변환되어야 한다. 본 논문에서 제시된 분산형 데이터마이닝 시스템은 각각의 사이트에서 부분적인 데이터를 위한 데이터마이닝 작업을 수행할 수 있는 에이전트와 여러 에이전트들의 협업을 통해 최종적인 의사결정나무 모델을 완성할 수 있도록 에이전트들 간의 통신을 중재하는 미디에이터로 구성되어 있다. 분산형 데이터마이닝의 장점 중에 하나는 여러 사이트에 분산되어 있는 대량의 데이터를 분산 처리하므로 데이터마이닝의 소요시간을 현저하게 줄일 수 있다는 점이다. 그러나 각 사이트들에 존재하고 있는 에이전트들 간의 통신에 부하가 과도하게 걸린다면, 효율적인 시스템으로의 활용도가 낮아질 것 이다. 본 논문은 에이전트들 간에 의사결정나무 모델의 전송량을 최소로 할 수 있는 방법론에 초점을 맞추었다.

  • PDF

HBR-Tree를 이용한 실시간 모바일 GIS의 개발 (Development of a Real-Time Mobile GIS using the HBR-Tree)

  • 이기영;윤재관;한기준
    • 한국공간정보시스템학회 논문지
    • /
    • 제6권1호
    • /
    • pp.73-85
    • /
    • 2004
  • 최근 들어 무선 인터넷이 발전하고, PDA, HPC의 보급이 늘어남에 따라 GIS(Geographic Information System)와 관련된 연구 및 개발이 점차적으로 위치 기반 서비스(LBS: Location Based Service)를 제공하기 위한 실시간 모바일 GIS로 변화해 가고 있다. LBS를 효과적으로 제공하기 위해서는 이동 객체의 동적인 상황을 효과적으로 처리할 수 있는 실시간 GIS 플랫폼과 위치 데이타의 특성을 반영한 위치 인덱스가 필요하다. 위치 데이타는 이전의 GIS에서 사용되는 것과 동일한 데이타 타입(예, 점)이 사용되지만 위치 데이타의 관리는 이전 GIS와는 다른 처리 방식을 사용해야 한다. 이를 위하여 본 논문에서는 대용량의 위치 데이타를 효율적으로 처리할 수 있는 HBR-tree를 이용한 실시간 모바일 GIS의 개발에 대하여 연구하였다. 본 연구에서 개발된 실시간 모바일 GIS는 HBR-tree와 실시간 GIS 플랫폼으로 구성되어 있다. HBR-tree는 R-tree와 공간 해쉬가 결합된 위치 인덱스이다. 그러므로, 위치 데이타가 빈번하게 변경되더라도 갱신 연산은 HBR-tree의 동일한 해쉬 테이블에서 일어나기 때문에 다른 트리 기반 인덱스에 비하여 갱신 연산이 적으며, 검색 연산은 R-tree의 검색 메커니즘을 이용하기 때문에 공간 데이타를 신속하게 검색할 수 있다. 본 논문에서 실시간 GIS 플랫폼은 주기억장치 데이타베이스 시스템의 기능이 확장된 실시간 GIS 엔진, 공간 및 비공간 데이타를 서버와 클라이언트로 전송하기 위한 미들웨어, 그리고 모바일 장치에서 동작하는 모바일 클라이언트로 구성되어 있다. 특히, 본 논문에서는 실험적 방법을 사용하여 HBR-tree와 실시간 GIS 엔진의 성능 평가 결과에 대해서도 기술하였다. 확보하며 이루어져야 가능하다. 여러 지자체를 중심으로 수행된 지자체 GIS 감리와 컨설팅의 경험을 통해 도출된 문제점들을 일반화시켜 정리하였으며, 이를 통해 지자체 GIS사업의 추진 및 운영모델을 제시하였다. 표시할 수 있음으로서 의사결정에 보다 많은 도움을 줄 수 있을 것이다. 비트율의 증가와 화질 열화는 각각 최대 1.32%와 최대 0.11dB로 무시할 수 있을 정도로 작음을 확인 하였다.을 알 수 있었다. 현지관측에 비해 막대한 비용과 시간을 절약할 수 있는 위성영상해석방법을 이용한 방법은 해양수질파악이 가능할 것으로 판단되며, GIS를 이용하여 다양하고 복잡한 자료를 데이터베이스화함으로써 가시화하고, 이를 기초로 공간분석을 실시함으로써 환경요소별 공간분포에 대한 파악을 통해 수치모형실험을 이용한 각종 환경영향의 평가 및 예측을 위한 기초자료로 이용이 가능할 것으로 사료된다.염총량관리 기본계획 시 구축된 모형 매개변수를 바탕으로 분석을 수행하였다. 일차오차분석을 이용하여 수리매개변수와 수질매개변수의 수질항목별 상대적 기여도를 파악해 본 결과, 수리매개변수는 DO, BOD, 유기질소, 유기인 모든 항목에 일정 정도의 상대적 기여도를 가지고 있는 것을 알 수 있었다. 이로부터 수질 모형의 적용 시 수리 매개변수 또한 수질 매개변수의 추정 시와 같이 보다 세심한 주의를 기울여 추정할 필요가 있을 것으로 판단된다.변화와 기흉 발생과의 인과관계를 확인하고 좀 더 구체화하기 위한 연구가 필요할 것이다.게 이루어질 수 있을 것으로 기대된다.는 초과수익률이 상승하지만, 이후로는 감소하므로, 반전거래전략을 활용하는 경우 주식투자기간은 24개월이하의 중단기가 적합함을 발견하였다. 이상의 행태적 측면과 투자성과측면의 실증결과를 통하여 한국주식시장에 있어서 시장수익률을 평균적으로 초과할 수

  • PDF

Use of Tree Traversal Algorithms for Chain Formation in the PEGASIS Data Gathering Protocol for Wireless Sensor Networks

  • Meghanathan, Natarajan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제3권6호
    • /
    • pp.612-627
    • /
    • 2009
  • The high-level contribution of this paper is to illustrate the effectiveness of using graph theory tree traversal algorithms (pre-order, in-order and post-order traversals) to generate the chain of sensor nodes in the classical Power Efficient-Gathering in Sensor Information Systems (PEGASIS) data aggregation protocol for wireless sensor networks. We first construct an undirected minimum-weight spanning tree (ud-MST) on a complete sensor network graph, wherein the weight of each edge is the Euclidean distance between the constituent nodes of the edge. A Breadth-First-Search of the ud-MST, starting with the node located closest to the center of the network, is now conducted to iteratively construct a rooted directed minimum-weight spanning tree (rd-MST). The three tree traversal algorithms are then executed on the rd-MST and the node sequence resulting from each of the traversals is used as the chain of nodes for the PEGASIS protocol. Simulation studies on PEGASIS conducted for both TDMA and CDMA systems illustrate that using the chain of nodes generated from the tree traversal algorithms, the node lifetime can improve as large as by 19%-30% and at the same time, the energy loss per node can be 19%-35% lower than that obtained with the currently used distance-based greedy heuristic.

다중 분포 학습 모델을 위한 Haar-like Feature와 Decision Tree를 이용한 학습 알고리즘 (Learning Algorithm for Multiple Distribution Data using Haar-like Feature and Decision Tree)

  • 곽주현;원일용;이창훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.43-48
    • /
    • 2013
  • Adaboost 알고리즘은 얼굴인식을 위한 Haar-like feature들을 이용하기 위해 가장 널리 쓰이고 있는 알고리즘이다. 매우 빠르며 효율적인 성능을 보이고 있으며 하나의 모델이미지가 존재하는 단일분포 데이터에 대해 매우 효율적이다. 그러나 정면 얼굴과 측면 얼굴을 혼합한 인식 등 둘 이상의 모델이미지를 가진 다중 분포모델에 대해서는 그 성능이 저하된다. 이는 단일 학습 알고리즘의 선형결합에 의존하기 때문에 생기는 현상이며 그 응용범위의 한계를 지니게 된다. 본 연구에서는 이를 해결하기 위한 제안으로서 Decision Tree를 Harr-like Feature와 결합하는 기법을 제안한다. Decision Tree를 사용 함으로서 보다 넓은 분야의 문제를 해결하기 위해 기존의 Decision Tree를 Harr-like Feature에 적합하도록 개선한 HDCT라고 하는 Harr-like Feature를 활용한 Decision Tree를 제안하였으며 이것의 성능을 Adaboost와 비교 평가하였다.

무선 센서망에서 이동 싱크의 동적 브랜치를 통한 데이터 수집 방안 (A Data Gathering Scheme using Dynamic Branch of Mobile Sink in Wireless Sensor Networks)

  • 이길흥
    • 한국ITS학회 논문지
    • /
    • 제11권1호
    • /
    • pp.92-97
    • /
    • 2012
  • 본 논문은 무선 센서망에서 이동 싱크의 동적 브랜치를 통한 데이터 수집 방안을 제안한다. 데이터 전달에 이용되는 트리는 싱크 노드를 루트 노드로 하고 복수개의 브랜치를 가지며, 싱크의 이동과 함께 노드의 부모가 동적으로 변경된다. 또한, 홉 기반의 필터와 플러딩의 효과적인 제한을 통해 제어 트래픽을 줄이고, 효율적인 데이터 전달을 이루는 트리구성 방안을 다룬다. 시뮬레이션 결과를 통해, 제안된 데이터 수집 방안이 기존의 방안과 비교하여, 높은 데이터 도착율과 낮은 전달 지연, 그리고 효과적인 에너지 절약을 보이는 것은 확인할 수 있었다.

매개 변수를 이용한 의사결정나무 생성에 관한 연구 (A study on decision tree creation using intervening variable)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.671-678
    • /
    • 2011
  • 데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 의사결정나무, 연관 규칙, 군집분석, 신경망 분석 등의 기법이 있으며, 이중 의사결정나무 알고리즘은 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법으로서 고객세분화, 고객 분류, 문제 예측 등의 여러 분야에서 유용하게 활용되고 있다. 일반적으로 의사결정나무의 모형 생성 시, 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 하며 특히 입력 변수의 수가 많을 경우 종종 모형 생성 및 해석에 있어 어려움을 격기도 한다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 매개 관계를 파악하여 나무 생성에 불필요한 입력 변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

네트워크 비정상 탐지를 위한 속성 축소를 반영한 의사결정나무 기술 (Decision Tree Techniques with Feature Reduction for Network Anomaly Detection)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제29권4호
    • /
    • pp.795-805
    • /
    • 2019
  • 최근 알려지지 않은 공격에 대처하기 위한 네트워크 비정상(anomaly) 탐지 기술에 대한 관심이 한층 높아지고 있다. 이러한 기술 개발을 위해 데이터 마이닝(data mining), 기계학습(machine learning), 그리고 딥러닝(deep learning)등을 활용한 다양한 연구가 진행되고 있다. 본 논문에서는 분류(classification) 문제를 다루는 데이터 마이닝 기술 중 가장 전통적인 방법 중 하나인 의사결정나무(decision tree)를 이용하여 NSL-KDD 데이터 셋을 대상으로 네트워크 비정상 탐지 가능성을 보여준다. 의사결정나무의 과대적합(over-fitting) 단점을 해소하기 위해 카이-제곱(chi-square) 테스트를 통해 최적의 속성 선택(feature selection)을 수행하고, 선택된 13개의 속성을 사용한 의사결정나무 모델 환경에서 NSL-KDD 시험 데이터 셋 KDDTest+에 대해 84% 그리고 KDDTest-21에 대해 70%의 네트워크 비정상 검출 정확도를 보였다. 제시된 정확도는 기존 의사결정나무 모델 적용 시 이들 시험 데이터 셋을 대상으로 알려진 정확도 81% 그리고 64% 수준과 비교해 약 3% 그리고 6% 각각 향상된 결과다.

의사결정나무를 활용한 2030년 도시 확장 예측 (Urban Sprawl prediction in 2030 using decision tree)

  • 김근한;최희선;김동범;정예림;진대용
    • 한국환경복원기술학회지
    • /
    • 제23권6호
    • /
    • pp.125-135
    • /
    • 2020
  • The uncontrolled urban expansion causes various social, economic problems and natural/environmental problems. Therefore, it is necessary to forecast urban expansion by identifying various factors related to urban expansion. This study aims to forecast it using a decision tree that is widely used in various areas. The study used geographic data such as the area of use, geographical data like elevation and slope, the environmental conservation value assessment map, and population density data for 2006 and 2018. It extracted the new urban expansion areas by comparing the residential, industrial, and commercial zones of the zoning in 2006 and 2018 and derived a decision tree using the 2006 data as independent variables. It is intended to forecast urban expansion in 2030 by applying the data for 2018 to the derived decision tree. The analysis result confirmed that the distance from the green area, the elevation, the grade of the environmental conservation value assessment map, and the distance from the industrial area were important factors in forecasting the urban area expansion. The AUC of 0.95051 showed excellent explanatory power in the ROC analysis performed to verify the accuracy. However, the forecast of the urban area expansion for 2018 using the decision tree was 15,459.98㎢, which was significantly different from the actual urban area of 4,144.93㎢ for 2018. Since many regions use decision tree to forecast urban expansion, they can be useful for identifying which factors affect urban expansion, although they are not suitable for forecasting the expansion of urban region in detail. Identifying such important factors for urban expansion is expected to provide information that can be used in future land, urban, and environmental planning.

혼합형 데이터에 대한 나무형 군집화 (Tree-structured Clustering for Mixed Data)

  • 양경숙;허명회
    • 응용통계연구
    • /
    • 제19권2호
    • /
    • pp.271-282
    • /
    • 2006
  • 본 논문에서는 범주형과 연속형 변수들이 혼합된 데이터에 적용할 수 있는 나무형 군집화 알고리즘을 제안하였다. 특히 혼합된 변수들이 공통의 의미를 갖도록 하기 위해 범주형 변수들을 전처리하는 방법을 고안하였다. 수치 예로서 SPSS의 신용(credit) 데이터와 독일신용자료(German credit data)에 알고리즘을 적용하고 그 결과를 검토하였다.