• 제목/요약/키워드: Data Tree

검색결과 3,320건 처리시간 0.03초

패턴의 변화를 가지는 연속성 데이터를 위한 스트리밍 의사결정나무 (Streaming Decision Tree for Continuity Data with Changed Pattern)

  • 윤태복;심학준;이지형;최영미
    • 한국지능시스템학회논문지
    • /
    • 제20권1호
    • /
    • pp.94-100
    • /
    • 2010
  • 데이터 마이닝(Data Mining)은 환경으로부터 수집된 데이터에서 패턴을 추출하고 의미 있는 정보를 발견하기 위하여 주로 사용된다. 하지만, 기존의 방법은 데이터의 수집이 완료된 상태에서 분석하는 것을 기반으로 하고 있으며, 시간의 흐름에 따른 패턴의 변화를 반영하기 어렵다. 본 논문은 연속성(Continuity data), 대량성(Large scale) 그리고 패턴의 가변성(Changed pattern)과 같은 특성을 가지는 스트림 데이터(Stream Data)의 분석을 위한 스트리밍 의사결정 나무(Streaming Decision Tree : SDT) 방법을 소개한다. SDT는 연속적으로 발생하는 데이터를 블록으로 정의하고, 각 블록은 의사결정나무 학습 방법을 이용하여 규칙을 추출한다. 추출된 규칙은 발생 시간, 빈도 그리고 모순 등을 고려하여 결합하였다. 실험에서는 시계열 데이터를 이용하여 분석하였고, 적절한 결과를 확인하였다.

IRFP-tree(Intersection Rule Based FP-tree): 메모리 효율성을 향상시키기 위해 교집합 규칙 기반의 패러다임을 적용한 FP-tree (IRFP-tree: Intersection Rule Based FP-tree)

  • 이정훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.155-164
    • /
    • 2016
  • 대용량 데이터베이스의 빈도패턴 분석을 위해 기존의 Apriori 방식의 단점을 보완할 수 있는 새로운 트리 기반의 빈도 패턴 분석 알고리즘이 최근 다양하게 연구되고 있다. 그 중 FP-tree는 이러한 빈도 패턴을 분석하기 위해 빈도 패턴을 표현하는 트리 구조로 단 두 번의 전체 데이터베이스 스캔을 통해 빠르게 트리를 구성할 수 있으며 FP-grwoth를 통해 빈도 패턴을 분석할 수 있다. 이처럼 빈도 패턴 트리의 노드 수는 트리 자체의 메모리 할당량과도 연관이 있지만 그 후 growth의 메모리 자원 소비 및 처리 속도에도 영향을 미치게 된다. 따라서 빈도 패턴 트리의 노드 수의 감소는 트리 자체뿐만 아니라 빈도 패턴 분석에 있어서도 매우 중요하다. 하지만 FP-tree는 전체 아이템 수 라는 고정된 기준 문제로 인해 충분한 노드 수의 압축률을 갖지 못하고 있다. 본 논문에서는 이러한 FP-tree의 문제를 보완하여 좀 더 노드 수를 감소시킬 수 있도록 교집합 규칙이라는 새로운 패러다임을 적용한 빈도 패턴 트리인 IRFP-tree를 제시하고 실험을 통해 그 성능에 대해 증명하였다.

큐보이드 전위트리를 이용한 빙산질의 처리 (Iceberg Query Evaluation Technical Using a Cuboid Prefix Tree)

  • 한상길;양우석;이원석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권3호
    • /
    • pp.226-234
    • /
    • 2009
  • 무한한 데이터 스트림을 저장하는 것은 거의 불가능하기 때문에 데이터 스트림 환경에서 빙산질의를 수행하기 위해서는 새로운 데이터 구조와 알고리즘이 요구된다. 본 논문에서는 데이터 스트림 환경에서 빙산질의를 처리하기 위해 전위트리 구조에 기반한 규보이드 전위트리(Euboid prefix tree)를 제안한다. 큐보이드 전위트리는 빙산질의에 사용된 그룹항목으로 이루어진 항목집합만을 트리에서 관리하므로 전위트리보다 적은 메모리를 사용한다. 1-항목 관리를 통해서 빈발하지 않은 항목을 트랜잭션에서 제거함으로써 갱신 시 불필요하게 소요되는 시간을 줄일 수 있다. 또한 다중 빙산질의에서 공통적으로 사용된 그룹속성에 따라 노드를 공유함으로써 적은 메모리를 사용하여 효율적으로 다중 빙산질의를 처리할 수 있는 방법을 제안한다. 큐보이드 전위트리는 무한히 연속적으로 생성되는 데이터에 대하여 빙산질의를 처리하는데 있어서 메모리 사용량과 처리시간을 효과적으로 줄이며, 이를 여러 실험을 통해 확인하였다.

CAD를 이용한 가로수 관리 전산화에 관한 연구 (Computerization for Management of Street Tree Using CAD)

  • 허상현;심경구
    • 한국조경학회지
    • /
    • 제29권2호
    • /
    • pp.68-76
    • /
    • 2001
  • The purpose of this study is to computerize street tree management using a CAD program in order to manage the drawing record of street trees systematically and concurrently. The configuration of this program is composed of Reference Data, Data Inquiry, and Cost Assessment. The Reference Data includes characteristics of trees, monthly managements records, damage by blight and insects and usage of pesticides. The Data Inquiry includes an individual search of the tree index, simple searches and multiple searches. The Cost Assessment includes two main components, the data input with labor cost, manure ocst and pesticide cost and the assesment of management cost for prevention of blight and insects, pruning and fertilization. The results of this study are as follows: 1) When there are practices such as transplanting and removing of street trees it is immediately updated with the various situation. By creating an in progress a tree management system, up to the date information can be given to the manager for decision making. 2) To identify individual tree at the site or in drawing, the street name and numbers were used instead of coordinates. Tree tags are attached to the street trees individually. It can make DB management simple and easy. 3) By doing simple or multiple search with constructed DB, data can be provided quickly. 4) The result of this type of search are useful in the assessment of management cost very useful in regards to items such as the pruning, pesticides scattering and fertilization. 5) By using the AutoCAD software and existing PC without purchasing new equipment, the cost of system implementation can be minimized.

  • PDF

위치 기반 서비스를 위한 Rend 3DR-tree를 이용한 색인 기법 (Index method of using Rend 3DR-tree for Location-Based Service)

  • 남지은;임기욱;이정배;이종욱;신현철
    • 융합보안논문지
    • /
    • 제8권4호
    • /
    • pp.97-104
    • /
    • 2008
  • 최근 이동 객체의 위치 데이터를 이용하기 위한 무선 측위 기술과 모바일 컴퓨팅 기술이 급속도로 발전하였다. 이동 객체의 수가 많고 위치 획득 간격이 짧을수록 위치 데이터가 급격히 늘어나기 때문에 대용량의 위치 데이터 처리가 가능해야 하며, 위치 기반 서비스를 위한 다양한 시공간 인덱싱을 지원해야 하고, 또한 이동 객체의 불확실성 문제를 해결할 수 있어야 한다. 따라서, 본 논문에서는 이동 객체의 위치 데이터를 효과적으로 갱신하면서 현재 데이터와 과거 데이터의 인덱싱을 지원하는 색인 구조로 3DR-tree 기법을 활용하여 색인시 노드간의 겹침을 보완하고 사장 공간을 줄이는 Rend 3DR-tree 기법을 제안한다.

  • PDF

다차원 데이터 및 동적 이용자 선호도를 위한 색인 구조의 연구 (An Index Structure for Efficiently Handling Dynamic User Preferences and Multidimensional Data)

  • 최종혁;류관희;나스리디노프 아지즈
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제7권7호
    • /
    • pp.925-934
    • /
    • 2017
  • 다차원 색인 구조 중 대표적인 것은 R-tree에 기초한 색인으로써 공간 정보 등에 있어 강력한 성능을 보인다. 하지만 R-tree의 경우 차원의 수가 증가하거나 이용자 선호에 따라 부분 차원만을 이용하는 경우, 색인을 생성하는 시간이 크게 증가하고 생성된 색인의 효율성이 감소하는 문제를 갖고 있다. 따라서 지속적으로 차원이 증가하고 있는 최근의 다차원 데이터에는 해당 방법들은 적합하지 않다. 본 논문에서는 이런 문제를 해결하기 위해 해시 색인에 기반한 새로운 다차원 색인 구조인 다차원 해시 색인을 제안한다. 다차원 해시 색인은 해시 함수를 통해 데이터들을 유클리드 공간의 버킷들로 분류하여 색인을 생성하고 이후 탐색이 요청되었을 때 이용자 선호도에 따라 선택된 부분 차원의 공간을 탐색할 수 있는 해시 탐색 트리를 생성하여 효과적인 탐색을 수행한다. 실험 결과, 해당 기법은 R-tree와 비교하여 색인 생성에 있어 매우 큰 성능의 향상과 함께 탐색에서도 유사한 탐색 성능을 보이는 것을 확인할 수 있었다.

다중 추상화 수준의 데이터를 위한 결정 트리 분류기 (Decision Tree Classifier for Multiple Abstraction Levels of Data)

  • 정민아;이도헌
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.23-32
    • /
    • 2003
  • 대규모 데이터 마이닝 환경에서는 이질적인 데이터베이스 혹은 파일 시스템으로부터 분석 대상 데이터를 수집하는 경우가 일반적이므로, 수집된 데이터가 서로 다른 추상화 수준(abstraction level)으로 표현되기 마련이다, 본 논문에서는 기존의 결정 트리(decision tree)를 서로 다른 추상화 수준으로 표현된 데이터에 적용할 때, 분류상 모순이 일어날 수 있음을 보이고, 그에 대한 해결방안을 제시한다. 제안하는 방법은 데이터 간에 존재하는 일반화/세분화 관련성을 결정 트리의 구축 단계는 물론, 클래스 할당 단계에도 반영하여 데이터간의 의미적 연관성을 효과적으로 활용할 수 있도록 한다. 아울러 실제 데이터에 기반을 둔 실험을 통해, 제안한 방법이 기존 방법보다 분류 오류율을 현저히 줄일 수 있음을 보인다.

Best-First decision tree 기법을 적용한 심전도 데이터 분류기의 정확도 향상에 관한 연구 (Research on improving correctness of cardiac disorder data classifier by applying Best-First decision tree method)

  • 이현주;신동규;박희원;김수한;신동일
    • 인터넷정보학회논문지
    • /
    • 제12권6호
    • /
    • pp.63-71
    • /
    • 2011
  • 심전도 질환 데이터는 일반적으로 분류기를 사용한 실험이 많다. 심전도 신호는 QRS-Complex와 R-R interval을 추출하는 경우가 많은데 본 실험에서는 R-R interval을 추출하여 실험하였다. 심전도 데이터의 분류기 실험은 일반적으로 SVM(Support Vector Machine)과 MLP(Multilayer Perceptron) 분류기로 수행되지만 본 실험은 정확도 향상을 위해 Random Forest 분류기 알고리즘 중 Decision Tree를 Best-First Decision Tree(B-F Tree)로 수정하여 실험하였다. 그리고 정확도 비교분석을 위해 SVM, MLP, RBF(Radial Basic Function) Network와 Decision Tree 분류기 실험을 같이 수행하였고, 동일한 데이터와 간격으로 실험한 타 논문의 결과와 비교해보았다. 수정한 Random Forest 분류기의 정확도를 다른 네 개의 분류기와 타 논문의 실험과 비교해보니 정확도 부분에서는 Random Forest가 가장 우수하였다. 본 실험의 전처리 과정은 대역통과 필터(Band-pass filter)를 사용하여 R-R interval을 추출하였는데 향후에는 정확한 간격을 추출하기 위한 필터의 연구가 사려된다.

Clustering based on Dependence Tree in Massive Data Streams

  • Yun, Hong-Won
    • Journal of information and communication convergence engineering
    • /
    • 제6권2호
    • /
    • pp.182-186
    • /
    • 2008
  • RFID systems generate huge amount of data quickly. The data are associated with the locations and the timestamps and the containment relationships. It is requires to assure efficient queries and updates for product tracking and monitoring. We propose a clustering technique for fast query processing. Our study presents the state charts of temporal event flow and proposes the dependence trees with data association and uses them to cluster the linked events. Our experimental evaluation show the power of proposing clustering technique based on dependence tree.

Selection of Tree History Management System Items for Analyzing the Causes of Landscape Tree Defects in an Apartment Complex

  • Park, Sang Wook
    • 인간식물환경학회지
    • /
    • 제23권3호
    • /
    • pp.347-362
    • /
    • 2020
  • Background and objective: It is difficult to conclusively determine the exact cause of tree defects since multiple causes are involved such as climate change, plantation, tree quality and planting time, construction, planting base, drainage, sunshine conditions, maintenance, and microclimate. The data related to landscaping construction defects are scattered or fragmented by companies and years, but not managed systematically by the defect information management system. Most of the earlier studies associated with tree defects in apartment complexes suggested defect rates after examining tree defects in the completed construction site and proposed fragmentary and subjective conclusions about the causes of defects observed in trees with high defect rates. It is proposed to continue to conduct studies on the establishment and analysis of systematic databases to identify the exact causes of tree defects and measures to improve, and the need to accumulate systematic data in the construction process where many defects arises. This study was conducted to reduce the defects of trees planted in apartment complexes. Methods: Main factors related to tree defects were subdivided based on the results of literature review and a defect investigation at the completion site, and tree history management items were selected and subdivided during the construction stage. Results: The criteria for the preparation of subdivided items were obtained, and the tree history management checklist was written for the site under actual construction and a systematic database was established. Items that are categorized based to the causes of defects include the location of nurseries, date, tree quality, site conditions, planting techniques, microclimates, and maintenance. Conclusion: This study suggested tree history management items based on the tree defects that can be identified at the construction stage and applied them to the selected study site, which differentiates this study from earlier studies. It will be necessary to conduct a comprehensive and objective time series analysis on tree defects that occur over time by continuously monitoring and collecting data after construction.