• 제목/요약/키워드: Tree mining

검색결과 564건 처리시간 0.027초

데이터마이닝을 이용한 단기부하예측 (Short-term demand forecasting Using Data Mining Method)

  • 최상열;김형중
    • 조명전기설비학회논문지
    • /
    • 제21권10호
    • /
    • pp.126-133
    • /
    • 2007
  • 본 연구에서는 데이터 마이닝 기법을 이용하여 전력계통의 단기 부하 예측을 하는 방안을 제시한다. 기존의 단기 부하 예측은 시계열 분석 방법이 주를 이루었으며, 이러한 방법은 방대한 양의 자료를 기반으로 데이터베이스를 만들고 이를 이용하여 여러 가지 계수를 이용하여 수요를 예측함으로써 많은 시간과 노력이 소요되고 있다. 따라서 본 연구에서는 좀 더 적은 시간과 노력으로 부하예측이 가능하도록 데이터마이닝 기법을 이용하여 요일별 그리고 특수 일의 패턴을 분석하고 의사결정트리를 이용한 예측방법을 제시하고자 한다. 그리고 현재 전력거래소를 통해 거래되고 있는 계통한계가격과의 관계를 분석하여 예측 계수에 계통한계가격을 추가하여 예측방법을 제시하고자 한다.

변형된 FP-Tree를 기반한 상품 추천 시스템 (The Goods Recommendation System based on modified FP-Tree Algorithm)

  • 김종희;정순기
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권11호
    • /
    • pp.205-213
    • /
    • 2010
  • 연관규칙 마이닝 기법 중에 하나인 FP-트리 알고리즘을 이용하는 추천시스템이 시도되고 있다. 본 논문에서는 트랜�Ъ� 데이터베이스로부터 빈발 2-항목집합만을 추출하여 연관규칙을 생성하는 변형된 FP-알고리즘을 사용하는 추천시스템을 제안하였다. 제안된 추천시스템은 전처리 모듈, 학습 모듈, 추천 모듈 및 평가 모듈로 구성되었다. 제안된 추천시스템의 실험을 통하여 상품 추천의정확률과 재현율과 F-Measure와 성공률과 추천실행시간을 수행하였으며, 순차패턴 마이닝 기법을 사용하는 추천시스템과의 성능을 비교분석 하였다. 순차패턴 마이닝기법을 사용하는 추천시스템과 학습 성능, 추천 성능을 비교한 결과 학습 성능은 5배 이상 향상되었으며, 추천 성능은 20%이상 향상 되었다. 결론적으로, 순차패턴 추천시스템과 같은 데이터를 가지고 실험하여 추천시스템 성능의 타당성에는 보다 나은 시스템임을 입증 하였다.

데이터 마이닝을 활용한 장기저장탄약 상태 결정요인 분석 연구 (A Study on Determinants of Stockpile Ammunition using Data Mining)

  • 노유찬;조남욱;이동녁
    • 품질경영학회지
    • /
    • 제48권2호
    • /
    • pp.297-307
    • /
    • 2020
  • Purpose: The purpose of this study is to analyze the factors that affect ammunition performance by applying data mining techniques to the Ammunition Stockpile Reliability Program (ASRP) data of the 155mm propelling charge. Methods: The ASRP data from 1999 to 2017 have been utilized. Logistic regression and decision tree analysis were used to investigate the factors that affect performance of ammunition. The performance evaluation of each model was conducted through comparison with an artificial neural networks(ANN) model. Results: The results of this study are as follows; logistic regression and the decision tree analysis showed that major defect rate of visual inspection is the most significant factor. Also, muzzle velocity by base charge and muzzle velocity by increment charge are also among the significant factors affecting the performance of 155mm propelling charge. To validate the logistic regression and decision tree models, their classification accuracies have been compared with the results of an ANN model. The results indicate that the logistic regression and decision tree models show sufficient performance which conforms the validity of the models. Conclusion: The main contribution of this paper is that, to our best knowledge, it is the first attempt at identifying the significant factors of ASPR data by using data mining techniques. The approaches suggested in the paper could also be extended to other types ammunition data.

의사결정나무 분석법을 활용한 우울 노인의 특성 분석 (Analysis of the Characteristics of the Older Adults with Depression Using Data Mining Decision Tree Analysis)

  • 박명화;최소라;신아미;구철회
    • 대한간호학회지
    • /
    • 제43권1호
    • /
    • pp.1-10
    • /
    • 2013
  • Purpose: The purpose of this study was to develop a prediction model for the characteristics of older adults with depression using the decision tree method. Methods: A large dataset from the 2008 Korean Elderly Survey was used and data of 14,970 elderly people were analyzed. Target variable was depression and 53 input variables were general characteristics, family & social relationship, economic status, health status, health behavior, functional status, leisure & social activity, quality of life, and living environment. Data were analyzed by decision tree analysis, a data mining technique using SPSS Window 19.0 and Clementine 12.0 programs. Results: The decision trees were classified into five different rules to define the characteristics of older adults with depression. Classification & Regression Tree (C&RT) showed the best prediction with an accuracy of 80.81% among data mining models. Factors in the rules were life satisfaction, nutritional status, daily activity difficulty due to pain, functional limitation for basic or instrumental daily activities, number of chronic diseases and daily activity difficulty due to disease. Conclusion: The different rules classified by the decision tree model in this study should contribute as baseline data for discovering informative knowledge and developing interventions tailored to these individual characteristics.

데이터마이닝을 이용한 자동차부품 품질개선 연구 (Quality Imporovement of Auto-Parts Using Data Mining)

  • 변용완;양재경
    • 대한안전경영과학회지
    • /
    • 제12권3호
    • /
    • pp.333-339
    • /
    • 2010
  • Data mining is the process of finding and analyzing data from a big database and summarizing it into useful information for a decision-making. A variety of data mining techniques have been being used for wide range of industries. One application of those is especially so for gathering meaningful information from process data in manufacturing factories for quality improvement. The purpose of this paper is to provide a methodology to improve manufacturing quality of fuel tanks which are auto-parts. The methodology is to analyse influential attributes and establish a model for optimal manufacturing condition of fuel tanks to improve the quality using decision tree, association rule, and feature selection.

스트리밍 XML 데이터의 빈발 구조 마이닝 (Mining of Frequent Structures over Streaming XML Data)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.23-30
    • /
    • 2008
  • 유비쿼터스 환경에서 상황정보 인식 분야를 연구하면서 가장 밑바탕에서 기초가 될 수 있는 것은 인터넷 기술과 XML(Extensible Markup Language)이다. 인터넷을 통한 통신에서 XML 데이터의 사용이 일반화되고 있으며 데이터의 형태는 연속적이다. 그리고 XML 스트림 데이터에 대한 질의를 처리하기 위한 방안들이 제시되고 있다. 이 논문에서는 스트림 데이터에 대한 질의처리를 효율적으로 수행하기 위한 기반연구로써 XML을 레이블의 순서화된 트리로 모델링하여 온라인 환경에서 빈발한 구조를 추출하는 마이닝 방법을 제안한다. 즉, 지속적으로 입력되는 XML 데이터의 구조를 트리로 모델링하고 각각의 트리를 하나의 트리 집합의 구조로 표현하여 현재 윈도우 시점에서 빈발한 구조를 정확하고 빠르게 추출하는 방법을 제시한다. 제시하는 방법은 XML의 질의 처리 및 색인 구성의 기초 자료로 활용될 수 있다.

트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법의 성능분석 (Performance analysis of Frequent Itemset Mining Technique based on Transaction Weight Constraints)

  • 윤은일;편광범
    • 인터넷정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.67-74
    • /
    • 2015
  • 최근, 아이템들의 가치를 고려한 빈발 아이템셋 마이닝 방법은 데이터 마이닝 분야에서 가장 중요한 이슈 중 하나로 활발히 연구되어왔다. 아이템들의 가치를 고려한 마이닝 기법들은 적용 방법에 따라 크게 가중화 빈발 아이템셋 마이닝, 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝, 유틸리티 아이템셋 마이닝으로 구분된다. 본 논문에서는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝들에 대해 실증적인 분석을 수행한다. 일반적으로 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법들은 데이터베이스 내 아이템들의 가치를 고려함으로써 트랜잭션 가중치를 계산한다. 또한, 그 기법들은 계산된 각 트랜잭션의 가중치를 바탕으로 가중화 빈발 아이템셋들을 마이닝 한다. 트랜잭션 가중치는 트랜잭션 내에 높은 가치의 아이템이 많이 포함 될수록 높은 값으로 나타나기 때문에 우리는 각 트랜잭션의 가중치의 분석을 통해 그 가치를 파악할 수 있다. 우리는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법 중에서 가장 유명한 알고리즘인 WIS와 WIT-FWIs, IT-FWIs-MODIFY, WIT-FWIs-DIFF의 장 단점을 분석하고 각각의 성능을 비교한다. WIS는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝의 개념과 그 기법이 처음 제안된 알고리즘이며, 전통적인 빈발 아이템셋 마이닝 기법인 Apriori를 기반으로 하고 있다. 또 다른 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 방법인 WIT-FWIs와 WIT-FWIs-MODIFY, WIT-FWIs-DIFF는 가중화된 빈발 아이템셋 마이닝을 더 효율적으로 수행하기 위해 격자구조(Lattice) 형태의 특별한 저장구조인 WIT-tree를 이용한다. WIT-tree의 각 노드에는 아이템셋 정보와 아이템셋이 포함된 트랜잭션의 ID들이 저장되며, 이 구조를 사용함으로써 아이템셋 마이닝 과정에서 발생되는 다수의 데이터베이스 스캔 과정이 감소된다. 특히, 전통적인 알고리즘들이 수많은 데이터베이스 스캔을 수행하는 반면에, 이 알고리즘들은 WIT-tree를 이용해 데이터베이스를 오직 한번만 읽음으로써 마이닝과정에서 발생 가능한 오버헤드 문제를 해결한다. 또한, 공통적으로 길이 N의 두 아이템셋을 이용해 길이 N+1의 새로운 아이템셋을 생성한다. 먼저, WIT-FWIs는 각 아이템셋이 동시에 발생되는 트랜잭션들의 정보를 활용하는 것이 특징이다. WIT-FWIs-MODIFY는 조합되는 아이템셋의 정보를 이용해 빈도수 계산에 필요한 연산을 줄인 알고리즘이다. WIT-FWIs-DIFF는 두 아이템셋 중 하나만 발생한 트랜잭션의 정보를 이용한다. 우리는 다양한 실험환경에서 각 알고리즘의 성능을 비교분석하기 위해 각 트랜잭션의 형태가 유사한 dense 데이터와 각 트랜잭션의 구성이 서로 다른 sparse 데이터를 이용해 마이닝 시간과 최대 메모리 사용량을 평가한다. 또한, 각 알고리즘의 안정성을 평가하기 위한 확장성 테스트를 수행한다. 결과적으로, dense 데이터에서는 WIT-FWIs와 WIT-FWIs-MODIFY가 다른 알고리즘들보다 좋은 성능을 보이고 sparse 데이터에서는 WIT-FWI-DIFF가 가장 좋은 효율성을 갖는다. WIS는 더 많은 연산을 수행하는 알고리즘을 기반으로 했기 때문에 평균적으로 가장 낮은 성능을 보인다.

주변조건부 변수를 이용한 의사결정나무모형 생성에 관한 연구 (A study on decision tree creation using marginally conditional variables)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권2호
    • /
    • pp.299-307
    • /
    • 2012
  • 데이터마이닝은 주어진 데이터베이스에서 항목간의 흥미로운 관계를 찾아내는 기법으로서 의사결정나무는 데이터마이닝의 대표적인 알고리즘이라고 할 수 있다. 의사결정나무는 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법이다. 일반적으로 연구자가 의사결정나무 모형을 생성 할 때 모형 생성의 기준 및 입력 변수의 수에 따라 복잡한 모형이 생성되기도 한다. 특히 의사결정나무 모형에서 입력 변수의 수가 많을 경우 생성된 모형은 복잡한 형태가 될 수 있고, 모형 분석이 어려울 수도 있다. 만일 입력변수에서 주변조건부 변수 (매개변수, 외적변수)가 존재한다면 이 입력변수는 직접적인 관련성이 없는 것으로 판단한다. 이에 본 논문에서는 주변조건부 변수를 고려하여 의사결정나무모형을 생성하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

네트워크 비정상 탐지를 위한 속성 축소를 반영한 의사결정나무 기술 (Decision Tree Techniques with Feature Reduction for Network Anomaly Detection)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제29권4호
    • /
    • pp.795-805
    • /
    • 2019
  • 최근 알려지지 않은 공격에 대처하기 위한 네트워크 비정상(anomaly) 탐지 기술에 대한 관심이 한층 높아지고 있다. 이러한 기술 개발을 위해 데이터 마이닝(data mining), 기계학습(machine learning), 그리고 딥러닝(deep learning)등을 활용한 다양한 연구가 진행되고 있다. 본 논문에서는 분류(classification) 문제를 다루는 데이터 마이닝 기술 중 가장 전통적인 방법 중 하나인 의사결정나무(decision tree)를 이용하여 NSL-KDD 데이터 셋을 대상으로 네트워크 비정상 탐지 가능성을 보여준다. 의사결정나무의 과대적합(over-fitting) 단점을 해소하기 위해 카이-제곱(chi-square) 테스트를 통해 최적의 속성 선택(feature selection)을 수행하고, 선택된 13개의 속성을 사용한 의사결정나무 모델 환경에서 NSL-KDD 시험 데이터 셋 KDDTest+에 대해 84% 그리고 KDDTest-21에 대해 70%의 네트워크 비정상 검출 정확도를 보였다. 제시된 정확도는 기존 의사결정나무 모델 적용 시 이들 시험 데이터 셋을 대상으로 알려진 정확도 81% 그리고 64% 수준과 비교해 약 3% 그리고 6% 각각 향상된 결과다.

침입탐지시스템에서 하이브리드 특징 선택에 관한 연구 (A Study on Hybrid Feature Selection in Intrusion Detection System)

  • 한명묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.279-282
    • /
    • 2006
  • 네트워크를 기반으로 한 컴퓨터 시스템이 현대 사회에 있어서 더욱 더 불가결한 역할을 하는 것에 따라, 네트워크 기반 컴퓨터 시스템은 침입자의 침입 목표가 되고 있다. 이를 보호하기 위한 침입탐지시스템(Intrusion Detection System : IDS)은 점차 중요한 기술이 되었다. 침입탐지시스템에서 패턴들을 분석한 후 정상/비정상을 판단 및 예측하기 위해서는 초기단계인 특징추출이나 선택이 매우 중요한 부분이 되고 있다. 본 논문에서는 IDS에서 중요한 부분인 feature selection을 Data Mining 기법인 Genetic Algorithm(GA)과 Decision Tree(DT)를 적용해서 구현했다.

  • PDF