• 제목/요약/키워드: Classification trees

검색결과 313건 처리시간 0.027초

Split Effect in Ensemble

  • Chung, Dong-Jun;Kim, Hyun-Joong
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2005년도 추계 학술발표회 논문집
    • /
    • pp.193-197
    • /
    • 2005
  • Classification tree is one of the most suitable base learners for ensemble. For past decade, it was found that bagging gives the most accurate prediction when used with unpruned tree and boosting with stump. Researchers have tried to understand the relationship between the size of trees and the accuracy of ensemble. With experiment, it is found that large trees make boosting overfit the dataset and stumps help avoid it. It means that the accuracy of each classifier needs to be sacrificed for better weighting at each iteration. Hence, split effect in boosting can be explained with the trade-off between the accuracy of each classifier and better weighting on the misclassified points. In bagging, combining larger trees give more accurate prediction because bagging does not have such trade-off, thus it is advisable to make each classifier as accurate as possible.

  • PDF

데이터마이닝기법상에서 적합된 예측모형의 평가 -4개분류예측모형의 오분류율 및 훈련시간 비교평가 중심으로 (Evaluations of predicted models fitted for data mining - comparisons of classification accuracy and training time for 4 algorithms)

  • 이상복
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권2호
    • /
    • pp.113-124
    • /
    • 2001
  • 의사결정나무모형 가운데 하나인 CHAID, 로지스틱 회귀모형, 이들을 이용한 각각의 베깅모형 등 4가지 예측분류모형에 대한 오분류율과 훈련시간을 표본크기별로 계산하고, 이들 모형에 대한 모의실험 비교를 통하여 주어진 알고리즘들의 효율성을 평가하였다. 베깅 의사결정나무모형은 오분류율은 낮았으나 상대적으로 훈련시간이 가장 길었다.

  • PDF

Detection of the Damaged Trees by Pine Wilt Disease Using IKONOS Image

  • Lee, S.H.;Cho, H.K.;Kim, J.B.;Jo, M.H.
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.709-711
    • /
    • 2003
  • The purpose of this study is to detect the damaged red pine trees by pine wilt disease using high resolution satellite image of IKONOS Geo. IKONOS images are segmented with eCognition image processing software. A segment based maximum likelihood classification was performed to delineate the pine stand. The pine stands are regarded as a potential damage area. In order to develop a methodology to detect the location of damaged trees from the high resolution satellite image, black and white aerial photographs were used as a simulated image. The developed method based on filtering technique. A local maximum filter was adapted to detect the location of individual tree. This report presents a part of the first year results of an ongoing project.

  • PDF

CART 분석을 이용한 지하철 소음모형 개발 및 특성 연구 (The Development of Models and the Characteristics for Subway Noise Using the Classification and Regression Trees)

  • 김태호;이재명;원제무;송인석
    • 한국철도학회논문집
    • /
    • 제10권5호
    • /
    • pp.480-486
    • /
    • 2007
  • 대도시에서 지하철은 많은 도시민들에게 필요한 대중교통수단이다. 그러나 이용수요가 증가함에 따라 환경에 관련된 많은 문제가 발생하였다. 본 연구는 최근 사회적 관심사가 되어 있는 지하철 차내소음 문제를 연구대상으로 선정하였다. 지하철 5호선의 기하구조 및 운영요인을 수집하고, CART분석을 통해 소음자료 특성을 반영한 소음 영향모형을 개발하였다. 모형개발결과 지하철 기하구조 및 운영적 측면의 유형별로 소음에 미치는 영향들에 차이가 있는 것으로 나타났다.

공간통계학적 방법에 의한 소나무 재선충 피해의 자연적 확산유형분석 (Natural Spread Pattern of Damaged Area by Pine Wilt Disease Using Geostatistical Analysis)

  • 손민호;이우균;이승호;조현국;이준학
    • 한국산림과학회지
    • /
    • 제95권3호
    • /
    • pp.240-249
    • /
    • 2006
  • 최근, 소나무재선충(Bursaphelenchus xylophilus)에 의한 소나무림의 피해에 대한 사회적 심각성이 크게 대두되고 있다. 소나무 재선충에 의한 산림피해는 피해지 내에서는 매개충인 솔수염하늘소의 자연적인 영역확장에 의해 확산되는 반면, 전국적으로는 감염목의 인위적 반출 및 이동에 의해 확산이 진행되고 있다. 본 연구에서는 부산 대변항의 재선충 피해지내에서 항공사진 및 현지조사에 의해 피해목의 공간적인 위치를 파악하였고, 공간통계학적인 방법을 통하여 피해목의 공간분포유형, 피해발생과 지형인자간의 관계를 분석하였다. 또한, 지형공간자료를 통계학적 Tree 모형에 적용한 CART(Classification and Regression Trees)모형을 이용하여 재선충 피해의 자연적인 확산 예측 지도를 작성하였다. 본 연구를 통해 공간통계학적인 분석과 CART모형이 소나무재선충 피해의 공간분포 및 자연적 확산유형을 파악하는데 유용한 도구로 활용될 수 있음을 확인할 수 있었다.

Study on Forest Vegetation Classification with Remote Sensing

  • Yuan, Jinguo;Long, Limin
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2002년도 Proceedings of International Symposium on Remote Sensing
    • /
    • pp.250-255
    • /
    • 2002
  • This paper describes the study methods of identifying forest vegetation types, based on this study, forest vegetation classification method based on vegetation index is proposed. According to reflectance data of vegetation canopy and soil line equation NIR=1.506R+0.0076 in Jingyuetan, Changchun, China, many vegetation index are calculated and analyzed. The relationships between vegetation index and vegetation types are that PVI identifies broadleaf forest and conifer forest the most easily, the next is TSAVI and MSAVI, but their calculation is complex. RVI values of different conifer trees vary obviously, so RVI can classify conifer trees. In a word, combination of PVI and RVI is evaluated to classify different vegetation types.

  • PDF

Feature Selection for Multi-Class Support Vector Machines Using an Impurity Measure of Classification Trees: An Application to the Credit Rating of S&P 500 Companies

  • Hong, Tae-Ho;Park, Ji-Young
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.43-58
    • /
    • 2011
  • Support vector machines (SVMs), a machine learning technique, has been applied to not only binary classification problems such as bankruptcy prediction but also multi-class problems such as corporate credit ratings. However, in general, the performance of SVMs can be easily worse than the best alternative model to SVMs according to the selection of predictors, even though SVMs has the distinguishing feature of successfully classifying and predicting in a lot of dichotomous or multi-class problems. For overcoming the weakness of SVMs, this study has proposed an approach for selecting features for multi-class SVMs that utilize the impurity measures of classification trees. For the selection of the input features, we employed the C4.5 and CART algorithms, including the stepwise method of discriminant analysis, which is a well-known method for selecting features. We have built a multi-class SVMs model for credit rating using the above method and presented experimental results with data regarding S&P 500 companies.

Predicting the Performance of Forecasting Strategies for Naval Spare Parts Demand: A Machine Learning Approach

  • Moon, Seongmin
    • Management Science and Financial Engineering
    • /
    • 제19권1호
    • /
    • pp.1-10
    • /
    • 2013
  • Hierarchical forecasting strategy does not always outperform direct forecasting strategy. The performance generally depends on demand features. This research guides the use of the alternative forecasting strategies according to demand features. This paper developed and evaluated various classification models such as logistic regression (LR), artificial neural networks (ANN), decision trees (DT), boosted trees (BT), and random forests (RF) for predicting the relative performance of the alternative forecasting strategies for the South Korean navy's spare parts demand which has non-normal characteristics. ANN minimized classification errors and inventory costs, whereas LR minimized the Brier scores and the sum of forecasting errors.

소나무재선충병 피해목 탐지를 위한 UAV기반의 식생지수 비교 연구 (A Study on the UAV-based Vegetable Index Comparison for Detection of Pine Wilt Disease Trees)

  • 정윤영;김상욱
    • 지적과 국토정보
    • /
    • 제50권1호
    • /
    • pp.201-214
    • /
    • 2020
  • 본 연구는 UAV 영상의 식생지수를 활용한 소나무재선충병 피해목 조기 탐지를 그 목적으로 하며, NDVI를 비롯한 대표적인 식생지수들을 선정하고 각각의 분류 정확도 비교분석을 통해 최적의 식생지수를 분석해보았다. 현장답사를 통하여 193개체의 소나무재선충병 피해목 위치데이터를 구축하고 동시에 다중분광 UAV 영상을 이용하여 4가지 식생지수 분석을 수행하였다. 무감독분류(K-Means)를 통하여 피해목을 분류하였고, 오차행렬(Confusion Matrix)를 이용하여 식생지수별 분류정확도를 비교·분석하였다. 연구의 결과를 요약하면 다음과 같다. 첫째 분류의 전체정확도는 NDVI (88.04%, Kappa계수 0.76) > GNDVI (86.01%, Kappa계수 0.72) > NDRE (77.35%, Kappa계수 0.55) > SAVI (76.84%, Kappa계수 0.54)순으로 분석되어 NDVI가 가장 높은 정확도를 보였으며, GNDVI가 거의 비슷한 수준의 분류정확도를 보였다. 둘째, NDVI 및 GNDVI 식생지수를 이용한 K-Means 무감독 분류방법으로 피해목의 판별이 어느 정도 가능한 것으로 판단된다. 특히 위 기법은 연산이 집약적이고 사용자의 개입이 적고 분석과정이 상대적으로 간단하여 피해목의 조기 탐지에 도움을 줄 수 있을 것으로 판단된다. 향후 시계열영상의 활용 또는 딥러닝기법의 추가 응용으로 분류정확도를 높일 수 있을 것으로 기대한다.

순차적으로 선택된 특성과 유전 프로그래밍을 이용한 결정나무 (A Decision Tree Induction using Genetic Programming with Sequentially Selected Features)

  • 김효중;박종선
    • 경영과학
    • /
    • 제23권1호
    • /
    • pp.63-74
    • /
    • 2006
  • Decision tree induction algorithm is one of the most widely used methods in classification problems. However, they could be trapped into a local minimum and have no reasonable means to escape from it if tree algorithm uses top-down search algorithm. Further, if irrelevant or redundant features are included in the data set, tree algorithms produces trees that are less accurate than those from the data set with only relevant features. We propose a hybrid algorithm to generate decision tree that uses genetic programming with sequentially selected features. Correlation-based Feature Selection (CFS) method is adopted to find relevant features which are fed to genetic programming sequentially to find optimal trees at each iteration. The new proposed algorithm produce simpler and more understandable decision trees as compared with other decision trees and it is also effective in producing similar or better trees with relatively smaller set of features in the view of cross-validation accuracy.