• Title/Summary/Keyword: Classification and regression tree

검색결과 211건 처리시간 0.029초

위성원격탐사와 분류 및 회귀트리를 이용한 중랑천 유역의 불투수층 추정 (Impervious Surface Estimation of Jungnangcheon Basin Using Satellite Remote Sensing and Classification and Regression Tree)

  • 김수영;허준행;허준;김성훈
    • 대한토목학회논문집
    • /
    • 제28권6D호
    • /
    • pp.915-922
    • /
    • 2008
  • 불투수층은 자연적인 침투를 허용하지 않는 인위적인 토지피복상태로, 도시화율을 추정하거나 도시의 환경변화 정도를 분석하기 위한 척도로 사용되어 왔다. 수문학적인 관점에서 불투수층은 단기 유출현상에 큰 영향을 끼치는 요소로 급속한 도시화로 인해 불투수층의 영향이 더욱 커짐에 따라 불투수층의 추정에 대한 필요성이 증가하고 있다. 따라서 본 연구에서는 불투수층을 추정하기 위해 중랑천 유역을 대상지역으로 선정하고, $30m{\times}30m$ 공간해상도의 Landsat-7 ETM+ 영상과 $1m{\times}1m$의 고해상도 위성영상을 구축하였으며 tasselled cap 변환과 식생지수(NDVI) 변환을 수행하여 다양한 예측변수를 고려하였다. 수집된 학습자료에 분류 및 회귀트리를 적용하여 불투수층 추정모델을 구성하였고, 이를 지도화하여 중랑천 유역의 불투수층을 나타냈다.

강인한 특징 변수 선별과 신경망을 이용한 장면 전환점 검출 기법 (Robust Feature Selection and Shot Change Detection Method Using the Neural Networks)

  • 홍승범;홍교영
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.877-885
    • /
    • 2004
  • 본 논문은 여러 가지 장면 검출 방식들 중 강인한 특징 변수들의 선별과 신경망을 이용하여 향상된 장면 전환점 검출 기법을 제안한다. 기존의 장면 전환점 검출 방식에서는 인접한 프레임 간에 단일 특징과 고정된 임계값을 주로 사용하였다. 하지만, 비디오 시퀀스 내의 장면 전환점에서는 인접한 프레임 간의 내용(content)인 컬러, 모양, 배경 혹은 질감 등이 동시에 변화한다. 따라서 단일 특징보다는 상호 보완 관계를 갖는 강인한 특징을 이용하여 장면 전환점을 효율적으로 검출한다. 본 논문에서 강인한 특징 변수들을 선택하기 위해, 데이터 마이닝 기법 중 대표적인 CART(classification and regression tree)를 이용하고, 다차원 변수에 따른 임계값을 선정하기 위해 역전파 신경망(backpropagation neural net)을 이용한다. 제안한 방식과 대표적인 특징 추출인 PCA(principal component analysis)기법을 비교하여 특징 변수의 추출 성능을 평가한다. 실험 결과에 따라 제안된 방식이 PCA 기법과 비교하여 우수한 성능이 나타남을 확인한다.

  • PDF

벌점 부분최소자승법을 이용한 분류방법 (A new classification method using penalized partial least squares)

  • 김윤대;전치혁;이혜선
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.931-940
    • /
    • 2011
  • 분류분석은 학습표본으로부터 분류규칙을 도출한 후 새로운 표본에 적용하여 특정 범주로 분류하는 방법이다. 데이터의 복잡성에 따라 다양한 분류분석 방법이 개발되어 왔지만, 데이터 차원이 높고 변수간 상관성이 높은 경우 정확하게 분류하는 것은 쉽지 않다. 본 연구에서는 데이터차원이 상대적으로 높고 변수간 상관성이 높을 때 강건한 분류방법을 제안하고자 한다. 부분최소자승법은 연속형데이터에 사용되는 기법으로서 고차원이면서 독립변수간 상관성이 높을 때 예측력이 높은 통계기법으로 알려져 있는 다변량 분석기법이다. 벌점 부분최소자승법을 이용한 분류방법을 실제데이터와 시뮬레이션을 적용하여 성능을 비교하고자 한다.

CART를 활용한 결측값 대체방법 : 인구주택총조사 혼인상태 항목을 중심으로 (Missing Value Imputation Method Using CART : For Marital Status in the Population and Housing Census)

  • 김영원;이주원
    • 한국조사연구학회지:조사연구
    • /
    • 제4권2호
    • /
    • pp.1-21
    • /
    • 2003
  • 본 연구예서는 일반적인 사회조사에서 사용될 수 있는 효과적인 결측값 대체방법을 검토하기 위해 인구주택총조사 조사항목 중 혼인상태의 결측값을 대체할 수 있는 두 가지 방법을 제안하고 있다. 첫 번째 방법은 CART(Classification and Regression Tree)모형에서 얻어진 최대 예측확률을 기준으로 결측값을 대체하는 일종의 모형기반 접근법이고, 두 번째 방법은 CART 모형에서 얻어진 결과를 근거로 대체층을 구성하여 핫덱(hot-deck) 방법을 적용하는 대체방법이다. 효율성 비교를 위해 2000년 인구주택총조사를 위한 시험조사에서 얻어진 제조사 결과를 이용하여 오분류율을 검토해 본 결과 두 방법 중 CART 모형을 기반으로 핫덱 방법을 적용하는 것이 효율적이라는 결론을 얻을 수 있었다. 아울러 전국에 대해 동일한 모형을 설정한 경우와 거주지 특성에 따라 광역시$.$도의 동지역, 도의 읍$.$면지역으로 구분하여 대체방법을 적용하는 경우를 비교해 본 결과 지역 구분을 통한 효율성 향상 효과는 미흡한 것으로 파악되었다.

  • PDF

Decision Tree of Occupational Lung Cancer Using Classification and Regression Analysis

  • Kim, Tae-Woo;Koh, Dong-Hee;Park, Chung-Yill
    • Safety and Health at Work
    • /
    • 제1권2호
    • /
    • pp.140-148
    • /
    • 2010
  • Objectives: Determining the work-relatedness of lung cancer developed through occupational exposures is very difficult. Aims of the present study are to develop a decision tree of occupational lung cancer. Methods: 153 cases of lung cancer surveyed by the Occupational Safety and Health Research Institute (OSHRI) from 1992-2007 were included. The target variable was whether the case was approved as work-related lung cancer, and independent variables were age, sex, pack-years of smoking, histological type, type of industry, latency, working period and exposure material in the workplace. The Classification and Regression Test (CART) model was used in searching for predictors of occupational lung cancer. Results: In the CART model, the best predictor was exposure to known lung carcinogens. The second best predictor was 8.6 years or higher latency and the third best predictor was smoking history of less than 11.25 pack-years. The CART model must be used sparingly in deciding the work-relatedness of lung cancer because it is not absolute. Conclusion: We found that exposure to lung carcinogens, latency and smoking history were predictive factors of approval for occupational lung cancer. Further studies for work-relatedness of occupational disease are needed.

TREE FORM CLASSIFICATION OF OWNER PAYMENT BEHAVIOUR

  • Hanh Tran;David G. Carmichael;Maria C. A. Balatbat
    • 국제학술발표논문집
    • /
    • The 4th International Conference on Construction Engineering and Project Management Organized by the University of New South Wales
    • /
    • pp.526-533
    • /
    • 2011
  • Contracting is said to be a high-risk business, and a common cause of business failure is related to cash management. A contractor's financial viability depends heavily on how actual payments from an owner deviate from those defined in the contract. The paper presents a method for contractors to evaluate the punctuality and fullness of owner payments based on historical behaviour. It does this by classifying owners according to their late and incomplete payment practices. A payment profile of an owner, in the form of aging claims submitted by the contractor, is used as a basis for the method's development. Regression trees are constructed based on three predictor variables, namely, the average time to payment following a claim, the total amount ending up being paid within a certain period and the level of variability in claim response times. The Tree package in the publicly available R program is used for building the trees. The analysis is particularly useful for contractors at the pre-tendering stage, when contractors predict the likely payment scenario in an upcoming project. Based on the method, the contractor can decide whether to tender or not tender, or adjust its financial preparations accordingly. The paper is a contribution in risk management applied to claim and dispute resolution practice. It is argued that by contractors having a better understanding of owner payment behaviour, fewer disputes and contractor business failures will occur.

  • PDF

운율 경계강도 예측을 위한 OC1의 적용 및 CART와의 비교 (The Comparison of OC1 and CART for Prosodic Boundary Index Prediction)

  • 임동식;김진영;김선미
    • 한국음향학회지
    • /
    • 제18권4호
    • /
    • pp.60-64
    • /
    • 1999
  • 본 논문은 연속음 인식과 합성을 위한 운율 경계강도 예측모델을 위해 최근에 널리 사용되고 있는 방법으로 분류·회귀트리라 불리우는 CART(Classification And Regression Tree) 와 OC1(Oblique Classifier1)을 적용한다. 운율 경계강도 수준을 4로 하고 문법적인 특징으로는 트리구조 방법으로 결정된 오른쪽 가지의 수식의 깊이(Rd)와 link grammar 방법으로 결정된 연결거리(To_Right)를 tri_gram모형과 결합하여 CART와 OC1에 적용해 각각 운율 경계강도를 예측, 비교한다. 실험을 통하여 OC1 방법이 CART 방법에 비해 더 적은 터미널 노드에 더 향상된 예측율을 보임을 확인할 수 있다.

  • PDF

Machine Learning Methods to Predict Vehicle Fuel Consumption

  • Ko, Kwangho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권9호
    • /
    • pp.13-20
    • /
    • 2022
  • 본 연구에서는 주행 차량의 실시간 연료소모량을 예측할 수 있는 머신러닝 기법을 제안하고 그 특성을 분석하였다. 머신러닝 학습을 위해 실도로 주행을 실시하여 주행 속도, 가속도, 도로 구배와 함께 연료소모량을 측정하였다. 특성 데이터로 속도, 가속도, 도로구배를, 타깃으로 연료소모량을 지정하여 다양한 머신러닝 모델을 학습시켰다. 회귀법에 해당하는 K-최근접이웃회귀 및 선형회귀와 함께, 분류법에 해당하는 K-최근접이웃분류, 로지스틱회귀, 결정트리, 랜덤포레스트, 그래디언부스팅을 사용하였다. 실시간 연료소모량에 대한 예측 정확도는 0.5 ~ 0.6 수준으로 전반적으로 낮았고, 회귀법의 경우 분류법보다 정확도가 떨어졌다. 총연료소모량에 대한 예측 오차는 0.2 ~ 2.0% 수준으로 상당히 정확했고, 분류법보다 회귀법의 오차가 더 낮았다. 이는 예측 정확도의 기준으로 결정계수(R2)를 사용했기 때문인데, 이 값이 작을수록 타깃의 평균 부근에 예측치가 좁게 분포하기 때문이다. 따라서 실시간 연료소모량 예측에는 분류법이, 총연료소모량 예측에는 회귀법이 적합하다고 할 수 있다.

CART를 이용한 Tree Model의 성능평가 (Using CART to Evaluate Performance of Tree Model)

  • 정용규;권나연;이영호
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.9-16
    • /
    • 2013
  • 데이터 분석가에게 많은 노력이 요구되지 않으면서 사용자가 쉽게 분석결과를 이해할 수 있는 범용 분류기법으로서 가장 대표적인 것은 Breiman이 개발한 의사결정나무를 들 수 있다. 의사결정나무에서 기본이 되는 2가지 핵심내용은 독립변수의 차원 공간을 반복적으로 분할하는 것과 평가용 데이터를 사용하여 가지치기를 하는 것이다. 분류문제에서 반응변수는 범주형 변수여야 한다. 반복적 분할은 변수 의 차원 공간을 겹치지 않는 다차원 직사각형으로 나눈다. 여기서 변수는 연속형, 이진 혹은 서열의 척도이다. 본 논문에서는 새로운 사례를 분류함에 있어서 분류의 성능을 평가하기 위해 분류나무의 정확도 정밀도 재현률 등을 실험하고자 한다.

  • PDF

대용량 자료에서 핵심적인 소수의 변수들의 선별과 로지스틱 회귀 모형의 전개 (Screening Vital Few Variables and Development of Logistic Regression Model on a Large Data Set)

  • 임용빈;조재연;엄경아;이선아
    • 품질경영학회지
    • /
    • 제34권2호
    • /
    • pp.129-135
    • /
    • 2006
  • In the advance of computer technology, it is possible to keep all the related informations for monitoring equipments in control and huge amount of real time manufacturing data in a data base. Thus, the statistical analysis of large data sets with hundreds of thousands observations and hundred of independent variables whose some of values are missing at many observations is needed even though it is a formidable computational task. A tree structured approach to classification is capable of screening important independent variables and their interactions. In a Six Sigma project handling large amount of manufacturing data, one of the goals is to screen vital few variables among trivial many variables. In this paper we have reviewed and summarized CART, C4.5 and CHAID algorithms and proposed a simple method of screening vital few variables by selecting common variables screened by all the three algorithms. Also how to develop a logistics regression model on a large data set is discussed and illustrated through a large finance data set collected by a credit bureau for th purpose of predicting the bankruptcy of the company.