• 제목/요약/키워드: classification and regression tree

검색결과 211건 처리시간 0.033초

Pruning the Boosting Ensemble of Decision Trees

  • Yoon, Young-Joo;Song, Moon-Sup
    • Communications for Statistical Applications and Methods
    • /
    • 제13권2호
    • /
    • pp.449-466
    • /
    • 2006
  • We propose to use variable selection methods based on penalized regression for pruning decision tree ensembles. Pruning methods based on LASSO and SCAD are compared with the cluster pruning method. Comparative studies are performed on some artificial datasets and real datasets. According to the results of comparative studies, the proposed methods based on penalized regression reduce the size of boosting ensembles without decreasing accuracy significantly and have better performance than the cluster pruning method. In terms of classification noise, the proposed pruning methods can mitigate the weakness of AdaBoost to some degree.

KOSDAQ 시장의 관리종목 지정 탐지 모형 개발 (Development of a Detection Model for the Companies Designated as Administrative Issue in KOSDAQ Market)

  • 신동인;곽기영
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.157-176
    • /
    • 2018
  • 관리종목은 상장폐지 가능성이 높은 기업들을 즉시 퇴출하기 보다는 시장 안에서 일정한 제약을 부여하고, 그러한 기업들에게 상장폐지 사유를 극복할 수 있는 시간적 기회를 주는 제도이다. 뿐만 아니라 이를 투자자 및 시장참여자들에게 공시하여 투자의사결정에 주의를 환기시키는 역할을 한다. 기업의 부실화로 인한 부도 예측에 관한 연구는 많이 있으나, 부실화 가능성이 높은 기업에 대한 사회, 경제적 경보체계라 할 수 있는 관리종목에 관한 연구는 상대적으로 매우 부족하다. 이에 본 연구는 코스닥 기업들 가운데 관리종목 지정 기업과 비관리종목 기업을 표본으로 삼아 로지스틱 회귀분석과 의사결정나무 분석을 이용하여 관리종목 지정 예측 모형을 개발하고 검증하였다. 분석결과에 따르면 로지스틱 회귀분석 모형은 ROE(세전계속사업이익), 자기자본현금흐름률, 총자산회전율을 사용하여 관리종목 지정을 예측하였으며, 전체 평균 예측 정확도는 검증용 데이터셋에 대해 86%의 높은 성능을 보여주었다. 의사결정나무 모형은 현금흐름/총자산과 ROA(당기순이익)를 통한 분류규칙을 적용하여 약 87%의 예측 정확도를 보여주었다. 로지스틱 회귀분석 기반의 관리종목 탐지 모형의 경우 ROE(세전계속사업이익)와 같은 구체적인 관리종목 지정 사유를 반영하면서 기업의 활동성에 초점을 맞추어 관리종목 지정 경향성을 설명하는 반면, 의사결정 관리종목 탐지 모형은 기업의 현금흐름을 중심으로 하여 관리종목 지정을 예측하는 것으로 나타났다.

결로시간 예측을 위한 경험모형의 최적 기상변수 (Optimal Weather Variables for Estimation of Leaf Wetness Duration Using an Empirical Method)

  • K. S. Kim;S. E. Taylor;M. L. Gleason;K. J. Koehler
    • 한국농림기상학회지
    • /
    • 제4권1호
    • /
    • pp.23-28
    • /
    • 2002
  • CART(Classification and Regression Tree) 모형을 이용해서 결로시간 예측에 필요한 기상변수들을 평가하였다. 입력 기상 변수들은 0.3m와 1.5m에서 측정된 기온, 상대습도, 풍속의 시간별 측정값으로서 이 관측 값들은 1997년부터 1999년 5월에서 9월 사이에 미국의 Iowa, Illinois 및 Nebraska주에 위치한 15개 자동 기상 관측소에서 관측된 것이다. 0.3 m에서 측정된 기온, 상대습도, 그리고 풍속을 이용해서 얻어진 모형이 가장 높은 결로시간의 예측 적중율(85.5%)을 보였으며, 이 모형은 Gleason 등(1994)의 CART/SLD 모형의 적중률(84.7%) 보다 다소 높았다. 그러나 새로운 변수를 추가한 경우에 정확도의 향상이 다소 있었으나 CART/SLD 모형을 대체할 정도는 아니었다. 따라서, 기온, 상대습도, 풍속들의 종관 기상관측값들을 입력변수로 사용하는 CART/SLD 모형이 종관 기상관측 자료 이외의 추가적인 자료를 필요로 하는 모형으로 결로시간을 예측하는 것보다 합리적일 것으로 보인다.

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구 (Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games)

  • 오윤학;김한;윤재섭;이종석
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.8-17
    • /
    • 2014
  • In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.

BCI에서 기계 학습을 위한 간질 뇌파 특징 선택을 통한 차원 감소 방법 분석 (Analysis of Dimensionality Reduction Methods Through Epileptic EEG Feature Selection for Machine Learning in BCI)

  • 양통;;임창균
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1333-1342
    • /
    • 2018
  • 지금까지 뇌파(Electroencephalography - EEG)는 뇌전증 진단 및 치료를 위한 가장 중요하고 편리한 방법이었다. 그러나 뇌전증 뇌파 신호의 파형 특성은 매우 약하고 비 정지 상태이며 배경 노이즈가 강하기 때문에 식별하기가 어렵다. 이 논문에서는 간질 뇌파의 특징 선택을 통한 차원 감소를 통한 분류 방법의 효과를 분석한다. 우리는 차원 감소를 위해 주 요소 분석, 커널 요소 분석, 선형 판별 분석 방법을 사용하였다. 차원 감소방법의 성능 분석을 위해 Support Vector Machine: SVM), Logistic Regression(: LR), K-Nearestneighbor(: K-NN), Decision Tree(: DR), Random Forest(: RF) 분류 방법들을 사용해 평가하였다. 실험 결과에 따르면, PCA는 SVM, LR 및 K-NN에서 75% 정확도를 나타냈다. KPCA는 SVM과 K-KNN에서 85%의 성능을 보였으며 LDA는 K-NN를 이용했을 때 100 %의 정확도 보여주었다. 따라서 LDA를 이용한 차원 감소가 뇌전증 EEG 신호에 대한 최고의 분류 결과 보여주었다.

수출 관문의 변화와 한국 농식품 수출의 공간적 패턴 분석: 의사결정나무 분석의 적용 (Changes in Export Gateways and the Spatial Patterns of Korean Agri-Food Exports: A Classification and Regression Tree Analysis Approach)

  • 현기순
    • 한국경제지리학회지
    • /
    • 제21권2호
    • /
    • pp.90-106
    • /
    • 2018
  • 본 연구의 목적은 우리나라 농식품 수출의 상품별 동향과 수출 관문별 특징을 밝히고, 농식품 수출 활성화를 위한 관문의 성장 방향에 대한 시사점을 제시하는 것이다. 지난 17년 동안 우리나라 농식품 수출은 가공식품 중심으로 규모가 확대되었고, 수위 수출 관문으로서 부산항의 위상은 압도적이다. 이러한 사실을 바탕으로 의사결정나무(CART) 분석을 통해 부산항 곡물 가공식품 수출에 영향을 미치는 결정요인을 파악한 결과 지향지의 GDP, 우리나라와 상대국과의 거리, 1인당 GNI가 부산항 가공식품 수출 규모의 평균을 최대한 잘 예측해주는 변수의 집합으로 나타났다. 수출 대상국은 8개의 집단으로 분류되었고, 이는 유형별 특성에 따른 농식품 수출 활성화 전략에 대한 유용한 정보를 제공해준다.

음성 합성기를 위한 문맥 적응 스무딩 필터의 구현 (Context-adaptive Smoothing for Speech Synthesis)

  • 이기승;김정수;이재원
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.285-292
    • /
    • 2002
  • 문자-음성 합성기 (Text-To-Speech, TTS)에서 해결되어야 할 문제점 중의 하나는 음소의 연결 부위에서 발생하는 불연속성이다. 이러한 문제점을 해결하기 위한 방안으로 본 논문에서는 저역 여파기를 이용한 스무딩 기법을 적용하였다. 제안된 스무딩 기법은 스무딩의 정도를 제어하는 필터 계수를 현재 합성하고자 하는 문맥에 따라 결정하여, 경계에서의 불연속성을 효과적으로 제거하고 스무딩으로 인하여 발생할 수 있는 음성의 왜곡을 억제하였다. 스무딩 정도는 현재 합성된 음성의 불연속 정도와 주어진 문맥으로부터 예측된 불연속 정도를 통해 결정하였으며, 문맥으로부터 불연속 정도의 예측은 음소 정보를 입력, 불연속 값을 출력으로 하는 CART(Classification And Regression Tree)를 통해 이루어진다. 제안된 기법의 성능 평가를 위해 코퍼스 기반 연결(corpus-based concatenative) 문자-음성 합성기를 기본 시스템으로 사용하였으며, 청취 테스트에서 60%이상 의 청취자가 제안된 스무딩 기법을 통해 합성된 음성이 스무딩 기법이 사용되지 않은 경우와 비교하여 명료성과 자연성 면에서 우수하다고 판단하였다.

서울시 데이터 기반 필지별 건축행위 발생 예측 (Data-Driven Analysis for Future Construction Prediction : Case Study on Seoul)

  • 윤성범;김태현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.7-8
    • /
    • 2019
  • 지속적인 건축물의 노화와 개발지 부족은 현존하는 건축물의 재건축 및 활용 가능 용지에 신규 건축행위를 유도한다. 서울에서는 근 5년간 25,000여 건의 신축이 발생하였으며, 이에 대한 신규 정책 등 다양한 지원 체계가 활성화되고 있다. 본 연구에서는 2011년부터 2015년까지 발생한 필지별 건축행위 데이터와 추가적 43개의 변수를 활용하여 신규 건축행위가 발생하는 필지에 대한 예측 모델을 구축하고자 한다. 요인도출 기계학습 방식인 의사결정트리 (Decision Tree) 중 CART(Classification And Regression Tree)를 활용하여 신규 건축 예측 모델을 구축하였으며, 86.28%의 정확도와 4개의 주요 신규 건축행위 발생 요인을 도출하였다.

  • PDF

사망사고와 부상사고의 산업재해분류를 위한 기계학습 접근법 (Machine Learning Approach to Classifying Fatal and Non-Fatal Accidents in Industries)

  • 강성식;장성록;서용윤
    • 한국안전학회지
    • /
    • 제36권5호
    • /
    • pp.52-60
    • /
    • 2021
  • As the prevention of fatal accidents is considered an essential part of social responsibilities, both government and individual have devoted efforts to mitigate the unsafe conditions and behaviors that facilitate accidents. Several studies have analyzed the factors that cause fatal accidents and compared them to those of non-fatal accidents. However, studies on mathematical and systematic analysis techniques for identifying the features of fatal accidents are rare. Recently, various industrial fields have employed machine learning algorithms. This study aimed to apply machine learning algorithms for the classification of fatal and non-fatal accidents based on the features of each accident. These features were obtained by text mining literature on accidents. The classification was performed using four machine learning algorithms, which are widely used in industrial fields, including logistic regression, decision tree, neural network, and support vector machine algorithms. The results revealed that the machine learning algorithms exhibited a high accuracy for the classification of accidents into the two categories. In addition, the importance of comparing similar cases between fatal and non-fatal accidents was discussed. This study presented a method for classifying accidents using machine learning algorithms based on the reports on previous studies on accidents.

고객의 소리(VOC) 데이터를 활용한 서비스 처리 시간 예측방법 (A Method of Predicting Service Time Based on Voice of Customer Data)

  • 김정훈;권오병
    • 한국IT서비스학회지
    • /
    • 제15권1호
    • /
    • pp.197-210
    • /
    • 2016
  • With the advent of text analytics, VOC (Voice of Customer) data become an important resource which provides the managers and marketing practitioners with consumer's veiled opinion and requirements. In other words, making relevant use of VOC data potentially improves the customer responsiveness and satisfaction, each of which eventually improves business performance. However, unstructured data set such as customers' complaints in VOC data have seldom used in marketing practices such as predicting service time as an index of service quality. Because the VOC data which contains unstructured data is too complicated form. Also that needs convert unstructured data from structure data which difficult process. Hence, this study aims to propose a prediction model to improve the estimation accuracy of the level of customer satisfaction by combining unstructured from textmining with structured data features in VOC. Also the relationship between the unstructured, structured data and service processing time through the regression analysis. Text mining techniques, sentiment analysis, keyword extraction, classification algorithms, decision tree and multiple regression are considered and compared. For the experiment, we used actual VOC data in a company.