• 제목/요약/키워드: 앙상블 결정트리

검색결과 18건 처리시간 0.027초

의사결정 트리 앙상블을 구축하기 위한 상관성 기반 기법을 이용한 속성 중복성 제거 (Removing the Feature Redundancy using Correlation-Based Approach for Decision Tree Ensemble)

  • 박영준;박명호;손호선;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1229-1231
    • /
    • 2011
  • 대량의 분류 규칙 탐사 과정은 앙상블기법을 사용하여 다양한 연구들이 이루어지고 있다. 본 논문에서는 의사결정 트리의 분열 문제와 singleton 포함 한계를 해결하기 위하여 Cascading-and-Sharing 앙상블 기법을 적용하여 점진적 다중 의사결정 트리를 구축하였다. 또한 분류의 정확도를 향상시키고, 트리의 복잡도와 모델 과잉접합을 피하기 위하여 다중 트리 구축과정에서 선형 상관분석기법을 기반으로 훈련 데이터 속성들의 중복성을 제거하였다. 실험 결과, 속성들의 중복성을 제거하여 구축한 트리들은 원래 기법보다 더 좋은 결과를 보여주었다.

부스팅 트리에서 적정 트리사이즈의 선택에 관한 연구 (The guideline for choosing the right-size of tree for boosting algorithm)

  • 김아현;김지현;김현중
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권5호
    • /
    • pp.949-959
    • /
    • 2012
  • 범주형 목표변수를 잘 예측하기 위한 데이터마이닝 방법 중에서 최근에는 여러 단일 분류자를 결합한 앙상블 기법이 많이 활용되고 있다. 앙상블 기법 가운데 부스팅은 재표본 시 분류하기 어려운 관찰치의 가중치를 높여 분류자가 해당 관찰치에 보다 집중할 수 있도록 함으로써 다른 앙상블 기법에 비해 오차를 효과적으로 감소시키는 방법으로 알려져 있다. 부스팅을 구성하는 분류자를 의사결정나무로 둔 부스팅 트리 모형의 경우 각 트리의 사이즈를 결정해야 하는데, 본 연구에서는 자료 별로 부스팅 트리에 가장 적합한 트리사이즈가 서로 다를수 있다고 가정하고, 주어진 자료에 맞는 트리사이즈를 추정하는 문제에 대해 논의하였다. 우선 트리사이즈가 부스팅 트리의 정확도에 중요한 영향을 미치는가를 파악하기 위하여 28개의 자료를 대상으로 실험을 수행하였으며, 그 결과 트리사이즈를 결정하는 문제가 모형 전체의 성능을 결정하는데 상당한 역할을 한다는 것을 확인할 수 있었다. 또한 그 결과를 바탕으로 최적의 트리사이즈에 영향을 미칠 것으로 판단되는 몇 가지 특성 변수를 정의하고, 해당 변수를 이용하여 부스팅 트리에서의 최적 트리사이즈를 설명하는 모형을 구성해 보았다. 자료 별로 고유한 최적의 트리사이즈는 자료의 특성에 의존적일 가능성도 있으므로 본 연구에서 제안하는 추정방법은 최적 트리사이즈를 결정하기 위한 출발점 또는 가이드라인으로 활용하는 것이 적절할 것이다. 기존에는 부스팅 트리의 사이즈에 대한 값으로 목표변수의 범주의 개수를 활용하였는데, 본 모형에서 제안하는 트리사이즈의 추정치로 부스팅 트리를 구축한 경우 기존방법에 비해 분류정확도를 유의미하게 개선하는 것을 확인할 수 있었다.

신경망 앙상블을 이용한 인간 성별 인식 (Human Gender Recognition Using Neural Network Ensembles)

  • 류중원;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.555-558
    • /
    • 2001
  • 본 논문에서는 인간 행동의 성별 인식문제를 해결하기 위해 여러 개의 전문가(expert) 신경망의 앙상블로 이루어진 결합 신경망 분류기를 제안한다. 하나는 여러 개의 modular 다층퍼셉트론을 계층형으로 결합한 모텔이고, 다른 하나는 modular 다층퍼셉트론들의 출력값을 의사결정트리로 결합하는 모델이다. 데이터 베이스는 남녀 각 13 명의 데이터로 이루어져 있고, 문 두드리기, 손 흔들기, 물건 들어올리기의 세 가지 동작을, 보통 상태 혹은 화난 상태하에서 10 회씩 반복 수행하여 저장하였다. 행위자의 움직임은 몸에 부착된 6 개의 적외선 센서를 사용하여 기록 되었으며, 2 차원 혹은 3 차원 속도 및 좌표가 그 특징값으로 사용되었다. 앙상블 분류기의 성능을 비교하기 위하여 단일 다층퍼셉트론, 의사결정트리, 자기구성지도 및 support vector machine 을 사용한 실험 결과를 보였다. 실험 결과, 신경망 앙상블 모델이 다른 전통적인 분류기 및 사람에 비하여 훨씬 우수한 성능을 보였음을 알 수 있었다.

  • PDF

부스팅 인공신경망학습의 기업부실예측 성과비교 (An Empirical Analysis of Boosing of Neural Networks for Bankruptcy Prediction)

  • 김명종;강대기
    • 한국정보통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.63-69
    • /
    • 2010
  • 최근 기계학습 분야에서 분류자의 정확도 개선을 위하여 제안된 다양한 방법들 중 가장 큰 주목을 받고 있는 학습방법 중 하나는 앙상블 학습이다. 그러나 앙상블 학습은 의사결정트리와 같이 불안정한 학습 알고리즘의 성과 개선 효과는 탁월한 반면, 인공신경망과 같이 안정적인 학습알고리즘의 성과 개선 효과는 응용 분야와 구현 방법에 따라 서로 상반된 결론들을 보여주고 있다. 본 연구에서는 국내 기업의 부실화 예측문제를 활용하여 인공신경 망 분류자 및 대표적 앙상블 학습기법인 부스팅 분류자를 적용한 결과 앙상블 학습은 기업부실 예측문제에 있어 전통적 인공신경망의 성과를 개선할 수 있음을 검증하였다.

가중치 기반 Bag-of-Feature와 앙상블 결정 트리를 이용한 정지 영상에서의 인간 행동 인식 (Human Action Recognition in Still Image Using Weighted Bag-of-Features and Ensemble Decision Trees)

  • 홍준혁;고병철;남재열
    • 한국통신학회논문지
    • /
    • 제38A권1호
    • /
    • pp.1-9
    • /
    • 2013
  • 본 논문에서는 CS-LBP (Center-Symmetric Local Binary Pattern) 특징과 공간 피라미드를 이용한 BoF (Bag of Features)를 생성하고 이를 랜덤 포레스트(Random Forest) 분류기에 적용하여 인간의 행동을 인식하는 알고리즘을 제안한다. BoF를 생성하기 위해 영상을 균일한 패치로 나누고, 각 패치 마다 CS-LBP 특징을 추출한다. 행동 분류 성능을 향상시키기 위해 패치들마다 추출한 특징벡터들에 대해 K-mean 클러스터링을 적용하여 코드 북을 생성한다. 본 논문에서는 영상의 지역적인 특성을 고려하기 위해 공간 피라미드 방법을 적용하고 각 공간 레벨에서 추출된 BoF에 대해 가중치를 적용하여 최종적으로 하나의 특징 벡터로 결합한다. 행동 분류를 위해 결정트리의 앙상블로 이루어진 랜덤 포레스트는 학습 단계에서 각 행동 클래스를 위한 분류 모델을 만든다. 가중 BoF가 적용된 랜덤 포레스트는 다양한 인간 행동 영상을 포함하고 있는 Standford Actions 40 데이터를 성공적으로 분류하였다. 또한 기존 방법에 비해 분류 성능이 유사하거나 우수하며, 한 장의 영상에 대해 빠른 인식속도를 보였다.

개선된 휴리스틱 규칙 및 의사 결정 트리 분석을 이용한 P2P 트래픽 분류 기법 (P2P Traffic Classification using Advanced Heuristic Rules and Analysis of Decision Tree Algorithms)

  • 예우지엔;조경산
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.45-54
    • /
    • 2014
  • 본 논문에서는 기존 기법들의 제한점을 개선하기 위해 휴리스틱 규칙 및 기계학습 분석 결과를 이용한 두 단계의 P2P 트래픽 분류 기법을 제안한다. 첫 번째 단계는 패킷 레벨의 시그니처 기반 분류기이고, 두 번째 단계는 플로우 레벨에서 수행되는 패턴 휴리스틱 규칙 및 통계 기반 분류기이다. 제안된 패턴 휴리스틱 규칙은 분류의 정확도를 높이고 통계 기반 분류기가 처리할 트래픽의 양을 줄일 수 있다. 다양한 의사 결정 트리 알고리즘의 분석을 기반으로 통계 기반 분류기는 가장 효율적인 REPTree로 구현하고, 앙상블 알고리즘을 통해 통계 기반 분류기의 성능을 개선한다. 실제 환경의 데이터 집합을 이용한 검증 분석을 통해, 본 제안 기법이 기존 기법에 비해 높은 정확도와 낮은 과부하를 제공함을 제시한다.

영화평 감성 분석기를 대상으로 한 설명자의 성능 분석 (Performance Analysis of Explainers for Sentiment Classifiers of Movie Reviews)

  • 박천용;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.563-568
    • /
    • 2020
  • 본 연구에서는 블랙박스로 알려진 딥러닝 모델에 설명 근거를 제공할 수 있는 설명자 모델을 적용해 보았다. 영화평 감성 분석을 위해 MLP, CNN으로 구성된 딥러닝 모델과 결정트리의 앙상블인 Gradient Boosting 모델을 이용하여 감성 분류기를 구축하였다. 설명자 모델로는 기울기(gradient)을 기반으로 하는 IG와 레이어 사이의 가중치(weight)을 기반으로 하는 CAM, 그리고 설명가능한 대리 모델을 이용하는 LIME과 입력 속성에 대한 선형모델을 추정하는 SHAP을 사용하였다. 설명자 모델의 특성을 보기 위하여 히트맵과 관련성 높은 N개의 속성을 추출해 보았다. 설명자가 제공하는 기여도에 따라 입력 속성을 제거해 가며 분류기 성능 변화를 측정하는 정량적 평가도 수행하였다. 또한, 사람의 판단 근거와의 일치도를 살펴볼 수 있는 '설명 근거 정확도'라는 새로운 평가 방법을 제안하여 적용해 보았다.

  • PDF

열 영상에서 핫 스팟 영역을 이용한 휴먼 보행자 검출 기법 (Pedestrian detection in thermal image using hot-spot region)

  • 김덕연;고병철;남재열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.348-350
    • /
    • 2012
  • 본 논문에서는 열 영상카메라를 통해 입력 받은 영상을 CS-LBP(Center-symmetric LBP)와 랜덤 포레스트(Random forest)를 이용하여 보행자 휴먼 객체를 검출하는 방법을 제안한다. 우선 불필요한 후보영역을 줄이기 위해 열 영상의 표준편차, 밝기 평균, 밝기 최대값을 이용하여 이진화하고, 신체부위 중 가장 발열이 강한 얼굴부위를 핫스팟 영역으로 설정한다. 그 후, 핫스팟 영역에서 CS-LBP특징을 추출하여 결정 트리의 앙상블인 랜덤 포레스트 분류기를 이용하여 최종적인 보행자 휴먼 객체를 검증한다. CS-LBP와 랜덤 포레스트 분류기를 통해 실시간 보행자 객체의 검출이 가능하고, 높은 검출 성능을 나타내었다.

XAI 기법을 이용한 전자상거래의 고객 구매 행동 이해 (Understanding Customer Purchasing Behavior in E-Commerce using Explainable Artificial Intelligence Techniques)

  • 이재준;정이태;임도현;곽기영;안현철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.387-390
    • /
    • 2021
  • 최근 전자 상거래 시장이 급격한 성장을 이루면서 고객들의 급변하는 니즈를 파악하는 것이 기업들의 수익에 직결되는 요소로 인식되고 있다. 이에 기업들은 고객들의 니즈를 신속하고 정확하게 파악하기 위해, 기축적된 고객 관련 각종 데이터를 활용하려는 시도를 강화하고 있다. 기존 시도들은 주로 구매 행동 예측에 중점을 두었으나 고객 행동의 전후 과정을 해석하는데 있어 어려움이 존재했다. 본 연구에서는 고객이 구매한 상품을 확정 또는 환불하는 행동을 취할 때 해당 행동이 발생하는데 있어 어떤 요소들이 작용하였는지를 파악하고, 어떤 고객이 환불할 지를 예측하는 예측 모형을 새롭게 제시한다. 예측 모형 구현에는 트리 기반 앙상블 방법을 사용해 예측력을 높인 XGBoost 기법을 적용하였으며, 고객 의도에 영향을 미치는 요소들을 파악하기 위하여 대표적인 설명가능한 인공지능(XAI) 기법 중 하나인 SHAP 기법을 적용하였다. 이를 통해 특정 고객 행동에 대한 각 요인들의 전반적인 영향 뿐만 아니라, 각 개별 고객에 대해서도 어떤 요소가 환불결정에 영향을 미쳤는지 파악할 수 있었다. 이를 통해 기업은 고객 개개인의 의사 결정에 영향을 미치는 요소를 파악하여 개인화 마케팅에 사용할 수 있을 것으로 기대된다.

  • PDF

LightGBM을 이용한 수력 펌프 유량 추정의 실험적 연구 (An Experimental Study on the Estimation Flow-rate of Venturi Pump Using LightGBM)

  • 정진범;이지환;강명철
    • 드라이브 ㆍ 컨트롤
    • /
    • 제20권4호
    • /
    • pp.123-132
    • /
    • 2023
  • In disaster situations, to facilitate rapid drainage, electric underwater pumps are installed manually. This poses a high risk of electric shock accidents due to a short circuit, and a lot of time is required for hose connection and installation of electrical devices. To solve these problems, a Venturi pump using the venturi effect without external power is used. However, Venturi pumps that operate without external power make it difficult to install flow sensors such as electric devices; consequently, it is difficult to check the real-time flow rate. This paper proposes a flow estimation logic to replace the function of the flow sensor for the venturi pump . To develop the flow estimation logic, the flow characteristics of the venturi pump, according to the operating conditions, were checked. After that, the relationship with the flow rate of the venturi pump was defined using a pressure sensor corresponding to a low-cost sensor. Finally, an analysis of the estimation error was performed using the developed flow estimation logic.