DOI QR코드

DOI QR Code

Ensemble Composition Methods for Binary Classification of Imbalanced Data

불균형 데이터의 이진 분류를 위한 앙상블 구성 방법

  • Yeong-Hun Kim (Dept. of Electrical and Computer Engineering, Inha University) ;
  • Ju-Hing Lee (Dept. of Electrical and Computer Engineering, Inha University)
  • 김영훈 (인하대학교 전기컴퓨터공학과) ;
  • 이주홍 (인하대학교 전기컴퓨터공학과)
  • Published : 2023.05.18

Abstract

불균형 데이터의 분류의 성능을 향상시키기 위한 앙상블 구성 방법에 관하여 연구한다. 앙상블의 성능은 앙상블을 구성한 기계학습 모델 간의 상호 다양성에 큰 영향을 받는다. 기존 방법에서는 앙상블에 속할 모델 간의 상호 다양성을 높이기 위해 Feature Engineering 을 사용하여 다양한 모델을 만들어 사용하였다. 그럼에도 생성된 모델 가운데 유사한 모델들이 존재하며 이는 상호 다양성을 낮추고 앙상블 성능을 저하시키는 문제를 가지고 있다. 불균형 데이터의 경우에는 유사 모델 판별을 위한 기존 다양성 지표가 다수 클래스에 편향된 수치를 산출하기 때문에 적합하지 않다. 본 논문에서는 기존 다양성 지표를 개선하고 가지치기 방안을 결합하여 유사 모델을 판별하고 상호 다양성이 높은 후보 모델들을 앙상블에 포함시키는 방법을 제안한다. 실험 결과로써 제안한 방법으로 구성된 앙상블이 불균형이 심한 데이터의 분류 성능을 향상시킴을 확인하였다.

Keywords