• 제목/요약/키워드: 캐노니컬포레스트

검색결과 1건 처리시간 0.015초

불균형 데이터의 분류 성능 향상을 위한 일반화된 불균형 비율(GIR) 기반의 과소 표집 canonical forest (GC-Forest) (GIR-based canonical forest: An ensemble method for imbalanced big data)

  • 한솔지;명재성;김현중
    • 응용통계연구
    • /
    • 제37권5호
    • /
    • pp.615-629
    • /
    • 2024
  • 빅데이터 마이닝 분야에서 불균형 분류 문제의 도전 과제는 수십 년 동안 활발히 연구되어 왔다. 불균형 데이터 문제는 그 양상과 형태가 매우 다양한데, 과거 연구는 주로 클래스 간 데이터 크기 불균형 해결에 초점을 두었다. 그러나 최근 연구에 따르면 데이터 수의 불균형만이 아니라, 클래스 간 중첩이 결합된 경우에 분류 성능의 저하가 더 심각해진다는 것이 밝혀졌다. 이에 따라 본 연구에서는 클래스 간 중첩 정도를 고려한 가중치 재샘플링 기법을 활용하는 효율적인 앙상블 분류 방법인 GC-Forest (GIR-based canonical forest)를 제안한다. 이 방법은 앙상블의 각 단계에서 데이터 개수의 불균형이 아닌 클래스 중첩 면에서 불균형 비율을 측정하고 소수 클래스의 대표성을 증가시킴으로써 클래스를 균형있게 맞춘다. 또한, 전체 분류 성능을 향상시키기 위해 GC-Forest 방법은 개별 분류기의 성능과 다양성을 모두 향상시키는 것으로 설계된 canonical forest 방법을 앙상블 분류기로 채택한다. 제안된 방법의 성능은 14개의 다양한 실제 불균형 데이터를 사용한 실험을 통해 비교 및 검증되었다. GC-Forest는 AUC, PR-AUC, G-mean, F1-score 측면에서 7개의 다른 앙상블 방법과 비교하여 매우 경쟁력 있는 분류 성능을 보여주었다.