A Clustering-based Undersampling Method to Prevent Information Loss from Text Data

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법

  • Jong-Hwi Kim (Artificial Intelligence Research Center, Korea Electronics Technology Institute) ;
  • Saim Shin (Artificial Intelligence Research Center, Korea Electronics Technology Institute) ;
  • Jin Yea Jang (Artificial Intelligence Research Center, Korea Electronics Technology Institute)
  • 김종휘 (한국전자기술연구원 인공지능연구센터) ;
  • 신사임 (한국전자기술연구원 인공지능연구센터) ;
  • 장진예 (한국전자기술연구원 인공지능연구센터)
  • Published : 2022.10.18

Abstract

범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

Keywords

Acknowledgement

이 논문은 2022년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No. 2022-0-00320, 상황인지 및 사용자 이해를 통한 인공지능 기반 1:1 복합대화 기술 개발)