Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method

Yo-Han Park;Yong-Seok Choi;Wencke Liermann;Kong Joo Lee;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2023.10a
/
Pages.546-551
/
2023
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method

데이터 불균형 기법의 부작용 완화를 위한 어텐션 기반 앙상블

Yo-Han Park (Chungnam National University) ;
Yong-Seok Choi (Chungnam National University) ;
Wencke Liermann (Chungnam National University) ;
Kong Joo Lee (Chungnam National University)

박요한 (충남대학교) ;
최용석 (충남대학교) ;
;
이공주 (충남대학교)

Published : 2023.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

일반적으로 딥러닝 모델은 모든 라벨에 데이터 수가 균형을 이룰 때 가장 좋은 성능을 보인다. 그러나 현실에서는 특정라벨에 대한 데이터가 부족한 경우가 많으며 이로 인해 불균형 데이터 문제가 발생한다. 이에 대한 해결책으로 오버샘플링과 가중치 손실과 같은 데이터 불균형 기법이 연구되었지만 이러한 기법들은 데이터가 적은 라벨의 성능을 개선하는 동시에 데이터가 많은 라벨의 성능을 저하시키는 부작용을 가지고 있다. 본 논문에서는 이 문제를 완화시키고자 어텐션 기반의 앙상블 기법을 제안한다. 어텐션 기반의 앙상블은 데이터 불균형 기법을 적용한 모델과 적용하지 않은 모델의 출력 값을 가중 평균하여 최종 예측을 수행한다. 이때 가중치는 어텐션 메커니즘을 통해 동적으로 조절된다. 그로므로 어텐션 기반의 앙상블 모델은 입력 데이터 특성에 따라 가중치를 조절할 수가 있다. 실험은 에세이 자동 평가 데이터를 대상으로 수행하였다. 실험 결과로는 제안한 모델이 데이터 불균형 기법의 부작용을 완화하고 성능이 개선되었다.

Keywords

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2023-00241142).