Estimation of Valence and Arousal from a single Image using Face Generating Autoencoder

얼굴 생성 오토인코더를 이용한 단일 영상으로부터의 Valence 및 Arousal 추정

  • Published : 2020.11.28

Abstract

얼굴 영상으로부터 사람의 감정을 예측하는 연구는 최근 딥러닝의 발전과 함께 주목받고 있다. 본 연구에서 우리는 연속적인 변수를 사용하여 감정을 표현하는 dimensional model에 기반하여 얼굴 영상으로부터 감정 상태를 나타내는 지표인 valance/arousal(V/A)을 예측하는 딥러닝 네트워크를 제안한다. 그러나 V/A 예측 모델의 학습에 사용되는 기존의 데이터셋들은 데이터 불균형(data imbalance) 문제를 가진다. 이를 해소하기 위해, 우리는 오토인코더 구조를 가지는 얼굴 영상 생성 네트워크를 학습하고, 이로부터 얻어지는 균일한 분포의 데이터로부터 V/A 예측 네트워크를 학습한다. 실험을 통해 우리는 제안하는 얼굴 생성 오토인코더가 in-the-wild 환경의 데이터셋으로부터 임의의 valence, arousal에 대응하는 얼굴 영상을 성공적으로 생생함을 보인다. 그리고, 이를 통해 학습된 V/A 예측 네트워크가 기존의 under-sampling, over-sampling 방영들과 비교하여 더 높은 인식 성능을 달성함을 보인다. 마지막으로 기존의 방법들과 제안하는 V/A 예측 네트워크의 성능을 정량적으로 비교한다.

Keywords