Abstract
Face tracking and recognition are difficult problems because the face is a non-rigid object. The main reasons for the failure to track and recognize the faces are the changes of a face pose and environmental illumination. To solve these problems, we propose a nonlinear manifold framework for the face pose and the face illumination normalization processing. Specifically, to track and recognize a face on the video that has various pose variations, we approximate a face pose density to single Gaussian density by PCA(Principle Component Analysis) using images sampled from training video sequences and then construct the GMM(Gaussian Mixture Model) for each person. To solve the illumination problem for the face tracking and recognition, we decompose the face images into the reflectance and the illuminance using the SSR(Single Scale Retinex) model. To obtain the normalized reflectance, the reflectance is rescaled by histogram equalization on the defined range. We newly approximate the illuminance by the trained manifold since the illuminance has almost variations by illumination. By combining these two features into our manifold framework, we derived the efficient face tracking and recognition results on indoor and outdoor video. To improve the video based tracking results, we update the weights of each face pose density at each frame by the tracking result at the previous frame using EM algorithm. Our experimental results show that our method is more efficient than other methods.
사람의 얼굴은 강체(Rigid object)가 아니기 때문에 얼굴을 추적하거나 인식하는 일은 쉽지 않다. 특히 얼굴의 포즈나 주변 조명의 변화에 따른 입력 영상의 차이는 얼굴 인식을 어렵게 하는 주된 원인이다. 본 논문에서는 비디오 영상으로부터 얼굴을 추적하고 인식할 때 발생하는 이 두 가지의 문제를 해결하기 위한 프레임웍과 전처리 방법을 제안한다. 얼굴 포즈의 변화에도 효과적으로 얼굴을 추적 및 인식하기 위해 먼저 학습 영상으로부터 주성분 분석법(Principal Component Analysis)을 이용하여 각 얼굴 포즈마다 하나의 독립된 가우시안 분포를 추정하고 이를 이용하여 각 사람마다 가우시안 혼합 모델(Gaussian Mixture Model)을 구성한다. 본 논문에서는 서로 다른 조명 상태를 가진 얼굴 영상을 처리하기 위해 먼저 입력된 얼굴 영상을 SSR(Single Scale Retinex) 모델을 이용하여 반사율(Reflectance)과 조도(Illuminance)로 분해한다. 반사율은 사전 정의된 범위 안에서 히스토그램 평활화를 수행함으로써 재조정되고 조도는 조명의 변화를 포함하고 있지 않은 영상들으로부터 학습된 매니폴드 모델로 다시 근사된다. 이 두 특징을 결합함으로써 실내 환경이나 실외 환경에서 촬영된 영상에서 효율적으로 얼굴을 추적 및 인식한다. 비디오 기반의 영상으로부터 보다 효율적으로 얼굴을 추적하기 위해 본 논문에서는 구성된 모델의 가중치를 각 프레임마다 이전 프레임의 추적 결과에 의해 EM 알고리즘을 이용하여 갱신함으로써 비디오 영상내의 연속적으로 변화하는 얼굴 포즈를 추정하였다. 본 논문에서 제안된 방법은 실내에서의 다양한 조명환경과 실외의 여러 장소에서 획득한 실험 영상을 이용하여 기존에 연구되어 온 다른 방법에 비해 우수한 성능을 보였다.