DOI QR코드

DOI QR Code

Improved Face Recognition based on 2D-LDA using Weighted Covariance Scatter

가중치가 적용된 공분산을 이용한 2D-LDA 기반의 얼굴인식

  • Lee, Seokjin (Dept. of Computer Engineering., Chonnam National University) ;
  • Oh, Chimin (Dept. of Computer Engineering., Chonnam National University) ;
  • Lee, Chilwoo (Dept. of Computer Engineering., Chonnam National University)
  • Received : 2014.08.31
  • Accepted : 2014.12.03
  • Published : 2014.12.30

Abstract

Existing LDA uses the transform matrix that maximizes distance between classes. So we have to convert from an image to one-dimensional vector as training vector. However, in 2D-LDA, we can directly use two-dimensional image itself as training matrix, so that the classification performance can be enhanced about 20% comparing LDA, since the training matrix preserves the spatial information of two-dimensional image. However 2D-LDA uses same calculation schema for transformation matrix and therefore both LDA and 2D-LDA has the heteroscedastic problem which means that the class classification cannot obtain beneficial information of spatial distances of class clusters since LDA uses only data correlation-based covariance matrix of the training data without any reference to distances between classes. In this paper, we propose a new method to apply training matrix of 2D-LDA by using WPS-LDA idea that calculates the reciprocal of distance between classes and apply this weight to between class scatter matrix. The experimental result shows that the discriminating power of proposed 2D-LDA with weighted between class scatter has been improved up to 2% than original 2D-LDA. This method has good performance, especially when the distance between two classes is very close and the dimension of projection axis is low.

Keywords

1. 서 론

얼굴인식은 사람과 사람이 대화를 시작함에 있어서 가장 중요하고도 반드시 거쳐야 하는 과정이다. 사람 간의 얼굴 인식은 그만큼 자연스럽고 당연하지만, 컴퓨터를 이용하여 얼굴을 자동으로 인식하기 위해서는 얼굴영상에 대한 밝기의 정규화, 얼굴 크기의 정규화, 중요 특징 추출, 얼굴영상의 학습 및 분류 등 일련의 복잡한 과정을 거쳐야만 한다. 최근에 이러한 복잡한 과정을 간소화하고 고속으로 처리를 가능하게 해주는 알고리즘과 컴퓨터 계산 능력의 개선으로 얼굴 인식을 실시간 시스템에 구현한 사례가 늘고 있다. 예를 들어 폐쇄 회로 카메라를 이용한 출입자 감시, 모바일 디바이스의 사용자 인식, 화상 회의 시스템에서의 화자 인식, 실시간 게임 시스템에서의 얼굴인식 등이 그 예라고 볼 수 있다.

사진이나 비디오 영상 프레임으로부터 얼굴 영역을 검출하고 얼굴을 인식하고자 할 때 반드시 고려해야 하는 다양한 왜란 요소들이 있다. 예를 들어 조명, 노출, 폐색, 시점 변화 등의 카메라가 놓인 환경에 영향을 받는 외부적 요인뿐만 아니라, 같은 피사체라할지라도 시간에 따라 변하는 머리 모양, 표정, 안경 등 상이한 변화 요인이 존재한다. 또한, 영상 내부에는 얼굴과 유사하지만 얼굴이 아닌 non-face 데이터가 존재하므로 얼굴 영역을 배경에서 완벽하게 분할하는 것은 많은 어려움이 있다[1].

방해요인에 의한 얼굴인식 성능 저하를 극복하기위하여 사용하는 방법으로는 대표적으로 주성분 분석법(PCA: Principle Component Analysis ), 선형 판별분석(LDA: Linear Discriminant Analysis)이 있다. PCA에서는 변인을 제거하고 주성분만 추출하여 데이터에 존재하는 종속 변인을 제거하고 독립 변인만 추출한다. 이 기법은 각각의 데이터에 대한 성분을 분석하는 것이 아니라, 여러 데이터가 모여 하나의 분포를 이룰 때, 이 분포의 주성분을 분석하는 것이다. 여기서 주성분이란 데이터들의 분산이 가장 큰 방향벡터를 의미한다. 하지만 PCA에서는 데이터의 최적 표현의 관점에서 차원을 축소하기 때문에, 클래스 종류에 대한 정보는 고려되지 않는다. LDA 알고리즘은 [2-4]에서 기술된 바와 같이 클래스 분류성능을 선형적으로 최대로 높인 판별법이라 볼 수 있다. 즉, PCA 알고리즘과 달리 데이터의 최적 분류에 초점을 맞추어 차원을 축소한다. 차원을 축소하는 과정은 선형 변환을 위한 기저 벡터를 찾는 과정인데, 이 기저벡터는 클래스 내의 분산은 작아지게 하고, 클래스 간의 분산은 커지게 하도록 한다. 기저 벡터는 다른 말로 특징 벡터라고도 하는데, 이 특징벡터에 입력 영상을 투영하여 얼굴인식을 한다[5]. LDA에서는 학습 벡터를 기반으로 하기 때문에 2차원 영상을 1차원 학습벡터로 변환해야 하나 이것을 2차원으로 확장한 방법이 2D-LDA이다. 기존의 LDA 알고리즘은 판별력은 좋지만 메모리를 많이 차지하고 계산량이 많으며 학습 벡터가 2차원 텍스처 정보를 잃는 단점이 있다. 또한, 클래스 간의 표준편차를 전혀 고려하지 않고, 단순히 데이터들의 중심 간의 거리를 목적함수로 사용하기 때문에 정확한 분류가 되지 않을 때도 있다. 반면, 2D-LDA에서는 영상을 2차원 학습행렬로 그대로 활용하기 때문에 기존의 LDA 방법보다 더 높은 인식률을 나타내며 연산 속도가 빠른 장점이 있다[6,7].

하지만 이 두 가지 방법 모두 각각의 클래스는 다른 모든 클래스에 대한 동일한 혼동 가능성을 가진다고 가정한다. 즉, 각각의 클래스 정규분포의 표준편차가 동일하지 않음을 의미한다. 하지만 이러한 이분산성 문제는 클래스 간의 거리 정보를 무시하는 것으로, Yongxin Li[8]는 이 문제를 해결하기 위해 클래스 간 공분산 행렬을 구할 때 클래스 간 거리에 따른 가중치를 적용하였으며 이를 WPS (Weighted Pairwise Scatter) 기반 LDA이라고 제안하였고, 이것은 이분산성 문제를 어느 정도 해결하였다.

본 논문에서는 WPS를 2D-LDA에 적용하여 성능을 개선할 수 있는 방향을 제시한다. 여기서 영상을 다루는 방법이 LDA와 2D-LDA가 다르므로, 이를 해결하는 방법도 소개한다. 실험을 통하여 클래스 간 공분산 행렬에 정규화된 가중치를 적용할 때, 가중치를 적용하지 않은 2D-LDA 알고리즘과 비교하여 인식률이 어느 정도 차이가 나는지 살펴본다. 또한 가중치가 어떤 영상에서 효과적으로 적용되는지 살펴본다. 본 논문의 2장에서는 2D-LDA와 WPS-LDA 알고리즘에 관해서 서술한다. 3장에서는 WPS기반 2D-LDA 알고리즘에 대해서 논한다. 4장에서는 제안된 방법이 기존 방법과 비교하여 성능이 향상될 수 있고 저차원 특징벡터와 적은 수의 학습데이터에 좀 더 나은 성능을 보임을 확인할 수 있다. 5장에서는 현재 연구에 대해 평가하고 향후 연구 방향에 대해서 논한다.

 

2. 관련연구

2.1 2D-LDA (Two-Dimensional LDA)

2D-LDA[2]는 2차원의 얼굴 특징을 그대로 보존하면서 계산량이 적으므로 빠르고도 정확하게 얼굴을 인식할 수 있다. 실험에 의하면 기존의 PCA와 LDA에 비해 약 20%이상 향상된 얼굴인식 성능을 보이는 것으로 알려졌다. 또한, 데이터 차원과 인식대상 부류의 수가 증가할수록 분류 성능이 급격히 감소하는 2D-PCA[9,10]에 비해 2D-LDA는 데이터 차원과 분류 대상의 수에 비교적 상관없이 분류성능이 유지된다. 따라서 제안 방법의 얼굴인식에서 2D-LDA를 얼굴 특징 추출을 위한 분석 도구로 사용한다. 본 논문 수식에서 쓰이는 표기에 대한 설명을 Table 1에서 요약한다.

Table 1.Notations

학습 영상들을 특징 고유 공간에 투영하여 선형분류 성능이 가장 좋은 특징을 추출하는 과정은 다음과 같다. m×n 크기의 영상 A가 있으며 n×1크기의 투영 벡터 x가 있다고 가정하면 다음처럼 투영벡터로 투영하는 y = Ax 변환을 통해 m×1 크기의 특징벡터 y를 획득하는 과정이다. 총 M개의 학습 영상이 존재하고 있으므로 yi =Aix 변환을 통해 동일한 수의 특징벡터를 얻을 수 있게 된다. 여기서 주목할 점은 기존 LDA가 영상을 입력데이터로 쓰기 위해 벡터로 변환해야 하지만, 2D-LDA는 m×n 크기의 2차원 영상 A를 그대로 학습 영상 행렬로 이용하므로 벡터 변환과정이 필요 없다는 점이다. LDA는 투영된 특징벡터들의 선형 분류성능을 최적화 할 수 있는 투영벡터를 계산하는 방법이다. 수식 (1)에서 J(x)는 Fisher 선형 투영 분류기준이며 J(x)를 최대화 하는 투영벡터 x가 같은 클래스의 학습 영상들의 특징벡터들은 중심으로 밀집시키고 다른 클래스의 중심으로부터 최대로 멀어지게 하는 최적 투영 축이 된다. 수식 (2) PB는 학습영상이 투영된 특징 벡터들의 클래스 간 공분산 행렬인 TSB의 대각성분의 합이고, 수식 (3) PW는 투영된 특징 벡터들의 클래스내 공분산 행렬인 TSW의 대각성분의 합이다.

투영된 특징 벡터들로부터 계산된 클래스 간 공분산과 클래스 내 공분산은 다음 수식 (4)와 (5)와같이 투영되기 전 학습 영상 행렬과 투영벡터 기준으로 공분산 계산이 가능하도록 표현할 수 있다.

수식 (4)와 (5)의 공분산의 대각 성분은 수식 (6)과 (7)로 간략화할 수 있다. 분류기준은 수식 (6)과 (7)을 (1)에 대입하여 새로운 수식 (8)로 변경할 수 있다.

기존의 LDA에서는 SW가 비가역 행렬이 되는 문제가 있으므로 특이치 분해로 투영벡터를 계산해야 하지만 2D-LDA에서는 이러한 문제는 없다. 수식 (7)로부터 수식 (9)을 계산할 수 있고 SW가 수식 (10)을 만족하는 경우 항상 가역행렬이다.

특징벡터 한 개로는 충분한 분류성능을 나타낼 수 없으므로 J(x)를 최대화하는 정규 직교 투영벡터를 d개 추출할 수 있다. 투영벡터들은 SVD를 이용하여, 의 고유벡터들을 각 고유치가 큰 순으로 선택하여 획득된다. 이런 투영 축들을 이용하여 Fisher 투영 행렬 X를 만들 수 있다.

테스트 영상이 입력될 때 투영 행렬 X에 곱하기만 하면 얼굴 인식에 사용되는 특징행렬을 얻을 수 있다. 그 후 얼굴인식에서는 입력된 영상의 특징행렬과 유클리디언 거리를 이용하여 가장 가까운 학습 특징 행렬을 찾아 그 특징행렬의 클래스로 얼굴을 인식하게 된다.

2.2 WPS-LDA (Weighted Pairwise LDA)

WPS-LDA는 기존의 LDA에 가중치를 더해 만든 알고리즘으로서 클래스 간 공분산 행렬을 구할 때 두 개의(Pairwise) 클래스 거리에 따라서 가중치를 부여한다. 전통적인 방법의 LDA 클래스 간 공분산 수식 (4)에 가중치를 적용한 공분산은 다음과 같다.

가중치는 두 클래스 간의 거리의 역수이며 수식 (13)과 같이 계산된다. 만약 이 두 클래스의 거리가 가깝다면 가중치 값이 커지기 때문에 결과적으로 클래스 간 공분산 행렬에서 차지하는 값의 영향을 높일 수 있는 장점이 있다.

가중치를 정규화 한 클래스 간 공분산 행렬은 다음 수식 (14)로 나타낼 수 있다.

 

3. 가중치를 적용한 2D-LDA

3.1 제안한 알고리듬의 개요

LDA는 2D-LDA와 다르게 영상을 벡터로 받기 때문에 이것을 2D-LDA에 그대로 적용할 경우 수식 (14)에서 분자와 분모 행렬의 크기가 달라 가중치를 적용할 수 없다. 따라서 이때만은 기존의 LDA와 같이 두 영상을 벡터로 바꾸어 적용해야 한다.

i번째 클래스의 평균 영상이 mxn의 크기를 가질 때, 수식 (15)를 이용하여 2차원 영상을 1차원 벡터로 변환할 수 있다. 본 시스템에서는 먼저 가중치 행렬을 0 행렬로 생성한 후, 클래스 간 공분산 행렬에 가중치를 적용하기 전 미리 가중치를 수식 (13)을 이용하여 계산한다. 그 후 이 가중치의 분산이 매우 커지기 때문에 수식 (16)를 이용하여 정규화를 실시한다.

이 수식에서 w는 위에서 구한 가중치 행렬이고, W는 0부터 1 사이의 값을 가지며 가중치의 총합은 1 이된다. 이렇게 정규화된 가중치 행렬에 각 요소에 제곱하여 가중치를 강조하면 더 변별력이 생긴다. 이렇게 생성된 가중치는 클래스 간의 거리에 따라, 가까운 클래스 간에는 큰 값을, 먼 클래스 간에는 작은 값을 가지게 된다. 그리고 가중치는 클래스 간 공분산 행렬에 적용되어, 거리가 가까운 클래스들은 떨어뜨리게 된다. 수식 (16)를 이용하면 2D-LDA에도 가중치를 적용하여 클래스 간 공분산 행렬에서 클래스 사이의 변별력을 높인 요소들을 수식 (14)를 이용하여 구할 수 있다.

본 논문에서 클래스 간 거리의 척도로 유클리디언거리를 사용하였는데, 다른 거리 척도로 Kullback-Leibler 거리를 사용할 수도 있다[8]. KL 거리는 본 논문에서 다루지 않은 클래스 내 분산을 고려하는 방법으로, 이 정보 또한 두 클래스를 구분하는 척도로 쓰일 수 있다.

 

4. 실험 결과

본 연구에서는 ORL 데이터베이스와 India 데이터 베이스를 사용하였다. 이 ORL 데이터베이스는 40명의 인물이 각각 10장씩, 총 400장으로 이루어져 있으며 각 영상은 112 × 94의 흑백 영상이다. 또 India 데이터베이스는 37명의 인물이 각각 10장씩, 총 370장으로 이루어져 있으며, 각 영상은 640 × 480의 컬러영상이다. ORL 데이터베이스는 얼굴의 회전량이 적고 배경도 거의 없다. 하지만 India 데이터베이스는 얼굴의 회전량도 크고, 표정도 다양하며 배경이 차지하는 부분이 넓은 편이다.

실험방법은 fisher 투영 축의 차원이 1, 5, 10, 20, 40, 80, 90일 때, 각 인물당 9장씩 학습하여 나머지 한 장을 테스트하였을 때, 각 인물당 4장 혹은 5장씩 학습하여 다른 한 장을 테스트하였을 때로 나누어 실험을 진행하였다. Table 2와 Table 3 그리고 Table 4와 Table 5를 살펴보면 투영 축의 차원에 따라 인식률이 다르고 학습 영상의 개수에 따라 인식률이 다름을 알 수 있다. 본 논문에서 제안한 알고리즘을 적용하였을 때 가장 효과적일 때는 투영 축의 차원이 1일 때와 4개 또는 5개의 학습 영상을 사용하였을 때이다. ORL 데이터셋에서 2D-LDA보다 가중치를 적용하였을 때 2%정도 인식률의 향상이 있고 나머지 부분에서는 인식률의 차이가 크지 않음을 알 수 있다. 하지만 India 데이터셋에서는 이러한 인식률이 조금 더 두드러진다. Fig. 4과 5는 Table 4와 5를 좀 더 시각화하여 나타낸 것으로 투영 축이 낮고 학습 영상의 수가 적을 때, 가중치를 적용한 방법이 기존의 방법보다 더 나음을 나타낸다. 가중치가 적용된 2D-LDA는 클래스 간의 변별력을 높여주기 때문에 현재 사용하고 있는 이런 데이터베이스 이외에도 클래스 수가 더 많거나 혹은 영상의 분산이 큰 다른 데이터 베이스를 이용한다면 더 뚜렷하게 차이가 나타날 것으로 생각된다.

Fig. 1.ORL Database.

Fig. 2.India Database.

Table 2.The recognition rate in 5 training images in ORL

Table 3.The recognition rate in 9 training images in ORL

Table 4.The recognition rate in 4 training images in india

Table 5.he recognition rate in 9 training images in india

Fig. 3.Graph to Table 2. x-axis is dimension of projection axis, y-axis is recognition rate.

Fig. 4.Graph to Table 4. x-axis is dimension of projection axis, y-axis is recognition rate.

Fig. 5.Graph to Table 5. x-axis is dimension of projection axis, y-axis is recognition rate.

 

5. 결 론

본 논문에서는 가중치를 적용한 2D-LDA를 제안하였다. 기존의 2D-LDA는 학습 영상이 적고, 투영축의 차원이 낮을 때 인식률이 떨어지는 문제가 있다. 이 문제를 해결하기 위해서 본 논문에서는 클래스 간 공분산 행렬에 가중치를 적용하여 클래스 간 변별력을 높이는 방법을 사용하였다. 그 결과 투영축의 차원이 낮으면서 학습 영상이 적을 때 인식률의 향상이 가능함을 증명하였다.

최근의 HD영상 장비의 보급과 제한적인 학습 영상이 사용자에게 편리함을 고려할 때, 투영 축의 차원이 낮을수록, 학습 영상이 적게 필요한 알고리즘일수록 시스템 적용이 유리하다. 따라서 본 논문에서 제안한 방법을 사용하면 수행 속도가 중요하고 학습영상이 제한적이면서 영상의 크기가 큰 시스템에서 기존의 2D-LDA보다 높은 인식률을 얻을 수 있다. 앞으로는 2D-LDA를 이용한 얼굴 방향 인식과 가중치를 계산 방법을 바꾸어 더 나은 성능 향상을 기대하고자 한다.

References

  1. Bae-Ho Lee, Wu-Ju Lee, Jin-Chul Kim, "Real-Time Face Detection and Tracking Using the AdaBoost Algorithm," Journal of Korea Multimedia Society, Vol. 9 No. 10, pp. 1266-1275, 2006.
  2. R. Haeb-Umbach and H. Ney, "Linear Discriminant Analysis for Improved Large Vocabulary Continuous Speech Recognition," Proceeding of IEEE Conference on Acoustics, Speech, and Signal Processing, Vol. 1, pp. 13-16, 1992.
  3. M.H. Yang, "Kernel Eigenfaces vs. Kernel Fisherfaces: Face Recognition Using Kernel Methods," Proceeding of 5th Intenational Conference on Automatic Face and Gesture Recognition. pp. 215-220, 2002.
  4. K. Fukunaga, Introduction to Statistical Pattern Recognition, Academic Press Professional, Inc. San Diego, CA, USA, 1990.
  5. Hae-Min Moon, Sung-Bum Pan, "The LDA-based Long Distance Face Recognition using Multiple Distance Face Image and Bilinear Interpolation," The Journal of Korean Institute of Information Technology, Vol. 11, No. 3, pp.95-101, 2003.
  6. Young-Gil Kim, Young-Jun Song, Dong- Woo Kim, Jae-Hyeong Ahn, "Bilateral Diagonal 2DLDA Method for Human Face Recognition," Journal of Korean Institute of Intelligent Systems, Vol. 19, No. 5, pp648-654, 2009. https://doi.org/10.5391/JKIIS.2009.19.5.648
  7. M. Li and B. Yuan, "2D-LDA: A Statistical Linear Discriminant Analysis for Image Matrix," Pattern Recognition Letters, Vol. 26, Issue 5, pp527-532, 2005. https://doi.org/10.1016/j.patrec.2004.09.007
  8. Y. Li, Y. Gao, and H. Erdogan, "Weighted Pairwise Scatter to Improve Linear Discriminant Analysis," Proceeding of the 6th International Conference on Spoken Language Processing, Vol. 4, pp. 608-611, 2000.
  9. J. Yang, D. Zhang, A.F. Frangi, and J.-y Yang, "Two-dimensional PCA: A New Approach to Appearance-based Face representation and Recognition," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 26, Issue 1, pp. 131-137, 2004. https://doi.org/10.1109/TPAMI.2004.1261097
  10. C. Qiu, H. Ren, H. Zou, and S. Zhou, "Performance Comparison of Target Classification in SAR Images based on PCA and 2D-PCA Features," Proceeding of 2nd Asian-Pacific Conference on Synthetic Aperture Radar, pp.868-871, 2009.

Cited by

  1. Construction of Composite Feature Vector Based on Discriminant Analysis for Face Recognition vol.18, pp.7, 2015, https://doi.org/10.9717/kmms.2015.18.7.834
  2. 공간 계층적 구조 기반 지역 기술자 활용 얼굴인식 기술 vol.20, pp.5, 2014, https://doi.org/10.9717/kmms.2017.20.5.758