DOI QR코드

DOI QR Code

Untact Face Recognition System Based on Super-resolution in Low-Resolution Images

초고해상도 기반 비대면 저해상도 영상의 얼굴 인식 시스템

  • Bae, Hyeon Bin (School of Electrical Electronics and Control Eng., Changwon National University) ;
  • Kwon, Oh Seol (School of Electrical Electronics and Control Eng., Changwon National University)
  • Received : 2019.11.25
  • Accepted : 2020.02.19
  • Published : 2020.03.31

Abstract

This paper proposes a performance-improving face recognition system based on a super resolution method for low-resolution images. The conventional face recognition algorithm has a rapidly decreased accuracy rate due to small image resolution by a distance. To solve the previously mentioned problem, this paper generates a super resolution images based o deep learning method. The proposed method improved feature information from low-resolution images using a super resolution method and also applied face recognition using a feature extraction and an classifier. In experiments, the proposed method improves the face recognition rate when compared to conventional methods.

Keywords

1. 서론

생체정보를 이용한 인식 시스템은 보안 시스템 의한 분야로서 많은 연구가 진행되고 있다. 이들 중에서 지문이나 홍채인식 등은 접촉을 하거나 근접한 경우에 활용 가능한 것에 반하여 얼굴 인식은 근접한 거리에서 인식하는 방법뿐만 아니라 먼 거리에서도 비대면으로 인식이 가능하다는 장점이 있다. 기존의 얼굴 인식의 경우 해당 얼굴에 대하여 특징 추출을 진행하고 분류를 통해 인식을 진행한다 [1]. 그러나 Fig. 1과 같은 일반적인 감시카메라의 입력 영상에서는 카메라와 얼굴과의 거리가 멀어짐에 따라 해상도의 한계로 인식의 성능이 급격이 감소하게 된다. 이러한 저해상도(Low Resolution, LR) 문제를 해결하기 위하여 저해상도 얼굴 영상을 초고해상도 (Super Resolution, SR) 기법을 이용하여 고해상도 (High Resolution, HR) 영상으로 복원하는 방법이 필요하다.

MTMDCW_2020_v23n3_412_f0001.png 이미지

Fig. 1. Example of low resolution images such as CCTVs.

기존의 초고해상도 기법은 Moon의 논문[2]에서 사용한 Bilinear 보간법[3]과 Bicubic [4] 보간법 등과 같이 각 화소의 값을 선형적 또는 비선형적으로 예측하는 방법이 있다. 최근에는 딥 러닝 기법을 이용하여 복원하는 방법이 연구되었다. 우선 Wang et al [5] 은 희소 표현과 딥 러닝을 결합한 초고해상도 기법을 제안하였으며 Zhang et al [6]은 모든 컨벌루션 층의 계층적 기능을 활용하여 CNN(Convolutional Neural Networks)[7] 기반의 초고해상도 모델을 보완하였다. Sun et al [8]은 지역 특징을 추출하여 전역 특징과 융합을 사용하여 네트워크의 크기가 커져 학습이 어려워지는 문제를 해결한 초고해상도 기법을 제안하였다. Dong et al [9]은 3개 층을 통한 연산으로 결과 화소의 값을 계산하였다. Mao et al [10]은 미러링 된 디컨벌루션 층을 추가하여 복원에서 발생하는 노이즈를 제거하였다.

다음으로 인식 과정에서 특징 추출 과정이 필요하다. 특징 추출에는 통계적인 방법인 PCA(Principal Component Analysis)[11]와 LDA(Linear Discriminant Analysis)[12]가 있으며 비통계적인 방법인 HOG(Histogram of Oriented Gradients)[13]가 있다. PCA와 LDA는 대부분을 나타낼 수 있는 몇 개의 데이터를 선정하기 때문에 분류기를 학습하는 과정에서는 효율적이지만 정확하게 얼굴의 특징을 나타내지 못한다. HOG는 수직적, 수평적인 에지를 측정한 뒤 이 값들을 이용하여 방향(orientation)을 계산하여 특징을 추출한다.

이렇게 추출된 특징에 대하여 각 대상들을 구분하기 위하여 분류기를 학습한다. 분류기로는 서포트 벡터(Support Vector)를 사용하여 두 클래스 사이의 마진을 조절하여 분류하는 방법인 SVM(Support Vector Machine)[14]이 있으며 클래스 간의 거리를 최대화하며 클래스 내에서 분산을 최소화하는 방법인 LDA (Linear Discriminant Analysis)[15]가 있다.

본 논문의 구성은 다음과 같다. 2장에서는 관련된 초고해상도 기법에 대하여 설명하고, 3장에서는 본 논문에서 제안하는 초고해상도 기반의 저해상도 얼굴 인식 알고리즘에 대하여 설명한다. 4장에서는 제안된 알고리즘으로 실험한 결과를 분석하고 5장에서 결론을 맺는다.

2. 기존의 딥러닝 기반 초고해상도 기법

저해상도 얼굴 인식의 단계는 얼굴 검출, 초고해상도, 특징 추출, 분류기로 구성된다. 기존의 얼굴 인식 알고리즘과 달리 저해상도 얼굴 인식에서는 저해상도 영상을 고해상도로 만드는 초고해상도 기법이 필요하다. 초고해상도 기법은 다음과 같은 네 가지 기법들에 대하여 나타내었다.

A. Cascaded Sparse Coding Networks(CSCN) 방법

희소 코딩 방법과 딥 러닝의 핵심 요소를 결합하여 향상된 초고해상도 결과를 보여주는 방법이다. 희소 코딩 모델이 신경망으로 구체화되어져 계단식 구조로 학습되는 기법이다. 희소 코딩을 기반으로 한 네트워크의 해석은 모델의 크기가 줄어들 뿐만 아니라 효율적이고 효과적인 학습을 제공한다.

B. Residual Dense Network(RDN) 방법

모든 컨벌루션 층의 계층적 기능을 활용함으로 CNN기반의 초고해상도 모델이 저해상도 영상의 계층 구조를 최대로 활용하지 못해 낮은 성능을 보이는 문제를 보완하였다. 조밀하게 연결된 컨벌루션 층을 통하여 지역 특징을 추출하기 위해 잔여 조밀 블록 (Residual Dense Block, RDB)을 사용한 방법이다. RDB의 지역 특징 융합은 선행, 현재 지역 특징보다 효율적인 기능을 적응하여 학습하고 더 넓은 네트워크의 학습을 안정화하는 데 사용한다.

C. Distilling with Residual Networks(DRN) 방법

저해상도 영상에서 특징을 추출하기 위해 잔여 구조(Residual Structure)와 조밀한 구조(Dense Structure)를 사용하면 네트워크가 부풀어 학습이 어려워진다. 따라서 두 개의 가지를 포함하는 잔여 증류 블록(Residual Distilling Block, RDB) 사용하여 하나의 가지가 잔여 연산을 수행하면 다른 하나의 가지가 효과적인 정보를 추출한다. 효율성을 향상시키기 위해 일부 RDB를 쌓고 하나의 긴 skip 연결을 사용하여 RDG(Residual Distilling Group)를 설계한다. 이로 인해 효과적으로 지역 특징을 추출하며 전역 특징과 융합시킨다.

D. Super Resolution Convolutional Neural Networks(SRCNN) 방법

전통적인 희소 표현 초고해상도 기법은 딥 컨벌루션 네트워크로 간주된다. 그러나 SRCNN은 각 구성요소를 개별적으로 처리하지 않고 모든 계층을 공동으로 최적화하는 방법으로 접근한 기법이다. SRCNN은 3가지 층의 연산으로 이루어진다. 첫 번째 층은 저해상도 영상으로부터 패치를 추출하는 패치 추출 및 표현(Patch extraction and representation) 단계, 두 번째 층은 다차원 패치 벡터를 다른 다차원 패치 벡터로 매핑하는 비선형 매핑(Non-linear mapping) 단계 그리고 세 번째 층은 다차원 패치 벡터에서 최종 고해상도 영상을 생성한 복원(Reconstruction) 단계로 구성된다. SRCNN의 딥 CNN은 가벼운 구조이지만 우수한 복원 품질을 보여주며 실용적인 사용을 위하여 빠른 속도를 제공한다.

3. 제안한 저해상도 영상의 얼굴 인식 기법

기존의 얼굴 인식 알고리즘은 저해상도 얼굴이 입력으로 들어온 경우 인식률이 떨어진다. 따라서 저해상도 얼굴에 초고해상도 기법을 적용하여 얼굴 인식 성능을 향상시킨다. Fig. 2는 제안하는 실시간 저해상도 얼굴 인식의 흐름도이다. 얼굴 인식을 위해 분류기를 학습시키는 학습 단계와 실제 얼굴 인식이 이루어지는 테스트 단계로 구분하였다. 학습 단계에서 인식하고자 하는 대상의 얼굴을 1 m, 3 m, 5 m, 7 m, 9m에서 촬영 후 데이터베이스에 저장한다. 1 m 거리에서 촬영한 영상의 얼굴은 고해상도이며 해당 영상을 원본 영상으로 정하며 원본 영상의 크기를 기준 크기로 정한다. 다른 영상들은 초고해상도 기법을 사용하여 기준 크기로 복원한다. 그리고 모든 고해상도 영상들에 대하여 HOG 특징 추출을 한다. 원본 영상의 특징과 복원된 영상 사이의 유클리드 거리를 계산하여 일치 여부를 통해 분류한다. 해당 분류를 통해 분류기를 학습시키며 학습 단계가 완료된다. 테스트 단계는 학습 단계와 유사한 방법으로 진행되지만, 입력 영상이 실제 얼굴 인식 영상에서 검출된 얼굴의 영상이라는 점과 학습 단계에서 학습된 분류 기를 통해 해당 인물을 인식하여 결과로 나타낸다는 차이가 있다.

MTMDCW_2020_v23n3_412_f0002.png 이미지

Fig. 2. Flowchart by proposed face recognition algorithm based on super-resolution.

제안하는 알고리즘은 저해상도 얼굴 영상에 초 고해상도 기법 중 Mao et al [10]의 방법을 적용하여 고해상도 영상으로 만든 뒤 HOG 특징 추출 기법을 사용하여 특징을 추출한 뒤 학습된 LDA 분류기를 사용하여 데이터베이스에 있는 인물로 인식을 하는 것이다.

A. HOG를 이용한 특징 추출

영상을 통한 얼굴 인식은 데이터베이스에 있는 원본 영상에서 추출된 특징과 영상을 통해 들어온 얼굴의 특징을 매칭하여 해당 인물임을 인식한다. 그러므로 인식에 있어서 특징을 추출하는 것은 해당 인물임을 확인하기에 매우 중요한 과정이다. 본 논문에서 특징 추출기법 3가지 중에서 물체의 형태 변화가 심하지 않고 내부 패턴이 단순하며 윤곽선으로 물체를 식별할 수 있는 HOG(Histogram of Oriented Gradients, HOG) 특징 추출 방법을 사용하였다. HOG 방법은 대상 영역을 16 ×16 크기의 셀로 분할 후 수평 화소의 차이는 [-1, 0, 1]을 통해, 수직 화소의 차이는 [-1, 0, 1] x을 이용하여 계산을 한다. 이렇게 구해진 수평의 화소 차이와 수직의 화소 차이를 사용하여 각 셀 내에서 크기와 방향을 구한다.

한 셀 안에서 각 화소마다 길이가 다른 화살표로 값이 표시가 되며 이는 기울기의 크기를 나타내는 행렬과 기울기의 방향을 나타내는 행렬로 나타낼 수 있다. 각 방향을 0도부터 20도 간격으로 구성된 9개의 빈(bin)으로 해당 크기를 할당 후 셀 안의 모든 화소의 값을 히스토그램으로 나타낸다. 그러나 화소 들의 크기가 절반이 되어 어두워지면 히스토그램에서도 절반의 길이를 가질 것이며 이는 조명에 독립적이지 못한다. 따라서 2 × 2 셀 크기의 블록을 사용하여 조명에 독립적 이도록 히스토그램을 정규화시켜준다. 본 논문에서는 얼굴 특징 추출로 셀의 크기를 16 ×16 화소로, 블록의 크기는 2 × 2 셀로 고정하였다. HOG를 사용한 특징 추출의 결과는 Fig. 3과 같다.

MTMDCW_2020_v23n3_412_f0003.png 이미지

Fig. 3. Result of HOG feature extraction, (a) input and (b) HOG feature image.

B. LDA 기반의 분류

LDA는 특정 부분 공간에 데이터를 사영시켜 클래스 간의 거리가 최대가 되며 클래스 내의 분산이 최소가 되는 선형 변환이다. 따라서 특징 벡터의 차원을 감소시키거나 서로 다른 데이터 집단들을 효율적으로 분리시키는 방법으로 사용된다. 특히 얼굴 인식에서 눈, 코, 입 등과 같은 얼굴의 특징 변화와 표정, 조명의 밝기 등과 같은 외부 요인에 의한 변화를 구분할 수 있기 때문에 분류기나 특징 추출 방법으로 사용된다. LDA는 우선 N개의 샘플 영상{x1, x2,···, xN}은 n차원 영상 공간을 가지고 있으며 각각의 영상이 c클래스 {X1, X2,···, Xe}중 하나에 속한다고 가정한다. 또한 기존 n차원 영상 공간을 m차원 특징 공간으로 매핑을 하며 n이 m보다 크다는 조건하에서 가능하다. 새로운 특징 벡터 yk는 다음의 식 (1)과 같은 선형 변환으로 정의되며 W이 직교 열을 가지는 행렬일 경우 성립된다.

\(y_{k}=W^{T} x_{k} \quad k=1,2, \ldots, N\)             (1)

전 산점 행렬(total scatter matrix) ST은 식 (2)으로 정의되며 클래스 간의 거리는 식 (3), 클래스 내의 분산은 식 (4)을 통해 구해진다. 식에서 c는 클래스의 수이며 μi는 클래스 Xi의 평균 영상, Ni는 클래스 Xi 의 샘플들의 수이다. μ는 전체 샘플 영상의 평균이며 이후 선형 변환인 WT 를 적용한다.

\(S_{T}=\sum_{k=1}^{N}\left(x_{k}-\mu\right)\left(x_{k}-\mu\right)^{T}\)              (2)

\(S_{B}=\sum_{i=1}^{c}\left(\mu_{i}-\mu\right)\left(\mu_{i}-\mu\right)^{T}\)              (3)

\(S_{W}=\sum_{i=1}^{c} \sum_{x_{k} \in X_{i}}\left(x_{k}-\mu_{i}\right)\left(x_{k}-\mu_{i}\right)^{T}\)              (4)

\(W_{o p t}=\operatorname{argmax}_{W}\left|\frac{W^{T} S_{B} W}{W^{T} S_{W} W}\right|\)              (5)

변형된 특징 벡터{y1, y2, ···,yN}들의 흩어짐은WTSTW이다. 클래스 간의 거리 SB와 클래스 내의 분산 SW의 비율을 최대로 하는 벡터 W을 식 (1)에서 선택한다. 만약 SW가 비정형인 경우 Wopt은 정규 직교 열들을 가지는 행렬이고 SB와 SW을 최대로 만들며 Wopt은 식(5)로 나타낼 수 있다. 이를 통해 기존의 데이터베이스에 저장된 영상의 가중치와 실제 영상에서의 가중치를 비교하여 얼굴을 인식한다.

C. DDSRCNN 초고해상도 기법

본 논문에서는 최근 초고해상도 기법 중 가장 우수한 성능을 보여주는 디컨벌루셔널 디코더(Deconvolutional Decoder) 방식의 DDSRCNN을 선택하였다. 일반적으로 영상 복원은 손상된 이미지를 가져와 원본 영상을 추정하는 연산이다. 손상된 이미지라서 노이즈를 다루는 기법도 다르다. DDSRCNN은 영상 복원을 위하여 딥 컨벌루셔널 방식으로 엔코더를 자동 생성하는 네트워크(deep convolutional auto-encoder network)이다. DDSRCNN의 네트워크는 다중 컨벌루션-디컨벌루션 연산자로 구성되어 손상된 영상에서 원본 영상으로의 end-to-end 매핑을 학습한다. 먼저 컨벌루션 층은 손상을 제거하면서 영상 컨텐츠의 추상화를 포착하며 디컨벌루션 층은 특징 맵을 업 샘플링하고 세부 사항을 복구하는 기능을 한다. 심층 네트워크인 경우 학습이 어려워지는 문제점을 해결하기 위해 컨벌루션 층과 디컨벌루션 층을 연결한다. 이 경우 연결이 훨씬 빠르게 수렴되어 더 나은 결과를 얻는다. 컨벌루션 층으로부터 미러링 되어 연관된 디컨벌루션 층까지의 건너뛰는 연결은 두 가지 이점을 가진다. 첫째, 신호를 맨 아래 계층으로 역 전파할 수 있으므로 경사가 사라지는 문제를 해결하여 딥 네트워크를 손쉽게 교육하고 복원 성능을 향상시킨다. 둘째, 이러한 연결은 영상 세부 정보를 컨벌루션 층에서 디컨벌루션 층으로 전달하므로 선명한 영상으로 복구하는데 유용하다.

4. 실험 및 결과

실험에서 AR 데이터베이스와 Extended Yale B 데이터베이스를 사용하였다. 먼저 AR 데이터베이스는 100명으로써 한 명 당 표정에 따라 영상이 8장씩 구성되었다. 다음으로 Extended Yale B 데이터베이스 구성은 38 명으로써 한 명 당 광원이 다른 64장의 영상이 있다. 다만, 본 실험에서는 매우 어두운 영상을 제외하고 20장을 사용하였다. 최종적으로 AR 데이터베이스 800장과 Extended Yale B 데이터베이스 760장을 사용하였다.

본 논문의 성능 평가를 위해서 Pei Li [16]의 논문에서 사용한 순위(Rank) 개념을 적용하였다. 그리고 특징 추출 방법과 특징 분류에 대한 성능 차이를 분석하기 위해서 ROC(Receiver Operating Characteristics) 곡선을 사용해 그래프로 표현하였다. ROC는 아래의 식을 사용하여 계산할 수 있으며, 면적을 AUC(Area Under the Curve)라고 한다.

\(\text { True Positive Rate }=\frac{\text { True Positives }}{\text { True Positives }-\text { False Negatives }}\)             (6)

\(\text { False Positive Rate }=\frac{\text { False Positives }}{\text { False Positives }-\text { True } \text { Negatives }}\)              (7)

데이터베이스 셋에서 얼굴의 원본은 120 ×164 크기이다. 원본 영상을 4 m, 7 m 10m의 원거리 저해상도 영상으로 만들기 위해 영상의 크기를 각각 15 × 20, 30 ×41, 60 ×82로 축소시켰다. 다양한 크기의 저해상도 영상들에 대하여 다섯 가지의 초고해상도 기법과 세 가지의 특징 추출 방법 및 두 가지의 분류기에 따른 전반적인 성능을 분석하였다. 그리고 해당 성능을 종합하여 최적의 저해상도 얼굴 인식 시스템을 설계하였다.

데이터베이스 셋에서 얼굴의 원본은 120 ×164 크기이다. 원본 영상을 4 m, 7 m 10m의 원거리 저해상도 영상으로 만들기 위해 영상의 크기를 각각 15 × 20, 30 ×41, 60 ×82로 축소시켰다. 다양한 크기의 저해상도 영상들에 대하여 5가지의 초고해상도 기법, 3가지의 특징 추출 방법, 2가지의 분류기에 대한 각각의 성능과 전체적인 성능을 객관적인 수치로 나타내었다. 그리고 해당 성능을 종합하여 최적의 저해상도 얼굴 인식 시스템을 설계하였다.

4.1 AR Database Set

먼저 세 가지의 다른 사이즈의 저해상도 영상을 다섯 가지의 초고해상도 기법을 사용하여 복원한 누적 매칭 점수(Cumulative match score)를 분석하였다. 특징을 추출하는 방법은 HOG로 적용하였으며 성능 측정은 순위(Rank)를 사용하였다. 순위는 복원된 영상의 특징을 원본 영상의 특징과 유클리드 거리로 비교하여 실제 영상과의 일치 여부를 누적으로 점수를 매긴 것이다. 원본 영상의 특징을 원본 영상과 비교하여 점수를 매긴 것을 다이렉트(Direct) 방법으로 실험했으며 결과는 Fig. 4로 나타났다. Table 1은 Fig. 4에서 Rank 10의 크기별 매칭 점수를 나타냈으며 60 ×82 크기가 30 ×41, 15 × 20 크기보다 매칭 점수가 높게 나타났다. 이는 60 ×82 크기의 특징이 30 ×41, 15 × 20 크기보다 손실이 덜 된 상태이기 때문에 복원 정도가 높아 나타난 결과이다.

MTMDCW_2020_v23n3_412_f0004.png 이미지

Fig. 4. Cumulative match score according to superresolution method.

Table 1. Rank 10 score by super-resolution method in AR database

MTMDCW_2020_v23n3_412_t0001.png 이미지

다음으로 세 가지의 특징 추출 방법의 성능을 비교하기 위해서 저해상도 영상의 크기는 30 ×41을 사용하였으며 복원에 필요한 초고해상도 기법으로 Wang et al [5]의 기법을 사용하였다. 분류기로는 LDA방법을 사용하였으며 결과는 Fig. 5와 같다. AUC 값이 1.0인 경우 참의 값을 넣은 경우 항상 참의 결과가 나오며 거짓의 값을 넣은 경우 항상 거짓의 결과가 나오게 되며 오차는 없는 상태이다. 즉, AUC 값이 클수록 높은 성능을 보인다고 볼 수 있다. 실험 결과, LDA를 사용한 특징 추출 방법이 AUC 0.52 값으로 성능이 비교적 떨어졌고 다음으로 0.59 값의 PCA로 나타났으며 HOG의 방법이 0.93으로 가장 우수했다.

MTMDCW_2020_v23n3_412_f0005.png 이미지

Fig. 5. ROC curve comparison according to feature extraction.

다음은 분류기의 성능을 분석하기 위해서 특징 추출을 HOG로 고정한 뒤 실험하였다. 실험 결과는 Fig. 6과 같으며 LDA 방법이 AUC 0.95 값으로 0.84 값인 SVM 방법보다 우수한 성능으로 나타났다. AR 데이터베이스로 실험한 결과 CNN 기반의 초고해상도 기법이 우수한 복원 성능을 보여주었으며 HOG를 사용한 특징 추출과 LDA로 분류하는 방법이 최적화된 세팅으로 분석되었다.

MTMDCW_2020_v23n3_412_f0006.png 이미지

Fig. 6. ROC curve according to classifiers.

4.2 Extended Yale B Database Set

성능의 신뢰도를 높이기 위해 다른 데이터베이스 셋인 Extended Yale B를 사용하였으며 AR 데이터 베이스 셋과 같이 다섯 가지 초고해상도 기법들의 성능을 비교하였으며 특징 추출 방법 성능 비교, 분류기 성능 비교를 진행하였다. 누적 매칭 점수는 대상의 수만큼 누적되기 때문에 AR 데이터와 같이 나타내기 위해서 정규화 후 나타내었다. 우선 특징 추출은 HOG로 적용한 뒤 초고해상도 기법 별 성능 비교는 Fig. 7과 같다. Rank 10의 값을 Table 2에서 비교하였다. AR 데이터베이스 셋에서는 DDSRCNN의 성능이 60 ×82와 30 ×41 크기에서 우수했지만, 이번 실험에서는 60 ×82와 15 × 20 크기에서 결과가 높게 나타났다.

MTMDCW_2020_v23n3_412_f0007.png 이미지

Fig. 7. Rank 10 score by super-resolution method.

Table 2. Rank 10 score by super-resolution method in Extended Yale B

MTMDCW_2020_v23n3_412_t0003.png 이미지

다음으로 특징 추출의 성능을 비교하였다. 방식은 AR 데이터베이스 셋과 동일하며 본 실험에서도 HOG 특징 추출 방법이 가장 우수한 성능을 Fig. 8과 같이 보여주었다. 다음으로 특징 추출을 HOG방법으로 고정시킨 뒤 분류기의 성능을 비교하였으며 Fig. 9과 같이 SVM 보다 LDA의 성능이 높게 측정되었다. AR 데이터베이스 셋과 마찬가지로 Extended Yale B 데이터베이스 셋에서도 비슷한 결과로 나타났다. 신경망을 이용한 초고해상도 기법이 복원율 이우수 했으며 이후 특징 추출에서는 HOG방법이 특징을 가장 잘 나타냈으며 해당 인물을 구분하는 분류기에서는 LDA의 결과가 가장 우수하였다.

MTMDCW_2020_v23n3_412_f0008.png 이미지

Fig. 8. ROC curve comparison according to feature extraction.

MTMDCW_2020_v23n3_412_f0009.png 이미지

Fig. 9. ROC curve according to classifiers.​​​​​​​

5. 결론

본 논문은 기존의 저해상도 얼굴 인식의 성능을 향상시키는 최적화 알고리즘을 제안하였다. 제안한 방법은 영상의 크기에 따라 초고해상도 기법을 이용하였으며 HOG 특징 추출을 사용하였다. 특징들을 분류하여 얼굴을 인식하기 위하여 분류기로는 LDA를 사용하였다. 제안한 알고리즘을 AR 데이터와 Extended Yale B에 실험한 결과 저해상도 영상에 대한 얼굴 인식의 성능이 개선됨을 확인하였다.

References

  1. Y. Kim and J. Kim, "Development of Realtime Face Region Recognition System for City-security CCTV," Journal of Korea Multimedia Society, Vol. 13, No. 4, pp. 504-511, 2010.
  2. H. Moon and S. Pan, "Long Distance Face Recognition System Using the Automatic Face Image Creation by Distance," Journal of The Institute of Electronics and Information Engineers, Vol. 51, No. 11, pp. 137-145, 2014. https://doi.org/10.5573/IEIE.2014.51.11.137
  3. R.C. Gonzalez and R.E. Woods, Digital Image Processing, Prentice Hall Publishers, U.S.A., 2008.
  4. R. Keys, "Cubic Convolution Interpolation for Digital Image Processing," Journal of IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 29, No. 6, pp. 1153-1160, 1981. https://doi.org/10.1109/TASSP.1981.1163711
  5. Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, "Deep Networks for Image Superresolution with Sparse Prior," Proceedings of the IEEE International Conference on Computer Vision, pp. 370-378, 2015.
  6. Y. Zhang, Y. Tian, Y. Kong, B. Zhong, and Y. Fu, "Residual Dense Network for Image Super-resolution," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2472-2481, 2018.
  7. A. Krizhevsky, I. Sutskever, and G. Hinton, "Imagenet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems, pp. 1-9, 2012.
  8. X. Sun, W. Lu, R. Wang, and F. Bai, "Distilling with Residual Network for Single Image Super Resolution," arXiv Preprint arXiv:1907.02843, 2019.
  9. C. Dong, C. Loy, K. He, and X. Yang, "Image Super-resolution Using Deep Convolutional Networks," Journal of IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 38, No. 2, pp. 295-307, 2015.
  10. X. Mao, C. Shen, and Y.B. Yang, "Image Restoration Using Convolutional Auto-encoders with Symmetric Skip Connections," arXiv Preprint arXiv:1606.08921, 2016.
  11. S. Wold, K. Esbensen, and P. Geladi, "Principal Component Analysis," Journal of Chemometrics and Intelligent Laboratory Systems, Vol. 2, Issues 1, pp. 37-52, 1987. https://doi.org/10.1016/0169-7439(87)80084-9
  12. H. Li, T. Jiang, and K. Zhang, "Efficient and Robust Feature Extraction by Maximum Margin Criterion," Advances in Neural Information Processing Systems, pp. 1-18, 2004.
  13. N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection," IEEE Computer Society Conference on Computer Vision and Pattern Recognition Pattern Recognition, pp. 886-893, 2005.
  14. C. Corinna and V. Vapnik, "Support-vector Networks," Journal of Machine Learning, Vol. 20, No. 3, pp. 273-297, 1995.
  15. P. Belhumeur, J. Hespanha, and D. Kriegman, "Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, no. 7, pp. 711-720, 1997. https://doi.org/10.1109/34.598228
  16. P. Li, L. Prieto, D. Mery, and P. Flynnon, "Low-resolution Face Recognition in the Wild: Comparisons and New Techniques," Journal of IEEE Transactions on Information Forensics and Security, Vol. 14, No. 8, pp. 2000-2012, 2019. https://doi.org/10.1109/TIFS.2018.2890812