DOI QR코드

DOI QR Code

Face Recognition in Visual and Infra-Red Complex Images

가시광-근적외선 혼합 영상에서의 얼굴인식에 관한 연구

  • Kim, Kwang-Ju (Electronics and Telecommunications Research Institute) ;
  • Won, Chulho (Dept. of Biomedical Eng., Kyungil University)
  • Received : 2019.07.19
  • Accepted : 2019.08.07
  • Published : 2019.08.31

Abstract

In this paper, we propose a loss function in CNN that introduces inter-class amplitudes to increase inter-class loss and reduce intra-class loss to increase of face recognition performance. This loss function increases the distance between the classes and decreases the distance in the class, thereby improving the performance of the face recognition finally. It is confirmed that the accuracy of face recognition for visible light image of proposed loss function is 99.62%, which is better than other loss functions. We also applied it to face recognition of visible and near-infrared complex images to obtain satisfactory results of 99.76%.

Keywords

1. 서론

얼굴인식 기술은 얼굴을 포함하는 정지영상 또는 비디오에 대해 얼굴 영역의 자동적인 검출 및 분석을 통해 해당 얼굴에 대한 인물을 분류하는 기술로 패턴인식 및 컴퓨터 비전 분야에서 지속적으로 연구되는 분야이다. 최근에는 감시 시스템, 출입국관리, 생체인식 등과 같은 실제 환경에 적용되고 있다. 얼굴인식 기술은 다른 물체인식 기술대비 상대적으로 성숙된 기술로 높은 성능을 보인다고 알려져 있으나, 실제 환경에서 취득되는 얼굴 영상은 포즈 및 조명 변화, 원거리 촬영과 사람의 움직임에 의한 저 해상도 및 블러링 문제 등으로 인해 여전히 해결해야 할 문제가 많다. 딥러닝 기술의 발달에 힘입어 영상인식기술이 매우 빠른 속도로 발전하고 있는데 딥러닝 기술은 많은 수의 계층(layer)으로 구성된 깊은 신경망 구조에 대용량의 데이터를 학습시키는 기술이다.

비선형의 계층적 특정 학습능력은 사람의 인지 구조와 유사하다고 알려져 있으며 딥러닝 기술이 얼굴인식에 접목됨에 따라 다양한 데이터 환경에서 고성능의 얼굴인식이 기능하게 되고 사람의 인지수준을 능가하는 연구사례 또한 나타나고 있다. LBP(local binary patterns)[1] 등의 기존 전통적인 얼굴인식 기술에서는 주로 얼굴 영상에 대해 분별력 있는 특징을 추출하기 위한 기술과 추출된 특징에 대해 어떤 인물인지 판별하기 위한 분류모델이 사용되었다. 기존의 컴퓨터 비전 및 패턴인식 기술을 이용한 방법들은 실제 환경에서 얼굴 영상의 다양한 변화가 발생했을 때 학습에 사용된 데이터와 입력된 테스트 영상 사이의 불일치로 인해 성능이 매우 저하되는 것으로 알려져 있다. 딥러닝 기반 얼굴인식의 경우 와일드 환경에서도 얼굴인식 성능은 매우 높아지고 있고 사람의 인지 성능을 뛰어넘는 연구 사례도 나타나고 있다[2]. 최근 보안 및 공공 안전을 목적으로 하는 근적외선 CCTV 설치가 증가하고 있으며, 얼굴을 포함하는 영상은 촬영 시간과 설치 위치에 따라 변화하는 조명에 의해 영향을 받게 된다. 이러한 문제를 다루기 위해 조명변화에 강인한 특징 추출기법과 근적외선 및 가시광 영상의 이종 영상에 대한 얼굴인식 연구가 진행되었다[3].

본 논문에서는 얼굴인식의 성능을 높이기 위하여 클래스간 진폭 w를 도입하여 클래스간(inter-class)손실을 증가시키고 클래스내(intra-class) 손실을 감소시키는 손실함수를 제안하였다. 이 손실함수는 클래스간의의 거리는 증가시키고 클래스내의 거리는 감소시켜 최종적으로 얼굴인식의 성능을 향상시킨다. 제안한 손실 함수의 가시광 영상에 대한 얼굴인식 정확도가 99.62%로서 다른 손실함수보다 우수함을 확인하였다. 또한 이를 가시광-근적외선 복잡영상의 얼굴인식에 적용시켜 99.76%의 만족할 만한 결과를 얻었다.

2. 이론

2.1 CNN(Convolutional Neural Networks)에 관한 연구

Fig.1의 CNN(Convolutional Neural Networks)은 영상처리를 위해 고안된 특수한 연결구조를 가진다층신경망이다. 일반적인 다층신경망에서는 인접한 두 개의 층간의 뉴런들이 모두 연결된 완전 연결구조를 갖는다. 완전 연결 구조를 이용하면 이론적으로 입력 영상에 있는 위상학적 구조를 찾을 수는 있으나 현실적으로는 입력 영상이 다차원으로 이루어져 있기 때문에 문제 복잡도가 매우 크다는 문제가 있다. CNN은 영상의 위상학적 구조를 학습할 수 있는 신경망의 구조를 새롭게 설계한 것으로 영상으로부터 최소한의 전처리를 통해서 다양한 영상 인식에 사용할 수 있다.

MTMDCW_2019_v22n8_844_f0001.png 이미지

Fig. 1. Structure of CNN.

CNN은 기존의 패턴 인식 방식에서 특징 추출과 분류의 두 단계를 하나의 단계로 통합한 모델로 볼수 있다.CNN은 기본적으로 다수의 컨볼루션층과서브 샘플링층으로 구성되어 있다. 컨볼루션층은 입력에 대해서 다양한 컨볼루션 커널을 적용하여 특징맵(featuremap)을 생성한다. 컨볼루션은 고차원의 입력 영상에 대해서 특징을 추출하는 일종의 템플릿역할을 한다. 하나의 컨볼루션은 부분 입력을 대상으로 하며 위치를 바꾸어 가며 여러 번 반복적으로 적용되어 전체 이미지를 스캔한다. 하나의 컨볼루션은 적은 수의 연결선을 가지며 위치가 바뀌어도 그 연결가중치가 공유된다. 서브샘플링층은 만들어진 특징맵에 대해서 공간적 해상도를 줄인 뉴런층이다. 서브 샘플링은 차원을 축소하는 과정이며 이를 통해서 역시 문제의 복잡도를 줄일 수 있다. 서브샘플링 연산자로는 대상 뉴런들에 대해서 최대치를 취하는 맥스풀링 연산자나 평균치를 취하는 평균 풀링 연산자를 주로 사용한다. 풀링을 통해서 차원을 축소할 뿐만 아니라 특징맵이 이동과 왜곡에 대해 강인하도록 하는 효과가 있다.

①AlexNet

알렉스넷[4]은 초기 딥러닝 모델 중 하나로 컨볼루션 신경망 구조를 갖는다. 이 모델은 대규모 물체인식 콘테스트 (ImageNetLSVRC-2010)에서 2012년에 우승하였다.LSVRC (Large-Scale Visual Re-cognition Competition) 대회는 120만장의 영상을 1000개의 클래스로 구분하는 대회이다. AlexNet은 Top-5 에러율 17%를 달성하여 기존의 기록을 갱신하였다. 이는 딥러닝으로 기존의 컴퓨터 비전 기법들을 사용한 알고리즘들의 성능을 월등히 능가하였다는 점에서 후속 딥러닝 연구의 시초이다.

②GoogleNet (InceptionNet)

구글넷[5]은 22층의 CNN으로 인셉션 모듈이라는 빌딩 블록을 반복적으로 사용한다. 딥러닝은 층의 수와 각 층에 포함되는 노드의 수를 증가시킬수록 성능이 향상된다. 하지만 컴퓨팅 성능과 기억 용량의 한계 때문에 무조건 큰 신경망을 구성할 수 없다. 시각 처리를 위한 깊은 CNN의 경우 두 개의 층이 컨볼루션 연산으로 연결될 때 필터의 수를 균일하게 증가할 경우 계산량은 제곱으로 증가한다. 또한 큰 크기의망은 더 많은 수의 파라미터를 요구하기 때문에 과 다 학습될 가능성이 커진다. 구글넷 구조의 핵심은 제한된 계산 자원을 최대한 이용할 수 있는 신경망을 구성하는 것으로서 제한된 자원 내에서 망의 깊이와 폭을 증가시킬 수 있도록 하였다.

③ResNet

ResNet[6]은 잔여 학습(residuallearning)이라는 생소한 이름이 등장하고, 지름길 연결(shortcutcon-nection) 및 정체 매핑(identity mapping) 등 다른 CNN 구조에서 볼 수 없었던 구조가 사용되고 계층수도 152 계층으로 깊은 구조를 갖고 있다. 망이 깊어지게 되면 파라미터의 수가 비례적으로 늘어나게 되어 과적합(overfitting) 문제가 아닐지라도 오류가 커지는 상황이 발생한다.ResNet은 망을 100 계층 이상으로 깊게 하면서 깊이에 따른 학습 효과를 얻을 수 있는 잔여 학습이라는 기법을 제시하였다. 몇 개의 계층을 건너뛰면서 입력과 출력이 연결이 되기 때문에 정방향이나 역방향 경로가 단순해지는 효과를 얻을 수 있다.

2.2 CNN을 이용한 얼굴인식에 관한 연구

얼굴 인식의 경우 일반적인 물체 인식 딥러닝 방식이 적용되기 좋기 때문에 다양한 연구들이 발표되었다. 딥러닝 기반 얼굴 인식 알고리즘은 Face Book에서 2014년도에 발표한 DeepFace[7]이다. Face Book에서 자체 수집한 4백만 개의 얼굴 영상을 사용하여서 총 8계층으로 구성된 네트워크를 학습하고 이들을 복수 개 생성해서 병합함으로써 LFW에서 97.25%를 달성하여 인간 인식 수준인 97.53%와 유사한 결과를 얻을 수 있었다.2014년에 CVPR에서 발표된 DeepID1[8]의 경우는 DeepFace의 입력 해상도 152×152 화소보다 작은 39×31 화소를 사용하고 컨벌류션 계층도 작은 경량화된 CNN 기반 얼굴 인식기이다. 상대적으로 작은 입력 영상과 깊지 않은 네트워크 또한 적은 학습 데이터로 인하여 단일 네트워크에서는 DeepFace 보다 좋지 않은 성능을 보였지만얼굴 영역을 랜덤 크롭한 패치형태로 입력 영상을 다변화하였다. 이의 결과로 DeepFace보다 좋은 97.45%를 LFW(LabeledFacesintheWild)에서 달성하였다. Deep ID1에 이어서 성능을 개량한 DeepID2[9]는 DeepID1과 다르게 칼라 영상을 입력으로 사용하였고 입력 해상도도 39×31 화소에서 55×47 화소로 증가하였다. 소프트맥스 손실(softmaxloss)은 식별손실(identification loss), 유클리드 거리(Euclideandistance)를 이용한 손실 함수는 검증 손실(verifica-tionloss)로 가정하고 다중작업 학습기법을 제안하여 DeepID1보다 좋은 성능을 달성하였고 사용하는 패치를 25개로 낮출 수 있었다. 최종 성능은 Deep Face보다 좋은 98.97%를 LFW에서 달성하였다. 2.3 손실함수(loss function) 재정의에 관한 연구얼굴인식 딥 네트워크 구조에 대한 연구와 더불어최근에는 손실함수의 재정의를 통한 분별력 있는 특징을 학습하기 위한 거리척도 학습에 대한 연구가 수행되고 있다. 대표적으로 구글에서 발표한 Face Net에서는 동일한 인물에 대해 추출된 특징들 사이의 유클리드 거리가 다른 인물들로부터 추출된 특징들 사이의 유클리드 거리보다 작다는 트리 프렛(triplet loss)를 정의하여 딥 네트워크를 학습시켰다. Face Net 연구의 성공에 따라 초구체(hypersphere) 공간에서의 고차원의 영상 데이터 맵핑을 위한 추가 여유소프트맥스(additive margin softmax) 손실함수를 정의하여 학습을 수행하는 다양한 연구가 수행되었다. 이러한 손실함수를 재정의하는 것의 주요 목적은 동일 인물로부터 추출된 특징의 분산은 작게 하고 다른 인물로부터 추출된 특징의 분산은 크게 하는 것이다.

3. 제안한 손실함수

기존 소프트맥스 손실[10]을 대신하여 소프트맥스 손실의 가중치 정규화, 각도 마진(angular margin) 847설정, 추가 여유 소프트맥스 등 클래스간 마진을 설정하는 다양한 형태의 연구가 진행되고 있다. 소프트맥스 손실은 분류 목적에 가장 많이 사용되는 손실함수로서 다음 식 (1)과 같다.

\(L=-\frac{1}{m} \sum_{i=1}^{m} \log \frac{e^{W_{\mu}^{T} x_{i}+b_{\mu}}}{\sum_{j=1}^{n} e^{W_{j}^{T} x_{i}+b_{j}}}\)       (1)

소프트맥스 함수는 출력값이 0~1 사이의 실수값으로서 총합은 1이 되어 출력을 확률로 해석할 수 있어 분류 문제를 확률적으로 대응할 수 있다. 가중치 정규화(weights normalization)는 식 (2)와 같이L2 정규화[11]에 의해 가중치의 크기를 1로 고정한다.

\(L=-\frac{1}{m} \sum_{i=1}^{m} \log \frac{e^{\|x\| \cos \left(\theta_{n}\right)}}{e^{\|x\| \cos \left(\theta_{x}\right)}+\sum_{j=1, j \neq y_{i}}^{n} e^{\|x\| \cos \theta_{j}}}\)       (2)

각도 마진 함수[12]에서는 각도에 대한 곱셈 인자m을 도입하였으며 다음 식 (3)과 같이 정의된다.

\(L=-\frac{1}{m} \sum_{i=1}^{m} \log \frac{e^{\|x\| \cos \left(m \theta_{n}\right)}}{e^{\|x\| \cos \left(m \theta_{n}\right)}+\sum_{j=1, j \neq y_{i}}^{n} e^{\|x\| \cos \theta_{j}}}\)       (3)

θ는 특정 클래스의 가중치 벡터(weight vector)와 입력 벡터 x가 이루는 각도를 의미한다. θ가 크면클수록 거리가 멀다는 뜻이다. 여기서 m은 각도를 크게 하여 클래스 간의 거리를 증가시키는 의미이다. 추가 마진 소프트맥스[13]에서는 추가 마진 m이 cosθ 외부에 도입되는 형태이며 식 (4)와 같다.

\(L=-\frac{1}{m} \sum_{i=1}^{m} \log \frac{e^{s\left(\cos \left(\theta_{y}\right)-m\right)}}{e^{s\left(\cos \left(\theta_{u}\right)-m\right)}+\sum_{j=1, j \neq y_{i}}^{n} e^{s \cos \theta_{j}}}\)       (4)

여기서, 동일한 클래스에서 cosθ 값에서 m만큼차감하여 손실함수의 값을 감소시킴으로서 다른 클래스 간의 거리를 증가시키는 역할을 한다.

본 논문에서는 진폭 인자 w를 도입하여 클래스간(inter-class)의 거리는 증가시키고, 클래스내(intra-class)의 거리는 감소시키는 손실함수를 제안하였다.

\(L=-\frac{1}{m} \sum_{i=1}^{m} \log \frac{e^{s\left(\cos \left(\theta_{y}\right)-m\right)}}{e^{s\left(\cos \left(\theta_{u}\right)-m\right)}+\sum_{j=1, j \neq y_{i}}^{n} e^{s\left(w \cos \theta_{j}\right)}}\)       (5)

여기서, θ는 클래스의 분포를 나타내며, s는 경계의 진폭을 조절하는 파라미터다.w를 도입하여 다른 클래스의 진폭을 크게 함으로써, 클래스간의 손실 L을 증가시키고, 클래스 내의 손실 L을 감소시켜 결과적으로 얼굴인식 성능을 향상시킨다. Fig.2(b)는 제안한 손실함수로서 다른 클래스의 진폭을 증가시킴으로서 Fig.2(a) 보다 클래스 중심을 기준으로 클래스간의 거리가 증가됨을 볼 수 있다.

MTMDCW_2019_v22n8_844_f0002.png 이미지

Fig. 2. Decision boundary of (a) conventional loss (b) proposed loss.

4. 실험 결과

얼굴 인식을 위해 사용되는 데이터 세트로서 VGGFace 2와 CASIA-WebFace가 많이 사용되며 VGGFace 2의 인식률이 더 우수한 것으로 알려져 있으며, 실제 실험결과 VGGFace2의 인식률이 우수하여 본 실험에서 학습 데이터로서 VGGFace2를 사용하였다.

Fig.3의 VGGFace2는 학습 세트 8,631명 (3,141,890장), 테스트 세트 500명 (169,396장)으로 다양한 자세, 연령, 인종 및 직업으로 구성되어 있다.

검증을 위한 데이터 세트로서는 Fig.4의 LFW를 사용하였다. LFW 데이터 세트는 실제 환경에서 모아진 얼굴 데이터 세트이며 LFW 데이터 세트는 5,749명의 연예인의 웹 사진 13,323개로 구성되어 있다.10개의 군으로 나누어 각각 6,000개의 얼굴의 쌍으로 구성되어 있다. 기존에 제약된 환경에서 촬영하여 획득된 얼굴인식 데이터 세트와 비교했을 때 상대적으로 일상생활에서 나타나는 조명, 표정, 그리고포즈변화 등 다양한 변화가 포함되어 있기 때문에 얼굴인식 기술성능 검증을 위해 널리 활용되어 왔다. LFW 데이터 세트에는 한 명당 평균적으로 2.31장의 영상으로 구성되어 검증 영상 세트가 따로 존재하지 않기 때문에 얼굴식별보다는 얼굴검증 기술의 성능검증에 주로 활용되고 있다.

MTMDCW_2019_v22n8_844_f0003.png 이미지

Fig. 3 VGGFace2 data sets. 

MTMDCW_2019_v22n8_844_f0004.png 이미지

Fig. 4. LFW data sets.

얼굴인식을 위한 임베딩 피쳐의 학습을 위해서 VGGFace 2과 LFW 데이터 세트에 대한 얼굴 검출 및 정렬과정이 필요하다. 물체 겹침, 큰 자세 변화 및 조명 변화 등 다양한 상황에서 얼굴을 검출하고 정렬하기 위한 방법 중에 MT(Multi-Task)CNN[14]이 우수한 성능을 보이고 있으며 본 논문에서는 이를 사용하였다.

본 논문에서 사용한 CNN 모델은 Resnet을 기본으로 구성한 20개의 계층을 가지는 다층 구조의 Res Net-20[13] 모델을 사용하였으며 CNN 구조를 텐서보드를 이용하여 Fig.5에 보였다.

Fig.6에서 얼굴인식의 정확도의 수렴 과정을 보였으며 200,000회 반복에 99.62%의 정확도를 보였다. Fig. 4의 LFW 데이터 세트에 대한 얼굴인식 결과를 Table1에 보였으며 제안한 손실함수의 얼굴인식 정확도가 99.62%로서 가장 우수함을 알 수 있었다. 가시광/적외선 영상의 얼굴인식 실험에 사용된 영상은 40명에 대하여 동시간에 획득한 적외선 및 가시광 영상으로서 총 장수는 9,046장이며 가시광선 영상 4,610장, 적외선 영상 4,436장으로 구성되어 있으며 Fig. 7에 보였다. 랜덤 셔플링에 의해 학습 영상과 테스트 영상을 절반씩 나누어서 얼굴인식 실험을 실시하였다.

Fig.7의 가시광/적외선 영상을 MTCNN 기법을 이용하여 얼굴검출 후 112×96 화소의 영상으로 정규화하였으며, 이를 Fig.8에 보였다.

Fig.8의 영상의 가시광/적외선 혼합영상에 대한얼굴인식 결과를 Table 2에 보였으며 제안한 손실함수의 얼굴인식 정확도가 99.76%로서 가장 우수함을 알 수 있었다.

MTMDCW_2019_v22n8_844_f0005.png 이미지

Fig. 5. Structure of Resface20.

MTMDCW_2019_v22n8_844_f0006.png 이미지

Fig. 6. Accuracy curve of proposed loss.

Table 1. Accuracy comparison of loss functions in LFW data sets

MTMDCW_2019_v22n8_844_t0001.png 이미지

5. 결론

기존 가시광 카메라뿐만 아니라 근적외선 카메라를 이용한 CCTV 시설이 증가하고 있다. 주간의 가시광 영상과 야간의 근적외선 영상의 복합영상에 대한 얼굴인식이 매우 중요한 시점이라고 할 수 있다. 본 논문에서는 진폭 인자를 도입하여 클래스간의 거리는 증가시키고, 클래스내의 거리는 감소시키는 손실함수를 제안하였다. 다른 클래스의 진폭을 크게 함으로써, 클래스간의 손실을 증가시키고 클래스 내의손실을 감소시켜 반복적으로 수행되는 학습과정에서 얼굴인식 성능을 향상시킨다. 제안한 손실 함수를 사용했을 때 가시광 영상에 대한 얼굴인식 정확도가 99.62%로서 다른 손실함수보다 우수함을 확인하였다. 이를 가시광-근적외선 복합영상의 얼굴인식에 적용시켰을 때 인식 정확도가 99.76%로서 만족할 만한 결과를 얻었다.

Table 2. Accuracy comparison of loss functions in visual and infra-red images

MTMDCW_2019_v22n8_844_t0002.png 이미지

MTMDCW_2019_v22n8_844_f0007.png 이미지

Fig. 7. Visual and infra-red images.

MTMDCW_2019_v22n8_844_f0008.png 이미지

Fig. 8. Normalized images by MTCNN.

References

  1. H. Kang, K.T. Lee, and C. Won, "Learning Directional LBP Features and Discriminative Feature Regions for Facial Expression Recognition," Journal of Korea Multimedia, Vol. 20, No. 5, pp. 748-757, 2017. https://doi.org/10.9717/kmms.2017.20.5.748
  2. H.I. Kim, J.Y. Moon, and J.Y. Park, "Research Trends for Deep Learning-Based High-Performance Face Recognition Technology," Electronics and Telecommunications Trends, Vol. 33, No. 4, pp. 43-83, 2018. https://doi.org/10.22648/ETRI.2018.J.330405
  3. R. He, X. Wu, A. Sun, and T. Tan, "Learning Invariant Deep Representation for Nir-Vis Face Recognition," Proceeding of Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence, pp. 2000-2006, 2017.
  4. A. Krizhevsky, I. Sutskever, and G. Hinton, "Imagenet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems, Vol. 25, pp. 1106-1114, 2012.
  5. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S.E. Reed, and A. Rabinovich, "Going Deeper with Convolutions," Proceeding of 2015 IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-9, 2015.
  6. K. He, X. Zhang, S. Ren, and J. Sun, "Deep Residual Learning for Image Recognition," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, 2016.
  7. Y. Taigman, M. Yang, M. Ranzato, and L. Wolf, "DeepFace: Closing the Gap to Human-Level Performance in Face Verification," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 1701-1708, 2014.
  8. Yi Sun, X Wang, and X. Tang, "Deep Learning Face Representation from Predicting 10,000 Classes," Proceeding of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, pp. 1891-1898, 2014.
  9. Y. Sun, X. Wang, X. Tang, "Deep Learning Face Representation by Joint Identification-Verification," Proceedings of the 27th International Conference on Neural Information Processing Systems, Vol. 2, pp. 1988-1996, 2014.
  10. X. Liang, X. Wang, Z. Lei, S. Liao, and S.Z. Li, "Soft-Margin Softmax for Deep Classification," Proceeding of International Conference on Neural Information Processing, pp. 413-421, 2017.
  11. R. Ranjan, C.D. Castillo, and R. Chellappa, "L2-Constrained Softmax Loss for Discriminative Face Verification," arXiv preprint arXiv:1703.09507, 2017.
  12. W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, L. Song, et al., "Sphereface: Deep Hypersphere Embedding for Face Recognition," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6738-6746, 2017.
  13. F. Wang, W. Liu, H. Liu, and J. Cheng, "Additive Margin Softmax for Face Verification," IEEE Signal Processing Letters, Vol 25, Issue 7, pp. 926-930, 2018. https://doi.org/10.1109/LSP.2018.2822810
  14. K. Zhang, Z. Zhang, Z. Li, and Y. Qiao., "Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks," IEEE Signal Processing Letters, Vol. 23, Issue 10, pp. 1499-1503, 2016. https://doi.org/10.1109/LSP.2016.2603342