1. 서론
감성을 정의하는 대표적인 이론 중 차원 이론에 따르면 하나의 개별감성은 고유한 특징을 가진 존재이기보다 소수 차원의 조합으로 이루어진다[1]. 또한, 감성은 자극에 따라 발생하는 정신적, 심리적 상태로 인식된다. 따라서 감성은 심리적 상태를 유추할 수 있는 지표로 활용된다. 특히, 다양한 감성 중 부정 감성은 스트레스를 유발하고 주의집중력을 떨어뜨리는 요인이 된다[2]. 따라서 부정 감성을 인지하는 것은 위험 요소를 해결할 수 있는 시발점이므로 부정 감성의 분류는 매우 중요하다.
감성을 판별하기 위해 설문평가, 인터뷰 등 다양한 방법들이 사용된다[3]. 그러나 이러한 방법들은 개인의 주관적인 생각이 반영된다. 이러한 한계를 극복하기 위하여 외부 자극에 대한 객관적 반응을 나타내는 생체신호를 사용할 수 있다. 뇌파(EEG; Ele-croencephalogram), 심전도(ECG; Electrocardio-gram), 피부온도(ST; Skin Temperature), 피부전도도(GSR; Galvanic Skin Response) 등은 감성 분류 연구에 사용되는 대표적인 생체신호이다[4]. 뇌파는 중추신경계 신호로 정확도를 향상하는데 우수한 성능을 보이지만 전극 부착이 불편하다[5]. 이와 비교하여 ECG, ST, GSR는 자극에 대한 객관적인 변화를 나타냄과 더불어 전극 부착이 간편하다. 따라서 자율 신경계 기반의 다중 모달 생체신호의 사용은 감성 분류의 객관성을 유지하며 비교적 편리하게 생체신호 획득을 가능하게 한다. 그러나 생체신호는 미세 전류의 흐름으로부터 측정되기 때문에 움직임, 외부 환경 잡음 등에 민감하다[4]. 이러한 잡음의 영향을 최소화하기 위해서는 생체신호의 특성을 반영하는 특징을 추출하는 것이 중요하다. 추출된 생체신호 특징들은 감성 분류기의 입력으로 사용된다.
감성 분류의 성능을 높이기 위해서는 생체신호의 특징을 추출하는 것과 더불어 분류기의 설계가 중요하다. 감성은 복합적 생체 반응을 일으킨다. 복합적인 생체신호들을 해석하기 위해서는 비선형 연산이 필요하다. 최근 딥러닝이 다양한 분야에서 우수한 성능을 보이는 추세이며, 이를 감성 분류에 적용하면 고성능 분류기를 설계할 수 있다. 특히, DNN(Deep Neural Network), DBN(Deep Belief Network)은 CNN(Convolution Neural Network)과 같은 이미지 기반의 분류기와 다르게 특징 추출 기반 분류에 우수한 성능을 보인다[6].
본 연구는 감성 분류를 목적으로 한다. 특히, 주관적인 요소를 배제하고 객관적인 요소만을 사용하기 위하여 다중 모달 생체신호를 사용하였다. 또한, 복합적인 생체 반응을 해석하기 위하여 딥러닝을 적용한다. 이를 통해 최종적으로 다중 모달 생체신호를 통한 딥러닝 기반 감성 분류기를 설계하였다.
2. 실험 및 방법
2.1 데이터 획득
본 연구에서는 감성을 유발하기 위하여 시각 자극을 사용하였다. 사용한 시각 자극은 두 종류의 영상이다. 피험자는 기본감성 유도를 위한 다큐멘터리 영상인 ‘인간의 두 얼굴’과 부정감성을 유도하기 위한 공포 영화인 ‘Saw 3’를 시청하였다. 실험은 영상의 종류에 따라 두 번으로 나누어 진행하였다. 1차 실험에서는 15분 동안 피험자가 안정 상태를 유지하도록 한 후 60분 동안 다큐멘터리 영상을 시청하도록 하였다. 1차 실험이 끝나고 충분한 휴식을 취한 후, 2차 실험을 진행하였다. 2차 실험 역시 피험자가 15분 동안 안정 상태를 유지한 후, 60분 동안 공포 영상을 시청하도록 하였다.
피험자가 영상을 시청하는 동안 생체신호 데이터를 획득하였다. 피험자는 정신적, 신체적 질환이 없는 20대 남성 19명을 대상으로 하며, 실험 전 동의서를 작성하였다. 피험자의 생체신호는 BIOPAC MP 150TM 장비에서 1kHz로 샘플링하여 측정되었다. 측정된 생체신호는 ECG, ST, GSR이다. ECG 측정을 위하여 좌측 7번 늑골(+), 우측 쇄골 아래(-), 목 뒤(Ground)에 센서를 부착하였다. ST는 우측 겨드랑이 아래, GSR은 오른손 중지와 약지에 센서를 부착하여 생체신호를 획득하였다. 실험을 시작하기 전 움직임으로부터 생기는 센서 잡음을 최소화하기 위하여 피험자에게 실험 중 움직임을 자제하도록 지시 하였다. 측정된 생체신호는 5분을 기준으로 30초씩 움직이는 Sliding Window를 적용하여 특징 벡터 추출에 사용한다.
2.2 특징 추출
2.2.1 심전도
ECG는 자율신경계의 활성 정도를 정량적으로 평가하는 지표이다. ECG의 R 피크 정보로부터 심박변이도(HRV; Heart Rate Variability)를 계산할 수 있다. 심박변이도의 시간 영역에서 추출된 특징은 심박 변이도의 평균(Mean HRV), 표준편차(SDNN; the Standard Deviation of NN Intervals), 심박변이도의 제곱 합의 평균 값(RMSSD; the Square Root of the Mean Squared Difference of Successive NNs), 심박 변이도가 50ms 이상 차이가 나는 횟수(NN50; the Number of Pairs of Successive NNs that Differ by More Than 50ms)와 그 비율(pNN50; the Proportion Derived by Dividing NN50 by The Total Number of NN Intervals)이 있으며, 이는 수식 (1)-수식 (5) 로 나타낸다. 수식에서 Ri은 순서에 따른 R 피크 간격의 시간, N은 총 R 피크 간격의 개수를 의미하며 Count는 괄호 안의 조건을 만족할 때의 개수를 세는 것을 의미한다[7-9]
\(\operatorname{Mean} H R V=\sqrt{\frac{1}{N} \sum_{i=1}^{N}(R)^{2}}\) (1)
\(S D N N=\sqrt{\frac{1}{N-1} \sum_{i=1}^{N}\left(R_{i}-\operatorname{MeanHRV}\right)^{2}}\) (2)
\(R M S S D=\sqrt{\frac{1}{N-1} \sum_{i=1}^{N}\left(R_{i}-R_{i-1}\right)^{2}}\) (3)
\(N N 50=\operatorname{Count}\left(R_{i}>50 \mathrm{~ms}\right)\) (4)
\(p N N 50=\frac{N N 50}{N} \times 100 \%\) (5)
주파수 영역에서 추출된 특징은 저주파와 고주파 파워의 비(LF/HF; Ratio of Low Frequency Power and High Frequency Power), 0.003~0.4Hz 영역에서의 총 스펙트럼 파워(TP; Total Power), 0.15~0.4Hz 영역에서의 총 스펙트럼 파워의 정규화 값(nHF; Normalized High Frequency Power), 0.04~0.15Hz 영역에서의 총 스펙트럼 파워의 정규화 값(nLF; Normalized Low Frequency Power)이 있다[7-9]
2.2.2 피부온도
ST 역시 자율신경계의 영향을 받는 생체신호이다. ST는 50Hz로 Down-sampling 시킨 후, 잡음 제거를 위하여 저역 통과 필터를 이용하여 전처리하였다. ST에서 추출한 특징은 Sliding Window가 적용된 신호의 평균(Mean ST; Mean Skin Temperature))과 표준편차(SD ST; Standard Deviation of Skin Temperature)이다[10]
2.2.3 피부전도도
GSR은 교감신경에 영향을 받는 지표로 흥분상태에서 땀이 발생함에 따라 GSR가 증가한다. GSR은 Skin Conductance Response(SCR)를 나타내는 Phasic 성분과 Skin Conductance Level(SCL)을 나타내는 Tonic 성분으로 이루어져 있다. Phasic 성분은 자극에 따라 빠르게 진동하며 변화하는 성분을 나타내고, Tonic 성분은 체온 외 땀샘의 활성 정도를 나타낸다[11]. Phasic 성분과 Tonic 성분의 분리를 위해 이산 웨이블릿 변환을 이용한다. 분리된 Phasic 성분으로부터 추출된 특징은 영점교차율(ZC GSRP; Zero Crossing of Galvanic Skin Response for Phasic), 표준편차(SD GSRP; Standard Deviation of Galvanic Skin Response for Phasic)이다. Tonic 성분으로부터는 평균(Mean GSRT; Mean Galvanic Skin Response for Tonic), 표준편차(SD GSRT; Standard Deviation of Galvanic Skin Response forf Tonic), 진폭(Amp GSRT; Amplitude of Galvanic Skin Response for Tonic)을 특징으로 추출하였다[12].
2.2.4 특징 벡터 구성
본 연구에서는 영상 초반에는 감성의 유발이 어렵다고 가정하였다. 따라서 영상의 후반부에서 추출된 100개의 window 구간 신호를 사용하여 특징을 추출 하였다. 또한, 하나의 window 구간에서 추출되는 특징 벡터는 ECG에서 9개, ST에서 2개, GSR에서 5개로 총 16개로 구성된다. 최종적으로 한 피험자 당 기본감성에서 [100×16] 개의 특징 벡터, 부정감성에서[100×16] 개의 특징 벡터를 구성하여 총 [200×16] 개의 특징 벡터를 구성한다.
생체신호로부터 추출된 특징값들은 시간 영역, 주파수 영역 등 서로 다른 영역에서 추출된다. 또한, 비율의 계산을 통해 추출되는 특징들이 있다. 따라서 정규화 과정 없이 특징 벡터를 사용하는 경우, 특징 벡터의 특성에 따라 가중치에 영향을 줄 수 있다. 따라서 평균과 분산을 이용하는 z-score를 통하여 각각의 특징값을 정규화하였다. 정규화된 데이터는 70%는 Training에 30%는 Test에 사용한다.
2.3 분류기
2.3.1 Neural Network
Neural Network(NN)는 오류 역전파 알고리즘을 통해 학습되는 기본적인 방법의 분류기이다. 특히, NN은 복잡한 입력에 대해서도 충분한 학습 과정을 통하여 입력된 데이터를 분류한다[13]. 본 연구에서는 은닉 노드의 개수, 학습률 등 다양한 조건을 바꿔 가며 NN을 설계하였다. Fig. 1은 본 연구에서 제안한 NN의 구조를 보여준다. 최종적으로 설계된 NN은 16개의 은닉 노드를 가지며 batch size는 10, 학습률은 0.1, epoch는 200번, 시그모이드 활성 함수를 통해 학습된다.
Fig. 1. Proposed Neural Network.
2.3.2 Deep Neural Network
DNN는 NN을 깊게 쌓아놓은 구조이다. 특히, NN 에서 사용하는 시그모이드 활성 함수를 대신하여 Softmax, ReLU의 개념이 추가되어 기존 multi-layer NN의 한계를 극복한다[14]. 본 연구에서는 DNN의 설계를 위해 은닉층의 수, 은닉 노드의 개수, 학습률등 다양한 조건을 바꿔가며 optimum parameter를 설계하였다. Fig. 2는 본 연구에서 제안한 DNN의 구조를 보여준다. 설계된 DNN은 4개의 은닉층을 가지며 각 은닉층은 [64, 64, 32, 16]개의 은닉 노드를 가진다. 은닉층의 활성 함수는 ReLU, 출력층의 활성 함수는 softmax를 사용하며 batch size는 10, 학습률은 0.01, epoch는 50번으로 설정하여 학습을 진행하였다.
Fig. 2. Proposed Deep Neural Network.
2.3.3 Deep Belief Network
DBN은 DNN과 유사한 구조를 가진다. 그러나 DNN에서 사용하는 오류 역전파 알고리즘과 다르게 DBN은 층을 쌓는 초기 과정에서부터 가중치를 조정한다[15]. DBN은 Restricted Boltzmann Machine (RBM)을 다층으로 쌓아 올려 구성한다. RBM은 입력층의 확률 분포로부터 은닉층의 값을 추정하는 비교사학습을 진행한다. RBM의 학습이 모두 끝나면 오류 역전파 알고리즘을 사용하는 Fine-tuning 과정을 통해 최종적으로 분류기를 학습한다[16]. 본 연구에서는 DBN의 설계를 위해 은닉층의 수, 은닉 노드의 개수, 학습률 등 다양한 조건을 바꿔가며 opti-mum parameter를 설계하였다. Fig. 3은 본 연구에서 제안한 DBN의 학습 과정 및 최종 구조를 보여준다. 설계된 DBN은 2개의 은닉층을 가지며 각 은닉층은[16,8]개의 은닉 노드를 가진다. 또한, batch size는 10, 학습률은 0.1, epoch는 200번, 시그모이드 활성 함수를 통해 분류기를 학습한다.
Fig. 3. Proposed Deep Belief Network.
2.4 시스템 구성 및 구현
본 연구의 전반적인 시스템 구성은 Fig. 4와 같다. 먼저 감성 유발 시, 생체신호를 획득하기 위하여 실험을 진행하고, 실험 시 ECG, ST, GSR을 획득한다. 획득된 신호는 필터링, R-peak Detection과 같은 pre-procissing을 거치고, 이를 통하여 특징을 추출한다. 추출된 특징을 입력을 NN, DNN, DBN를 각각 training 학습하고, 학습된 분류기는 테스트 데이터를 통하여 평가한다. Fig. 4와 같이 구성된 시스템 중 특징 추출과 분류기는 matlab 2019와 제공되는 neural network toolbox 11.1을 통하여 구현하였다. Fig. 5는 실제 시스템상에서 구현된 분류기 중 DNN 이 학습되는 과정에서의 loss graph를 나타낸 예시이다. Fig. 5에서 볼 수 있듯이 DNN은 30 epoch에서부터 loss가 수렴하는 것을 확인할 수 있다. NN, DNN, DBN 모두 분류기의 loss가 수렴될 때까지 훈련되며 분류기들의 batch size 10으로 훈련되므로 epoch 당 반복 횟수는 266번이다. NN과 DBN은 epoch를 200으로 설정하였으므로 최대 반복 횟수는 53200, DNN은 epoch를 50으로 설정하였으므로 최대 반복 횟수는 13300이다. 시스템 구현 시 분류기의 훈련 시간은 최소 1분 30초에서 5분까지 소요된다.
Fig. 4. System Configuration.
Fig. 5. Graph of Training Loss.
2.5 평가방법
본 연구는 제안한 분류기를 평가하기 위하여 통계적 지표를 사용한다. TP(True Positive)는 공포 영상 을 보았을 때, 부정감성으로 분류한 경우, TN(True Negative)은 다큐멘터리 영상을 보았을 때 기본감성 으로 분류한 경우, FP(False Positive)는 공포 영상을 보았을 때, 기본감성으로 분류한 경우, FN(False Negative)은 다큐멘터리 영상을 보았을 때 부정감성 으로 분류한 경우를 나타낸다. 수식(6)-수식(10)은 각각 Accuracy, Sensitivity, Specificity, Precision, Negative Predictive Value(NPV)를 나타내며 TP, TN, FP, FN을 통해 계산한다[17].
\(\text { Accuracy }=\frac{T P+T N}{T P+F N+F P+T N}\) (6)
\(\text { Sensitivity }=\frac{T P}{T P+F N}\) (7)
\(\text { Specificity }=\frac{T N}{F P+T N}\) (8)
\(\text { Precision }=\frac{T P}{T P+F P}\) (9)
\(N P V=\frac{T N}{F N+T N}\) (10)
3. 결과 및 토의
3.1 추출된 특징
3.1.1 심전도
Fig. 6은 ECG로부터 추출된 특징을 보여준다. x축은 시간에 따른 sample, y축은 정규화된 특징 값을 나타내고, 파란 선은 기본감성, 빨간 점선은 부정감성을 나타낸다. Mean HRV, RMSSD, pNN50은 감성에 따라 특징에서도 차이가 나는 것을 확인할 수 있다. 특히, Mean HRV를 확인해보면 보통 기본감성인 경우보다 부정감성이 유도되는 경우 심박이 더 빠르게 뛰고 있음을 확인할 수 있다.
Fig. 6. Features Extracted from ECG.
3.1.2 피부온도
Fig. 7는 ST부터 추출된 특징이다. x축은 시간에 따른 sample, y축은 정규화된 특징 값을 나타내고, 파란 선은 기본감성, 빨간 점선은 부정감성을 나타낸다. ST는 전반적으로 부정감성에서 높게 나타난다. 또한, 기본감성이 유도될 때와 비교하여 부정감성이 유도될 때 ST 변화 정도가 큼을 확인할 수 있다.
Fig. 7. Features Extracted from ST.
3.1.3 피부전도도
Fig. 8은 GSR의 Phasic 성분과 Tonic 성분으부터 추출된 특징을 보여준다. x축은 시간에 따른 sample, y축은 정규화된 특징 값을 나타내고, 파란 선은 기본 감성, 빨간 점선은 부정감성을 나타낸다. GSR로부터 추출된 특징은 감성 간의 차이가 명확하게 나타나는 것을 확인할 수 있다. 특히, Mean GSRT를 통해 부정 감성에서 땀샘의 활성이 많아지는 것을 확인할 수 있고, SD GSRT와 Amp GSRT를 통해 변화의 폭도 큼을 알 수 있다. 또한, 자극의 정도가 큰 경우, GSR 는 빠르게 진동하게 되는데 ZC GSRP는 이를 보여주는 지표로서 부정감성에서 zero-crossing이 많이 일어나고 있음을 보여준다.
Fig. 8. Features Extracted from GSR.
3.2 분류기 성능 비교
Table 1은 NN, DNN, DBN의 성능 평가 지표이다. 부정감성 분류 정확도는 DBN을 사용한 경우 93.8%로 가장 높고, NN을 사용한 경우 88.1%로 가장 낮은 정확도를 가진다. Sensitivity와 Specificity 역시 DBN을 사용한 경우 각각 94.2%, 93.3%로 가장 우수한 성능을 가지며, NN을 사용한 경우 85.0%, 91.3%로 가장 낮은 성능을 보인다. 특히, NN을 사용한 경우 Sensitivity와 Specificity의 차이가 5% 이상으로 DNN과 DBN보다 크며 부정감성을 분류하는 오류가 다른 분류기에 비교하여 큰 것을 확인할 수 있다.
Table 1. Classification Performance according to Classifiers
3.3 생체신호에 따른 분류기 성능 비교
Table 2는 생체신호에 따른 NN, DNN, DBN의 성능 평가 지표이다. 부정감성 분류 정확도는 ECG, ST, GSR의 특징을 입력으로 하는 DBN을 사용하는 경우 93.8%로 가장 높다. 반면에 ST만 입력으로 하는 DBN을 사용하는 경우 정확도는 47.9%로 가장 낮으며 sensitivity는 0으로 부정감성을 모두 기본감성으로 분류하는 것을 알 수 있다. 특히, ST에서 추출한 특징을 단독으로 분류기의 입력으로 사용하는 경우, 모든 분류기에서 성능이 가장 낮다. ECG, ST, GSR의 신호를 각각 단독으로 사용하는 경우, GSR 에서 추출한 특징을 사용할 때 분류기의 정확도가 가장 높게 나타난다. 또한, ECG를 사용하는 경우에는 NN에서 72.6%로 가장 높은 정확도를, ST를 사용하는 경우에는 DNN에서 61.3%의 가장 높은 정확도를 GSR에서는 DBN에서 81.6%로 가장 높은 정확도를 가진다. 다음으로 두 개의 신호를 선택하는 경우 ECG 와 GSR의 조합이 DBN에서 91%로 가장 높은 성능을 보이며 이는 모든 신호를 쓴 NN보다 좋은 성능을 보인다. 이를 통해 생체신호와 분류기의 설계에 따라 분류기 성능이 변화하는 것을 알 수 있다. 또한, DBN 을 사용하는 경우 RBM을 통한 가중치 초기설정과 fine-tuning을 통한 분류기 학습이 분류기 성능향상에 중요한 역할을 하는 것을 확인할 수 있다.
Table 2. Classification Performance according to Bio-signal
4. 결론
본 논문은 감성 상태를 판별해주는 딥러닝 기반 분류기를 설계하는 데 목적이 있다. 따라서 다중 모달 생체신호로부터 특징을 추출하고 다양한 딥러닝 기법을 통해 감성 분류기를 설계하였다. ECG, ST, GSR로부터 추출된 특징을 기반으로 DBN을 사용하였을 때 정확도가 93.8%로 가장 높았다. 이는 NN을 사용한 경우보다 5.7%, DNN을 사용한 경우보다 1.4% 높은 정확도를 보인다. 또한, 단일 생체신호인 GSR만 사용한 경우보다 약 12.2% 높은 성능을 보이며, ECG와 GSR을 사용한 경우보다 2.8% 우수한 성능을 보인다. 이를 통해 DBN이 다른 딥러닝 분류기보다 우수한 성능을 가지는 것을 확인할 수 있으며 GSR이 부정감성을 분류하는 데 중요한 역할을 함을 확인할 수 있다.
본 연구에서 제안한 DBN 모델은 가중치의 저장이 가능하고, 학습이 끝난 후에도 fine-tuning 과정을 통해 분류기의 미세조정이 가능하다. 따라서 학습된 분류기 모델은 하드웨어, 소프트웨어 embedding에 적합하고, 추후 data 확장에 따른 update도 용이하다. 향후, 생체신호를 획득하면서 나타나는 movement noise 등의 outlier 제거, 유효한 특징 선택 연구를 통해 감성 분류기 성능을 향상할 수 있을 것으로 사료된다.
References
- G.Y. Liu and M. Hao, "Emotion Recognition of Physiological Signals based on Adaptive Hierarchical Genetic Algorithm," Proceeding of 2009 World Resources Institute World Congress on Computer Science and Information Engineering, pp. 670-674, 2009.
- C. Maaoui and A. Pruski, "Emotion Recognition through Physiological Signals for Humanmachine Communication," Cutting Edge Robotics 2010, IntechOpen, London, 2010.
- C.E. Izard, "Emotion Theory and Research: Highlights, Unanswered Questions, and Emerging Issues," Annual Review of Psychology, Vol. 60, pp. 1-25, 2009. https://doi.org/10.1146/annurev.psych.60.110707.163539
- J. Zhang, M. Chen, S. Hu, Y. Cao, and R. Kozma, "PNN for EEG-based Emotion Recognition," Proceeding of 2016 IEEE International Conference on Systems, Man, and Cybernetics, pp. 002319-002323, 2016.
- D.M. Shin, D. Shin, and D.K. Shin, "Development of Emotion Recognition Interface using Complex EEG/ECG Bio- signal for Interactive Contents," Multimedia Tools and Applications, Vol. 76, No. 9, pp. 11449-11470, 2017. https://doi.org/10.1007/s11042-016-4203-7
- L. Mirmohamadsadeghi, A. Yazdani, and J.M. Vesin, "Using Cardio-respiratory Signals to Recognize Emotions Elicited by Watching Music Video Clips," Proceeding of 2016 IEEE 18th International Workshop on Multimedia Signal Processing, pp. 1-5, 2016.
- B. Appelhans and L. Luecken, "Heart Rate Variability as an Index of Regulated Emotional Responding," Review of General Psychology, Vol. 10, No. 3, pp. 229-240, 2006. https://doi.org/10.1037/1089-2680.10.3.229
- U. Acharya, Rajendra, K.P. Joseph, N. Kannathal, L.C. Min, and J.S. Suri, Heart Rate Variability, Advances in Cardiac Signal Processing, Springer, Berlin, Heidelberg, pp. 121-165, 2007.
- J.E. Lee and S.K. Yoo, "Correlation Analysis of Electrocardiogram Signal according to Sleep Stage," Journal of Korea Multimedia Society, Vol. 21, No. 12, pp. 1370-1378, 2018. https://doi.org/10.9717/KMMS.2018.21.12.1370
- J. Zhai and A. Barreto, "Stress Detection in Computer Users based on Digital Signal Processing of Noninvasive Physiological Variables," Proceeding of 2006 International Conference of the IEEE Engineering in Medicine and Biology Society, pp. 1355-1358, 2006.
- K.C. Berridge, Pleasure, Pain, Desire, and Dread: Hidden Core Processes of Emotion, Well-Being: The Foundations of Hedonic Psychology, Washington, DC, 1999.
- M. Swangnetr and D.B. Kaber, "Emotional State Classification in Patient-robot Interaction using Wavelet Analysis and Statisticsbased Feature Selection," IEEE Transactions on Human-Machine Systems, Vol. 43, No. 1, pp. 63-75, 2013. https://doi.org/10.1109/TSMCA.2012.2210408
- D.R. Bach and K.J. Friston, "Model-based Analysis of Skin Conductance Responses: Towards Causal Models in Psychophysiology," Psychophysiology, Vol. 50, No. 1, pp. 15-22, 2013. https://doi.org/10.1111/j.1469-8986.2012.01483.x
- S.E. Kahou, C. Pal, X. Bouthillier, P. Froumenty, C. Gulcehre, R. Memisevic, et al., "Combining Modality Specific Deep Neural Networks for Emotion Recognition in Video," Proceedings of the 15th ACM on International Conference on Multimodal Interaction, 2013.
- H. Chen and A.F. Murray, "Continuous Restricted Boltzmann Machine with an Implementable Training Algorithm," IEEE Proceedings-Vision, Image and Signal Processing, Vol. 150, No. 3, pp. 153-158, 2003. https://doi.org/10.1049/ip-vis:20030362
- G.E. Hinton, S. Osindero, and Y.W. Teh, "A Fast Learning Algorithm for Deep Belief Nets," Neural Computation, Vol. 18, No. 7, pp. 1527-1554, 2006. https://doi.org/10.1162/neco.2006.18.7.1527
- I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, Massachusetts, 2016.