A research on the emotion classification and precision improvement of EEG(Electroencephalogram) data using machine learning algorithm

Lee, Hyunju;Shin, Dongil;Shin, Dongkyoo;

doi:10.7472/jksii.2019.20.5.27

인터넷정보학회논문지 (Journal of Internet Computing and Services)

제20권5호
/
Pages.27-36
/
2019
/
1598-0170(pISSN)
/
2287-1136(eISSN)

한국인터넷정보학회 (Korean Society for Internet Information)

DOI QR Code

기계학습 알고리즘에 기반한 뇌파 데이터의 감정분류 및 정확도 향상에 관한 연구

A research on the emotion classification and precision improvement of EEG(Electroencephalogram) data using machine learning algorithm

Lee, Hyunju (MILAB, Sejong University) ;
Shin, Dongil (Dept. Computer Engineering, Sejong University) ;
Shin, Dongkyoo (Dept. Computer Engineering, Sejong University)

Received : 2019.04.07
Accepted : 2019.09.18
Published : 2019.10.31

https://doi.org/10.7472/jksii.2019.20.5.27 Citation PDF KSCI HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

Abstract

본 연구에서는 공개된 뇌파 데이터인 DEAP(A Database for Emotion Analysis using Physiological Signals) 데이터 세트를 활용한 감정분류 분석 및 정확도 향상에 대한 실험을 진행하였다. 실험에는 32명에 대한 32개의 뇌파측정 채널 데이터가 모두 사용되었다. 전처리과정에서는 뇌파 데이터에 대한 256Hz 샘플링작업을 진행하였고, 유한 임펄스 응답 필터를 사용하여 주파수 대역별로 쎄타(4-8Hz), 슬로 알파(8-10Hz), 알파(8-12Hz), 베타(12-30Hz), 감마(31-45Hz) 파형에 대한 데이터를 추출하였다. 추출한 데이터는 시간-주파수 변형을 통하여 데이터의 상태를 구분한 후에, 독립성분분석방법을 통해 잡음(Artifact)을 제거하여 데이터를 정제했다. 도출된 데이터는 분류기 기계학습 알고리즘 실험을 시행할 수 있도록 CSV 파일로 변형 하였으며, 감정분류에는 Arousal-Valence 평면을 사용하였다. 감정은 "긍정적(Positive)", "부정적(Negative)" 이외에 평온한 상태로 존재하는 "중립적(Neutral)"의 3가지 상태로 분류하였다. 정확도를 개선하기 위해서 랜덤 포레스트(Random Forest) 알고리즘에 속성 선택적 분류기(Attribute Selected Classifier: ASC) 방식에 의해 선택된 속성을 적용하여 실험하였다. 정확도는 "각성(Arousal)" 부분에서 Koelstra의 결과보다 "32.48%" 높은 결과가 도출되었고, Liu의 실험의 "정서가(Valence)"와 비교해보면 ASC(Random Forest) 결과가 "8.13%" 더 높은 결과를 도출하였다. 정확도를 개선하기 위해 ASC 방식을 적용한 랜덤 포레스트 분류기 실험결과에서는 전체평균을 기준으로 기존 연구 결과와 대비하여 "2.68%" 높은 정확도가 도출되었다.

In this study, experiments on the improvement of the emotion classification, analysis and accuracy of EEG data were proceeded, which applied DEAP (a Database for Emotion Analysis using Physiological signals) dataset. In the experiment, total 32 of EEG channel data measured from 32 of subjects were applied. In pre-processing step, 256Hz sampling tasks of the EEG data were conducted, each wave range of the frequency (Hz); Theta, Slow-alpha, Alpha, Beta and Gamma were then extracted by using Finite Impulse Response Filter. After the extracted data were classified through Time-frequency transform, the data were purified through Independent Component Analysis to delete artifacts. The purified data were converted into CSV file format in order to conduct experiments of Machine learning algorithm and Arousal-Valence plane was used in the criteria of the emotion classification. The emotions were categorized into three-sections; 'Positive', 'Negative' and 'Neutral' meaning the tranquil (neutral) emotional condition. Data of 'Neutral' condition were classified by using Cz(Central zero) channel configured as Reference channel. To enhance the accuracy ratio, the experiment was performed by applying the attributes selected by ASC(Attribute Selected Classifier). In "Arousal" sector, the accuracy of this study's experiments was higher at "32.48%" than Koelstra's results. And the result of ASC showed higher accuracy at "8.13%" compare to the Liu's results in "Valence". In the experiment of Random Forest Classifier adapting ASC to improve accuracy, the higher accuracy rate at "2.68%" was confirmed than Total mean as the criterion compare to the existing researches.

Keywords

1. 서론

뇌에서 발생하는 전기적인 신호를 뇌파(EEG, Electro-encephalogram)라고 하며, 뇌파는 사람의 생각이나 감정을 가장 현실적인 방법으로 취득하여 해석하고 분석할 수 있는 유용한 정보원이다[1]. 뇌파는 음성인식 이후에 사람과 사람, 사람과 사물, 사람과 컴퓨터 간에 편리하고 가장 자연스러운 초연결(Hyper-Connection) 접속과 통신을 가능하게 하는 유력하고 궁극적인 수단이다[1].

본 연구에서는 뇌파의 감정 부분을 추출한 공개된 데이터인 DEAP 데이터세트(A Database for Emotion Analysis using Physiological Signals)[2]를 활용하였다. DEAP 데이터세트[2]는 총 32명의 참가자의 데이터로, 32개의 뇌파전극 포인트를 갖는다. 실험과정은 EEGLAB[3]을 활용한 전처리과정과 WEKA[4]를 활용한 분류기 알고리즘 정확도 도출과정이 있다.

전처리과정은 4장 4.1절에서 설명하였고, 실험 알고리즘에 대한 설명은 4.2.2절에서 설명하였다. 그리고 도출된 정확도 결과는 5장의 실험결과에 나열하였다.

본 연구는 뇌파 데이터를 추출하고, 추출한 아날로그 데이터를 수치화한 데이터로 변환하여 분류기 실험을 통해 기존의 실험보다 우수한 정확도를 도출하는 것이 목적이다.

2. 뇌파 신호 파형

뇌파(EEG, Electroencephalogram)는 뇌의 전기적인 활동을 머리 표면에 부착한 전극에 의해 비침습적으로 측정한 전기신호를 말한다.

(표 1) 뇌파 신호 파형(Table 1) EEG wave

OTJBCD_2019_v20n5_27_f0001.png 이미지

(그림 1) 국제 10-20 전극 배치법 표기(Figure 1) 10-20 International Nomenclature

국제 10-20 전극 배치 시스템은 뇌파 신호의 측정을 위해 국제적으로 인정되고 있는 두피 위치와 측정점으로 전극의 위치와 대뇌피질 영역의 관계에 기반하여 결정되었다. 그림 1[5]은 국제 10-20 전극 배치법 표기를 Suwicha[5]의 연구에서 참조하였다. 뇌파 신호는 통상 125-1000Hz로 샘플링하며, 측정목적에 따라 조금씩 다르지만 최대주파수의 2배 수준인 200Hz나 500Hz를 사용한다. 전처리 필터는 0.01-200Hz 대역을 사용하고, 유한 임펄스 필터를 사용한다.

사건 유발전위(ERP, Event Related Potential)의 측정 시에는 (0.01-1)Hz-(15-30)Hz, 뇌파 해석 시에는 (0.01-1) Hz-100Hz를 사용하며, 사용 전원(50 또는 60Hz) 잡음 제거를 위해서는 노치 필터(Notch Filter)를 사용한다.

3. 본론

3.1 전체 실험구조

본 실험에서는 공개된 뇌파 데이터 세트인 DEAP 데이터 세트[2]를 사용하여, 감정분류 및 기계학습 알고리즘을 활용한 정확도 실험을 진행하였다. 전체적인 실험의 진행 과정은 그림 2에서 제시하고 있으며, 총 2단계의 과정을 거친다. 첫 번째 단계는 전처리과정(Pre-processing)이며, 원본 뇌파 데이터를 처리하는 단계를 설명한다. 먼저 읽어 들인 뇌파 데이터(Total 32_bdf)를 뇌파 채널만 남기고 다른 주변부 채널들을 삭제한다. 앞의 과정을 거치면 총 32개의 뇌파 데이터만 남으며, 해당 뇌파 데이터를 256Hz로 샘플링(Sampling) 한다. 그리고 샘플링한 데이터를 유한 임펄스 응답 필터(Finite impulse response filter)를 활용하여 주파수대역별(Hz)로 뇌파 파형(Brain wave)을 도출한다. 본 실험에서 도출한 뇌파 파형은 표 2에 제시하였다.

(그림 2) EEG Testing 전체 실험구조(Figure 2) The structure of EEG Testing

(표 2) 도출된 뇌파 파형(Table 2) Extraction of EEG wave

OTJBCD_2019_v20n5_27_t0002.png 이미지

본 실험에서는 기존 연구[6-7]에서 도출한 파형과 동일한 파형을 추출하여 실험하였다. 기존 연구와의 차이점은 감마 파형을 [6-7]에서는 (30-47Hz) 대로 추출하였는데, 본 실험에서는 (31-45Hz)대로 기존보다 적은 주파수대로 추출한 점이다.

추출된 파형은 시간-주파수 분석(Time-frequency transform)을 사용하여 잡음을 제거하였고, 마지막으로 독립성분분석(ICA, Independent Component Analysis)을 사용하여 인공산물(Artifact)을 제거하였다.

두 번째 단계에서는 전처리과정의 마지막 과정인 독립성분분석을 거친 데이터를 수치화된 데이터의 값으로 출력하였다. 출력된 데이터는 32개의 채널을 앞서 설명한다섯 개의 파형(쎄타, 슬로 알파, 알파, 베타, 감마)의 수치화된 값이다. 다섯 개의 파형은 각각 독립적으로 32개의 채널의 수치화된 값을 갖고, 다섯 개의 파형은 32채널x5의 값을 가지므로 총 160개의 채널 값으로 구성된다. 그리고 CSV(Comma separated values) 데이터는 수치화된 값들을 종합하여 속성값으로 나열한 데이터를 의미한다. CSV 데이터는 앞서 설명한 160개의 채널 데이터 속성값과 5개의 정서적인(Affective) 데이터 속성값으로 구성된다. 정서적인 데이터에 관한 설명은 3.2절에 제시되어 있다.

정서적인 데이터는 감정분류에 사용되는 각성(Arousal), 정서가(Valence), 우성(Dominance), 애호(Liking)와 감정 상태를 구분한 감정(Emotion)을 의미한다. 그러므로 총 165개의 속성값을 가진 CSV 데이터를 기계학습 알고리즘으로 실험하였고, 실험에 사용된 기계학습 알고리즘은 랜덤 포레스트(Random Forest)와 속성 선택적 분류기(Attribute Selected Classifier: ASC) 이다.

3.2 Arousal-Valence 평면과 감정분류방법

Arousal-Valence 평면에서는 각각의 감정 상태가 각성과 정서가로 2차원 평면에 놓일 수 있다. 정서가는 감정의 긍정 혹은 부정적인 정도를 나타낸다. 가령 공포의 경우는 매우 부정적인 정서가를 가지며, 지루함이나 흥분감은 중간 정도의 정서가를, 행복이나 편안함은 긍정적인 정서가를 가진다.

각성과 정서가는 대부분의 감정적인 상태의 변화를 설명하지만, 그것의 통제 또는 우성의 세 번째 차원과 네 번째에는 예측 불가능한 다른 차원이 추가되어야 한다[9]. 따라서 우성은 이 감정이 당사자가 주체적으로 느끼는 감정인지 아닌지를 나타내는 개념이 된다. 예를 들면, 분노와 공포는 둘 다 부정적인 정서가와 높은 각성을 가지고 있지만, 분노는 당사자가 주체가 되는 감정인 데 반해공포는 당사자가 다른 요소에 의해 수동적으로 느끼게 되는 감정을 얘기한다.

하단의 그림 3은 Valenza[10]가 제시한 좌측의 그림으로 Arousal-Valence 평면의 일반적인 모형으로 각각이 사분면에서 주로 도출되는 네 가지의 감정인 행복(Happy), 우측의 그림은 각각의 사분면의 위치에서 각성과 정서가의 값에 따른 높음(High), 낮음(Low)의 상태를 보여준다. Feld man[11]은 정서가의 초점과 각성의 초점으로&ld quo;NA(Negative Affect)”와 “NP(Negative Positive)”의 개별적인 차이를 예측할 수 있다고 하였다. NA는 부정적인 가치가 높은 각성 감정과 한쪽 끝에서 긍정적(Positive)으로 가치가 있고, 낮은 흥분(Excited) 감정으로 고정된다. PA는 한쪽으로는 긍정적으로 가치가 있고 높은 각성 감정을 가지며, 다른 한쪽에서는 부정적(Negative)으로 가치가 있고, 낮은 흥분 감정으로 고정되어 있다[11].

본 실험에서는 DEAP 데이터 세트 연구에서 제시한 각성과 정서가의 수치화된 값을 가지고 감정 상태를 분석하였다. 그림 3을 살펴보면 1 사분면의 정서가는 긍정적인 상태를 나타내는데, 반대편 2 사분면은 부정적인 상태를 나타낸다. 따라서 본 실험에서는 가운데 5점을 기준으로 정서가의 수치가 어느 사분면에 속하는지에 따라서 데이터의 감정 상태를 “긍정적(Positive)”과 &ld quo;부정적(Negative)&rd quo;으로 분류하였다. 그리고 긍정도 부정도 아닌 중립적인 상태인 “중립적(Neutral)”은 기준채널인 &ld quo; Cz(Central zero) 채널“의 채널통계(Channel Statistics) 값의 표준편차(Standard deviation) 값의 근사치 값들(ex. 1-5 사이의 값들)을 추정하여 구성하였다.

OTJBCD_2019_v20n5_27_f0003.png 이미지

(그림 3) Arousal-Valence 평면(Figure 3) Arousal-Valence plane

3.3 실험데이터

본 연구에서는 DEAP 데이터 세트에서 공개한 데이터 중에서 Data_original을 사용하여 실험을 진행하였다. Data_original [2]은 원본 데이터를 추출한 것으로, 32개의 BDF(BioSemi's data format) 파일로 구성되어있다. BDF파일은 각각의 48개의 추출된 채널과 512Hz로 샘플링되었으며, 48개의 채널은 32개의 뇌파 채널과 12개의 주변부의 채널 및 3개의 사용되지 않는 채널 그리고 1개의 상태를 나타내는 채널로 구성된다. 데이터는 분리된 두 장소에서 취득되었다. 참가자 1-22번의 데이터는 네덜란드의 Twente 대학에서 취득하였고, 23-32번 참가자의 데이터는 스위스의 Geneva대학에서 취득되었으며, 뇌파 채널이름은 국제 10-20 전극시스템에 따라 명명하였다[2].

따라서 본 연구에서는 DEAP 데이터 세트에서 제시한총 48개의 채널 중에서 뇌파 32개 채널을 선택하여 실험을 진행하였다. 그리고 데이터 분석 및 추출 작업은 EEGLAB[3]을 활용하여 시행하였다. 본 실험에서 도출한 뇌파 파형은 표 2에서 제시한 쎄타, 슬로 알파, 알파, 베타, 감마로 DEAP 데이터 세트의 연구에서 정의한 파형과 같다. 본 실험에서는 감마 파형을 기존 연구보다 짧은 주파수 대역인 (31-45Hz)대로 추출하였다. 감마파의 경우는 현재의 기준으로는 (30-50Hz)의 범위를 갖는데, 베타파와의 범위가 겹치지 않도록 31Hz대에서 시작하였으며, 50Hz대 전인 45Hz대와 47Hz대는 큰 차이가 없다고 고려하여, (31-45Hz)대로 설정하였다. DEAP 데이터 세트 연구에서는 슬로 알파파를 추가로 도출하였다. 슬로 알파를추가로 도출한 이유는 이전 연구에서는 보통 베타(Beta)파에서 흥분, 스트레스, 긴장 등의 감정이 유발된다고 하였는데[8], 이를 상세히 관찰해보기 위해서 그 전에 발생하는 알파(Alpha)파를 전과 후로 나뉘어 분석해 보았다고 사려된다.

4. 실험 방법

4.1 데이터 전처리

Data_original(BDF) 데이터[2]는 앞서 설명한 EEGLAB[3]을 활용하여 데이터 전처리를 진행하였다. 그림 4는 본 실험에서 진행한 전처리 과정(Pre-processing)을 도식화하였다. 본 실험에서는 채널은 총 32개의 뇌파 채널만을 사용하며, 그 외의 페이스 채널과 접지 채널 등의 16개 채널은 모두 제거하였다. 32개의 채널은 256Hz로 샘플링(Sampling) 하였고, 샘플링한 데이터는 유한 임펄스 필터를 활용하여, 주파수 분석(Hz) 작업을 통해 쎄타, 슬로 알파, 알파, 베타, 감마 파형을 추출하였다.

EEGLAB[3]에서는 표준전처리 방법으로 유한 임펄스 응답 필터와 무한 임펄스 응답 필터(Infinite impulseresponse filter) 외에 기타 다양한 필터를 제공한다. 유한임펄스 응답 필터는 추정 시점 근처의 유한한 정보만을 사용하기 때문에 기본적으로 무한 임펄스 응답 필터의 필터보다 강인한 특성을 가지며, 특히 추정 오차의 발산문제에 대한 문제를 근원적으로 해결할 수 있다[11]. 추출한 데이터는 Clean_Line 메뉴를 사용하여 주변의 잡다한신호(Noise signal)들을 제거하고, 시간-주파수 변환을 통하여 데이터의 상태를 구분하였고, 마지막으로 독립성분분석 방법을 통해 잡음들을 제거하여 데이터를 정제하였다.

독립성분분석은 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하는 계산 방법이다. 각 성분은 비가우스 성 신호로서 서로 통계적 독립을 이루는 성분으로 구성되어있으며, 블라인드 신호(BSS, Blind sourceseparation)를 분리하는 특별한 방법이다. 뇌파 기록에는 안구 운동에 의한 잡음(Ocular artifacts), 뇌 활동(Brainactivity), 두피 근육 운동(EMG-activity), 그리고 전극 부착부위 이동(Mechanical electrode displacement)에 따른 영향 등 각각의 여러 독립된 신호들이 혼합되어 나타나며, 이는 부착된 전극의 수, 시간 및 표본 수에 따라 영향을 받게 된다. 이러한 혼합된 자료들이 영역화, 분리를 거쳐 성분별로 분리가 가능하게 되는 것이다[13]. 그러므로 독립성분분석은 위에서 설명하였던 잡음들과 눈 움직임(Eye Movement), 근육의 움직임(Muscle Movement) 등의 잡다한 신호들을 제거하는 역할을 한다.

본 실험에서는 DEAP 데이터 세트[2]의 총 32명의 32개 뇌파 채널을 모두 사용하여 실험하였다. 그림 4는 앞서 설명한 전처리과정을 포함한 실험과정을 나타낸 것이다. 본 실험에서는 독립성분분석 과정을 거친 데이터를 수치화된 데이터로 저장하고, 저장한 데이터를 다시 CSV데이터로 변형하여 기계학습 알고리즘으로 분류 실험을 진행하였다.

(그림 4) 실험과정(Figure 4) Processing of Experiment

4.2 실험환경

실험 알고리즘은 랜덤 포레스트(Random Forest: RF), 속성 선택적 분류기(Attribute Selected Classifier: ASC)를 활용하였으며, WEKA(Waikato Environment for Knowledge Analysis)[4]를 사용하여 실험을 진행하였다. 그림 5는 실험과정을 순서도로 나타내었다. 실험은 EEGLAB[3]을 활용한 단계인 1단계와 속성 선택적 분류기 및 랜덤 포레스트를 사용한 2단계로 나누어진다.

(그림 5) 랜덤 포레스트(Figure 5) Random Forest

2단계 실험에서 제시한 ASC(RF)는 속성 선택적 분류기(ASC)에 랜덤 포레스트(Random Forest)를 적용한 것을 의미한다. 적용한 알고리즘으로 10-fold-Cross-validation을 시행하여 정확도를 도출한다. 실험결과는 데이터의 속성값 중에서 감정(정서적인 데이터)을 의미하는 속성 중에서 “중립적(Neutral)” 값에 따라서 정확도의 차이가 있다.

4.2.1 시스템 환경

DEAP 데이터세트[2]의 시스템 환경은 전용 레코딩PC(Bio-semi Active Two system 4)에서 EEG 데이터를 취득하였고, 하드웨어 환경은 팬티엄 4(3.2GHz)이다. 본 실험에서의 하드웨어 환경은 프로세서 AMD Rade on R7(4.1GHz), 윈도우 10 운영체제 64bit, 메모리 32GB에서 진행하였다. CSV 데이터를 실험한 소프트웨어는 EEGLAB(v14.1.2) [3]을 실행하기 위한 매틀랩(R2017b)과 WEKA(3.9.3) [4]에서 진행하였다.

4.2.2 실험 알고리즘

4.2.2.1 랜덤 포레스트 (Random Forest)

랜덤 포레스트(Random Forest)는 의사결정트리(Decision Tree) 분류기를 위해 특별히 설계된 앙상블 기법이다. 랜덤 포레스트 분류기는 배깅(Bagging)[14]의 고급 버전으로 임의성이 추가되었으며, 트리구조 분류기의 모음으로 설명될 수 있다.

각 노드에서 입력 특징 N개를 무작위로 선택함으로써새로운 특징을 생성할 수 있다. 입력 특징들은 {1, 5} 범위에서 균일한 분포로 생성된 계수들을 사용하여 선형으로 조합된다. 각 노드에서 이처럼 임의로 조합된 새 특징들 F가 생성되고, 그들 중 가장 우수한 특징이 노드의 분할을 위해 선택된다. 이 방법을 포레스트-RC라 부른다[15]. 무작위 트리를 생성하는 또 다른 방법은 의사결정트리(Decision Tree)의 각 노드에서 F개의 최선의 분할 중 하나를 임으로 선택하는 것이다. 이 방법은 F가 충분히 크지 않다면 포레스트-RI와 포레스트-RC보다 상관관계가큰 트리들을 생성할 가능성이 있다. 알고리즘이 의사결정트리의 각 노드에서 모든 분할 특징들을 모두 조사하여야 하므로, 포레스트-RI나 포레스트-RC에 비하여 실행시간을 단축할 수 없다[15].

(그림 6) 랜덤 포레스트(Figure 6) Random Forest

4.2.2.2 속성 선택적 분류기를 활용한 랜덤 포레스트 적용

본 실험에서는 상관관계에 의한 속성 부분집합 선택(CFS, Correlation-based Feature Subset Selection)[16]을 활용하였다. 속성 부분집합 선택 후에 분류 알고리즘은 랜덤 포레스트를 사용하여 정확도를 측정하였다. 특징 선택(Feature Selection)은 데이터의 차원을 줄이고, 중요하지 않은 불필요한 데이터 특징을 제거하는 역할을 한다[17]. 대부분의 데이터 집단은 많은 수의 속성을 포함하기 때문에 정확도 결과가 좋지 않을 수도 있으므로 최상의 결과를 얻기 위해서는 특징선택(Feature Selection)이 매우 중요하다[17]. 특징선택(Feature Selection) 프로세스는 분류기에 사용할 속성을 결정할 뿐 아니라, 각각의 결정을 내리는데 사용된 시간 및 샘플의 수와 이들을 입력한 시계열에 대한 전처리변환도 수행한다[17]. 속성의 조합 찾기는 1) 속성의 부분집합(Subset)을 선택하고, 2) 클래스를 배우고, 3) 클래스 구조를 평가함으로써 구성[18]된다. 속성 조합 찾기는 사례에 따라서 향후의 분류에 대한 정확도가 개선될 수 있고, 그 외의 결과들이 더 치밀하고 쉽게 분석될 수 있도록 표현할 수 있다[16].

속성 부분집합 선택에서 사용되는 휴리스틱 검색전략(Heuristic Search)은 특징 부분집합(Feature Subsets)의 공간에서 만일 특징 선택(Feature Selection) 알고리즘이 다수의 특징을 갖는 데이터에 대해 연산한다면 합리적인 시간제약이 필요하기 때문에 사용된다[16]. 최상위 검색(Best-First Search)은 특정 규칙에 따라 선택된 가장 최적의 노드를 확장하여 그래프를 탐색하는 검색 알고리즘이다 [16]. 최상위 검색(Best-First Search)은 전체공간 즉 모든 특징을 탐색하므로 정지기준을 사용하는 것이 일반적이다. 상관관계에 의한 속성 부분집합 선택(CFS, Correlation-based Feature Selector) 방식은 휴리스틱 평가함수에 기반한 상관관계에 따라서 특징 집합의 순위를 간단한 필터 알고리즘으로 처리한다. 평가함수는 클래스와 높은 상관관계가 있거나 서로 상관관계가 없는 경우에 그들의 특징을 포함하는 부분집합에 관한 것이다[16]. 그림 7은 앞서 설명한 속성 선택적 분류기 알고리즘을 나타내었다.

OTJBCD_2019_v20n5_27_f0007.png 이미지

(그림 7) 속성 선택적 분류기 알고리즘(Figure 7) Algorithm of Attribute Selected Classifier

5. 실험결과

기존 실험과 본 실험에서는 정서적인(감정) 속성 부분인 각성(Arousal), 정서가(Valence), 우성(Dominance), 애호(Liking)를 각각의 클래스로 지정하였을 때의 정확도 결과를 도출하였다. 따라서 실험결과는 기존의 실험결과와 본 실험결과의 전체 정확도를 비교·분석하였다.

5.1 랜덤 포레스트 (Random Forest)

(표 3) 랜덤 포레스트 실험결과(Table 3) Result of Random Forest

OTJBCD_2019_v20n5_27_t0003.png 이미지

표 3은 랜덤 포레스트(Random Forest)를 활용한 전체 32개 데이터의 실험결과 평균을 나열한 것이다. 실험은 전체 32개 실험데이터를 사용하여, 정서적인 네 가지의 속성(Valence, Arousal, Dominance, Liking)을 각각의 클래스로 지정하였을 때 도출된 정확도를 측정하였고, 제시한 ACC(Accuracy)는 전체 실험결과에 대한 평균값을 나타낸 것이다.

5.2 속성 선택적 분류기 (랜덤 포레스트: Random Forest)

(표 4) 속성 선택적 분류기 실험결과(Table 4) Result of ASC

OTJBCD_2019_v20n5_27_t0004.png 이미지

표 4는 속성 선택적 분류기(Attribute Selected Classifier: ASC)를 사용하여 랜덤 포레스트(Random Forest: RF)를 적용한 정서적인 네 가지의 속성의 클래스별로 전체 32개 데이터의 실험결과를 나열한 것이다. 제시한 ACC(Accuracy)는 전체 실험결과에 대한 평균값을 나타낸 것이다.

5.3 랜덤 포레스트와 속성 선택적 분류기의 정확도 비교

표 5는 랜덤 포레스트(RF)만을 적용하여 실험한 결과와 속성 선택적 분류기(ASC)에서 랜덤 포레스트를 적용한 결과(ASC(RF))를 제시하였다.

(표 5) RF와 속성 선택적 분류기(RF) 실험결과(Table 5) Result of RF and ASC(RF)

OTJBCD_2019_v20n5_27_t0005.png 이미지

실험결과를 살펴보면 속성 선택적 분류기를 적용한 랜덤 포레스트 결과가 기존의 랜덤 포레스트만을 적용했을 때보다 “2.68%” 높은 결과를 도출하였음을 알 수 있다.

5.4 기존 연구와의 정확도 비교

5.4.1 DEAP 데이터 세트 연구와의 정확도 결과 비교·분석

Koelstra[6-7]는 256Hz로 샘플링을 시행하였고, 전처리 작업에서는 대역 통과 필터(Band-pass filter)를 사용하여,표 6에서 제시한 쎄타, 슬로 알파, 알파, 베타, 감마의 파형을 각각의 주파수대역별(Hz)로 추출하였고, 에너지 스펙트럼 밀도(Power Spectral Density)와 Common spatial pattern (CSP)을 사용하여 특징추출을 시행하였다. 그리고 가우시안 나이브 베이즈 분류기(Naive Bayes Classifier G)를 활용하여 정확도를 도출하였다. Koelstra는 분석한 데이터의 특징을 각성(Arousal), 정서가(Valence), 애호(Liking)의 모달리티(Modality) 만으로 분류하여 실험하였다.

실험결과를 살펴보면 본 실험(Our Study)의 속성 선택적 분류기(Attribute Selected Classifier: ASC)를 적용한 랜덤 포레스트(Random Forest: RF)의 결과는 각성(Arousal)은&ld quo;38.24%&rd quo;, 정서가(Valence)는 “33.02%”, 애호(Liking)는&ld quo;37.33%&rd quo;로 Koelstra의 실험보다 높은 결과를 도출하였다. 기존 Koelstra의 실험보다 우수한 결과를 도출하게 된 것에는 전처리과정에서의 독립성분분석 방법의 적용 및 알고리즘 선택에 있다고 사려된다.

(표 6) Koelstra의 결과와 본 실험결과(Table 6) Result of Koelstra and Our Study

5.4.2 Bimodal Deep Auto-Encoder(BDAE)의 결과

Liu [19] 외의 두 명의 저자는 전처리과정에서 에너지 스펙트럼 밀도(Power Spectral Density)를 사용하여 특징 추출을 시행하였다. 그리고 분류기 실험에서는 Bimodal Deep Auto-Encoder(BDAE) 방법을 사용하였다. 분석한 데이터의 특징을 각성(Arousal), 정서가(Valence), 우성(Dominance), 애호(Liking)의 모달리티(Modality)로 분류하여 실험하였고, Liu 또한 이전 연구와 정확도를 비교·분석하였다.

(표 7) Liu의 결과와 본 실험결과(Table 7) Result of Liu and Our Study

OTJBCD_2019_v20n5_27_t0007.png 이미지

표 7을 살펴보면 본 실험의 속성 선택적 분류기(Attribute Selected Classifier: ASC)를 적용한 랜덤 포레스트(Random Forest: RF)의 결과가 각성(Arousal)은 Liu[19]의 결과보다&ld quo; 13.98%&rd quo;가 높았고, 정서가(Valence)는 “8.13%”, 애호(Liking)은 “37.33%”, 우성(Dominance)은 “11.93%”로 Liu의 실험보다 높은 결과를 도출하였다. 본 실험의 결과가 Liu의 결과보다 높은 데에는 전처리과정에서의 차이가 있다고 사려된다.

6. 결론

본 연구에서 제시된 속성 선택적 분류기(Attribute Selected Classifier: ASC)를 활용한 랜덤 포레스트(Random Forest: RF)의 결과를 이전 연구결과와 비교·분석하였다. 먼저 DEAP 데이터 세트[2]를 구성하고 실험한 Koelstra [6-7]의 실험과 비교해보면 나이브 베이즈의 결과는 각성(Arousal)의 결과를 제외하고는 본 실험의 정확도가 랜덤 포레스트는 정서가(Valence)는 “2.73%”가 높았고, 애호(Liking)는 “1.6%” 높은 결과를 보였다. 그리고 ASC(Random Forest)와의 결과는 각성(Arousal)은 “38.24%”, 정서가(Valence)는 “33.02%”, 애호(Liking)는 “37.33%”로 Koelstra의 실험보다 높은 결과를 도출하였다.

두 번째 비교·분석한 Liu[19]의 Bimodal Deep Auto-Encoder (BDAE) 방법으로 실험하였는데, 본 실험의 ASC(Random Forest)와 실험결과를 비교·분석하였다. 실험결과는 본 실험의 결과가 각성(Arousal)은 Liu의 결과보다&ld quo; 13.98%&rd quo;가 높았고, 정서가(Valence)는 “8.13%”, 애호(Liking)는 “37.33%”, 우성(Dominance)은 “11.93%”로 Liu의 실험보다 높은 결과를 도출하였다. 본 실험에서 제시한 결과가 기존의 두 연구보다 정확도가 우수한 데에는 전처리과정 및 알고리즘의 선택에 있다고 사려된다. 현재뇌파 신호를 활용한 기술은 보건 및 의료분야 외에도 본 연구에서 다루었던 감정 부분과 유사한 감성 ICT 기술이 있다[1].

감성 ICT 기술은 뇌파 이외에도 다른 생체신호(심전도, 근전도)를 활용하며, 사람의 감정 상태를 생체기반 감정인지 기술과 외부에서의 영상이나 음성신호를 해석하여 인지하는 기술로 설명된다. 그중에서 뇌파를 활용한 기술은 기계학습 알고리즘에 의한 인지기술이 있다. DEAP 데이터 세트는 유튜브 동영상을 활용하여 감정유도를 시행하였는데, 향후에는 한정된 동영상 외에 다양한 멀티미디어 매체와 기타 게임을 활용한 감정유도 방법이 시행되어야 한다. 그리고 취득된 뇌파 데이터의 감정을 인지 및 분류기 실험을 위한 기계학습 알고리즘에 관한 연구도 시행되어야 한다.

References

D.Y. Kim, J.H. Lee, M.H. Park, Y.H. Choi, Y.O. Park, "Trends in Brain Wave Signal and Application Technology," Electronics and telecommunications trends, vol. 32, no. 2, pp. 19-28, 2017. http://www.ndsl.kr/ndsl/search/detail/article/articleSearchResultDetail.do?cn=JAKO201752055796148
DEAP Dataset : http://www.eecs.qmul.ac.uk/mmv/datasets/deap/
EEGLAB : https://sccn.ucsd.edu/wiki/EEGLAB
WEKA : https://www.cs.waikato.ac.nz/ml/weka/
J. Suwicha, S. P. Ngum, and P. Israsena, "EEG-Based Emotion Recognition Using Deep Learning Network with Principal Component Based Covariate Shift Adaptation," The Scientific World Journal, Hindawi Publishing Corporation, pp. 1-10, 2014. http://dx.doi.org/10.1155/2014/627892
R. A. L. Koelstra, "Affective and Implicit Tagging using Facial Expressions and Electroencephalography," Queen Mary University of London, 2012. http://www.sanderkoelstra.nl/media/documents/Thesis_final_RAL_Koelstra.pdf
S. Koelstra, C. Muhl, M. Soleymani, J. S. Lee, A. Yazdani, T. Ebrahimi, T. Pun, A. Nijholt, and I. Patras, "DEAP: A Database for Emotion Analysis; Using Physiological Signals," IEEE Transactions on Affective Computing, vol. 3, no. 1, pp. 1-15, 2012. https://www.eecs.qmul.ac.uk/mmv/datasets/deap/doc/tac_special_issue_2011.pdf https://doi.org/10.1109/T-AFFC.2012.9
H. J. Lee, D. I. Shin, and D. K. Shin, "The Classification Algorithm of Users' Emotion Using Brain-Wave," J-KICS, vol. 39C, no. 2, pp. 122-129, 2014. https://doi.org/10.7840/kics.2014.39c.2.122
J. R. J. Fontaine, K. R. Scherer, E. B. Roesch, and P. C. Ellsworth, "The World of Emotions is not Two-Dimensional," Psychological Science, vol. 18(12), pp. 1050-1057, 2007. https://doi.org/10.1111/j.1467-9280.2007.02024.x
G. Valenza, L. Citi, A. Lanata, E. P. Scilingo, and R. Barbieri, "Revealing Real-Time Emotional Responses: a Personalized Assessment based on Heartbeat Dynamics," Science Reports, no. 4998, pp. 1-13, 2014.
L. A. Feldman, "Valence Focus and Arousal Focus: Individual Differences in the Structure of Affective Experience," Journal of Personality and Social Psychology, vol. 69, no. 1, pp. 153-166, 1995. https://psycnet.apa.org/doi/10.1037/0022-3514.69.1.153
S. K. Han, B. K. Kwon, and S. H. Han, "An Extended Finite Impulse Response Filter for Discrete-time Nonlinear Systems," Journal of Institute of Control, Robotics and Systems(South Korea), vol. 21(1), pp. 34-39, 2015. https://www.nature.com/articles/srep04998 https://doi.org/10.5302/J.ICROS.2015.14.0110
Y. S. Sim, S. H. Choi, and I. K. Lee, "Eyeball Movements Removal in EEG by Independent Component Analysis," Korean journal of clinical neurophysiology, vol. 3, no. 1, pp. 26-30, 2001. http://www.koreascience.or.kr/article/JAKO200127362964102.view
L. BREIMAN, "Random Forests," Machine Learning, vol. 45, pp. 5-32, 2001. https://link.springer.com/article/10.1023/A:1010933404324
Pang Ning Tan, Michael Steinbach and Vipin Kumar, "Introduction to Data Mining," Addison-Wesley, pp. 283-285, 2007.
M. A. Hall, "Correlation-based Feature Selection for Machine Learning," Ph.D, Waikato University, Department of Computer Science, Hamilton, New Zealand, 1999.
J. F. Murray, G. F. Hughes, and K. Kreutz-Delgado, "Machine Learning Methods for Predicting Failures in Hard Drives: A Multiple-Instance Application," Journal of Machine Learning Research, vol. 6, pp. 783-816, 2005.
S. Zander, T. Nguyen, and G. Armitage, "Automated Traffic Classification and Application Identification using Machine Learning," LCN '05 Proceedings of the IEEE Conference on Local Computer Networks 30th Anniversary, 2005. https://doi.org/10.1109/LCN.2005.35
W. Liu, W. L. Zheng, and B. L. Lu, "Multimodal Emotion Recognition Using Multimodal Deep Learning," Proceedings of the 23rd International Conference on Neural Information Processing, Springer-Verlag Berlin Heidelberg, vol. 9948, pp. 521-529, 2016. https://arxiv.org/abs/1602.08225

Cited by

뉴럴네트워크를 이용하여 EEG Data의 기저질환 유무 분류 vol.18, pp.12, 2020, https://doi.org/10.14400/jdc.2020.18.12.279

인터넷정보학회논문지 (Journal of Internet Computing and Services)

기계학습 알고리즘에 기반한 뇌파 데이터의 감정분류 및 정확도 향상에 관한 연구

A research on the emotion classification and precision improvement of EEG(Electroencephalogram) data using machine learning algorithm

Abstract

Keywords

1. 서론

2. 뇌파 신호 파형

3. 본론

3.1 전체 실험구조

3.2 Arousal-Valence 평면과 감정분류방법

3.3 실험데이터

4. 실험 방법

4.1 데이터 전처리

4.2 실험환경

4.2.1 시스템 환경

4.2.2 실험 알고리즘

4.2.2.1 랜덤 포레스트 (Random Forest)

4.2.2.2 속성 선택적 분류기를 활용한 랜덤 포레스트 적용

5. 실험결과

5.1 랜덤 포레스트 (Random Forest)

5.2 속성 선택적 분류기 (랜덤 포레스트: Random Forest)

5.3 랜덤 포레스트와 속성 선택적 분류기의 정확도 비교

5.4 기존 연구와의 정확도 비교

5.4.1 DEAP 데이터 세트 연구와의 정확도 결과 비교·분석

5.4.2 Bimodal Deep Auto-Encoder(BDAE)의 결과

6. 결론

References

Cited by

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)