Automatic Extraction Techniques of Topic-relevant Visual Shots Using Realtime Brainwave Responses

Kim, Yong Ho;Kim, Hyun Hee;

doi:10.9717/kmms.2016.19.8.1260

Journal of Korea Multimedia Society (한국멀티미디어학회논문지)

Volume 19 Issue 8
/
Pages.1260-1274
/
2016
/
1229-7771(pISSN)
/
2384-0102(eISSN)

Korea Multimedia Society (한국멀티미디어학회)

DOI QR Code

Automatic Extraction Techniques of Topic-relevant Visual Shots Using Realtime Brainwave Responses

실시간 뇌파반응을 이용한 주제관련 영상물 쇼트 자동추출기법 개발연구

Kim, Yong Ho (Dept. of Mass Communications, College of Humanities and Social Sciences, Pukyong National University) ;
Kim, Hyun Hee (Dept. of Library and Information Science, College of Humanities, Myongji University)

김용호 ;
김현희

Received : 2016.05.14
Accepted : 2016.07.22
Published : 2016.08.30

https://doi.org/10.9717/kmms.2016.19.8.1260 Citation PDF KSCI KPUBS HTML

Download PDF

⟨ Previous Next ⟩

Abstract

To obtain good summarization algorithms, we need first understand how people summarize videos. 'Semantic gap' refers to the gap between semantics implied in video summarization algorithms and what people actually infer from watching videos. We hypothesized that ERP responses to real time videos will show either N400 effects to topic-irrelevant shots in the 300∼500ms time-range after stimulus on-set or P600 effects to topic-relevant shots in the 500∼700ms time range. We recruited 32 participants in the EEG experiment, asking them to focus on the topic of short videos and to memorize relevant shots to the topic of the video. After analysing real time videos based on the participants' rating information, we obtained the following t-test result, showing N400 effects on PF1, F7, F3, C3, Cz, T7, and FT7 positions on the left and central hemisphere, and P600 effects on PF1, C3, Cz, and FCz on the left and central hemisphere and C4, FC4, P8, and TP8 on the right. A further 3-way MANOVA test with repeated measures of topic-relevance, hemisphere, and electrode positions showed significant interaction effects, implying that the left hemisphere at central, frontal, and pre-frontal positions were sensitive in detecting topic-relevant shots while watching real time videos.

Keywords

1. 서 론

영상물은 기하급수적으로 증가하고 있으며, 이용자들은 필요한 영상물에 접근하는 데에 어려움을 겪고 있다. 영상물 요약은 이러한 요구에 부응하여 전체 영상물 길이를 줄여 만든 축약본으로 이용자들이 검색시스템을 통하여 필요한 영상물을 효율적으로 이용하는 데 매우 중요한 메타데이터 요소이다[1].

영상요약은 내재적(internal) 요약과 외재적(external) 요약으로 구분된다[2-3]. 내재적 요약은 영상물에 포함된 이미지와 오디오, 문자나 자막 등 영상물 자체의 정보만을 이용하여 자동적으로 요약물을 생산하는 방식이다. 뉴스영상물의 일반적인 형태를 예로 들어 보자. 뉴스영상은 뉴스룸에 앉아있는 앵커(들)의 모습을 담은 화면으로 시작한다. 자막으로 헤드라인뉴스 소개를 시작하면서 그날의 전체적 흐름을 간단히 소개한 다음 개별 뉴스꼭지들을 하나씩 다룬다. 연결되는 뉴스꼭지들의 중간에 앵커의 연결 발언(bridge ments)이 이어지고 뉴스말미에 앵커의 마무리 발언(closing ments)이 덧붙는다. 뉴스영상의 요약물은 이러한 뉴스영상물의 분야지식을 이용하여, 뉴스꼭지들 중간에 등장하는 앵커의 연결발언을 주제로 잡고, 이 앵커발언의 사운드 지속시간과 내용에 부합하는 뉴스꼭지의 영상물 쇼트들을 결합하는 방식으로 제작된다[4].

분야지식을 이용하는 영상요약의 다른 예로 스포츠영상을 들 수 있다. 스포츠영상의 요약에서 중요 사건 확인과 의미요약을 위해 특히 오디오에 관한 분야지식이 중요하다. 예를 들면 축구경기에서 감독의 휘슬 소리, 흥분한 해설자의 목소리, 골장면에서의 관중 환호성과 야유 등은 프리킥, 페널티킥, 파울이나 골(goal)과 같은 중요한 사건들을 식별할 수 있게 한다[5]. 이외에도, 영상물의 대사가 드러내는 피치를 식별하여 대사인물의 감정을 추론하는 음성인식기술은 대사내용에는 없는 새로운 의미정보로 활용되기도 한다. 생방송 인터뷰장면의 현장인물의 이름이나 직업 등의 문자정보는 자막이나 그래픽 화면이 영상물의 성격을 드러내는 결정적인 정보일 수 있다[6]. 하지만,스포츠영상이나 뉴스영상과 달리 다큐멘터리나 교육 영상은 구조화되어 있아 분야지식을 활용하기 어렵고, 내재적 요약에 제약이 따른다.

내재적 요약은 그 비약적인 발전에도 불구하고 ‘의미 격차’(semantic gap) 문제가 있다. 영상물 요약의 내재적 방식은 구체적인 이미지나 사운드를 처리하는 수준의 분석단위에서 주제나 의미를 기술적으로 추론한다. 하지만,, 이 추론된 주제나 의미는 실제 영상물 이용자들이 시청하면서 그 영상물의 내용을 기억하고 추론하는 추상적인 주제나 의미 내용과는 사뭇 다르다는 점이 꾸준히 관찰되었다[2-3,7-8]. 바로 이 때문에 이용자들이 영상물을 어떻게 요약하는지를 제대로 이해하는 것이 매우 중요한 문제이다.

영상물 요약은 영상물 전체의 주제를 의미론적으로 요약해 내야 한다. 영상물 요약은 지각 수준에서 시청자의 관심을 끄는 이미지와 사운드를 식별해 내는 과정에 그치지 않는다. 이미지나 사운드가 감각적이라 해도 주제 관련성이 낮으면 영상물 요약에서 중요성이 떨어지기 때문이다. 효율적인 영상물 요약에 있어서 주제탐색의 의미처리 과정이 중심에 위치하므로, 이미지와 사운드 그 자체로 요약에서 차지하는 비중은 부차적이다. 의미 처리의 결과로 파악되는 주제는 이미지와 사운드의 지각 처리 수준을 넘어 영상추론의 의미 처리 과정을 거치면서 드러난다.

우리가 주변환경을 관찰하고 주변환경의 변화에 맞추어 적절히 대응하는 과정에서 우리 눈과 귀 등의 오감기관을 통하여 입력되는 주변환경의 중요한 신호에 주목하고 이를 처리하여 감각정보 보다 한 단계 위에서 이들의 의미를 파악하고 그에 대응하는 일관적 인지체계가 필요하다[9]. 영화나 애니메이션과 같은 서사영상물의 주제를 파악하기 위해서 두 가지의 인지적 정보처리과정이 요구된다고 알려져 있다[10-11]. 첫째는 영상물의 이미지와 사운드를 처리하는 지각처리과정이다. 둘째는 여러 다른 채널을 통해 입력된 지각정보의 처리결과들을 서로 비교하는 한편, 이미 머릿속에 자리하고 있는 기억이나 잠재적 주제 내용과 대조하는 주제처리과정이다. 이러한 두 개의 다른 층위를 연결하는 정보처리과정으로서 영상적 추론이 중요하다.

그간 ERP를 이용하는 그림 자극의 주제관련성 연구들은 나름의 한계를 보였다[12-13]. 예를 들면, [12]는 주제관련성을 너무 추상적으로 다루는 경향이 있었다. 주제를 단어로 제시하고 이 주제를 준거로 후속 이미지들의 주제관련성을 묻는 방식이다. 이들 연구들은 앞서 지적한 주관적 영상추론의 결과인 주제과 주제관련성 판단의 준거로 제시된 단어형태인 주제 사이의 의미 격차 문제가 전혀 고려되지 않았다. 그림을 준거로 사용하는 경우에는 주로 그림의 기억 테스트가 사용되었다[13]. fMRI(functional magnetic resonance imaging)을 이용하여 비디오 시청시 대뇌반응을 체계적으로 관찰하려는 시도도 있었다[14]. 하지만 fMRI는 초단위로 이루어지는 변화를 보이므로, 천분의 1초(ms) 단위의 짧은 시간대 내에서 이루어지는 대뇌 활성화 정도를 추적하기에 부적합하다. 실시간 동영상을 이용한 ERP 분석 연구는 매우 드물게 시도되고 있을 뿐이다. 그마저도 ERP분석이 요구하는 자극제시 시작점 통제의 엄밀성 때문에 영상물 시청중 계속 되는 쇼트 단위의 주제관련성 연구는 시도된 적이 없다. 단어나 문장을 이용한 언어학 연구에서 꾸준히 검증되었던 N400과 P600 효과론이 정지화면이나 동영상을 이용한 연구에도 응용되어 왔으며, 결과는 약간 다른 모습을 보여 왔다. 본 연구는 화면에 실시간으로 계속 제시되는 동영상 쇼트들에 대한 시청자의 뇌파를 측정하고 이 뇌파자료에 대해 ERP 방식의 N400과 P600 효과 분석을 시도하였다.

본 연구는 외재적 영상물 요약의 일환으로 뇌파측정기술(electro-encephalography, EEG)과 유발전위차(Event Related Potentials, ERP)분석기법을 응용하여, 비디오 이용자들이 다큐멘터리 영상물을 실시간으로 시청하면서, 영상물의 이미지, 오디오 및 문자정보를 어떻게 지각처리하고, 영상물 전체의 주제를 어떻게 요약하는지를 조사함으로써 자동영상요약의 알고리듬에 대한 기초 자료를 제공하는 데 있다.

2. 이론적 배경

2.1 단어 자극에 대한 N400과 P600 효과 연구

영상요약이 성공적이기 위해서는 시청자의 주관적 판단이 중요하다. 시청자의 입장에서 주제관련성이 높은 영상 요소들이 영상요약을 구성하여야 한다. 하지만 주제 자체가 고도로 주관적이기 때문에 주제 관련성을 판단하기 위한 준거에 대한 스스로의 인지적 노력과 이를 새롭게 유입되는 영상물의 다양한 요소들과 대조하고 통합하는 주제처리 과정은 매우 복잡할 것으로 생각된다. 자연언어처리에 관심을 보여 온 언어학 연구들에서는 시간 순서에 따라 순차적으로 제시되는 단어들이 지향하는 문장전체로서의 주제나 문법과 의미론 또는 맥락에 따른 특정한 기대에 배치되는 단어가 제시된 때의 반응을 통하여 많은 연구들이 진행되어 왔다[15-16]. 특히 이 문제는 일련의 제시된 단어들을 해독하는 데 관여하는 온라인 처리과정에 관한 ERP 분석을 통해 많은 연구들이 수행되었다[17-18].

먼저 N400의 예를 들어 보자. 피험자에게 ‘A type of fish’(물고기의 종류)라는 문단을 보여준 후 ‘dolphin’(돌고래) 단어를 보여주면 피험자들은 돌고래가 물고기가 아니라고 판단할 것이다. ‘A type of fish’의 지각처리 결과, 피험자는 물고기 중의 한 종류를 기대하며 이러한 기대에 맞지 않는 돌고래가 제시될 때 피험자는 이 불일치에 대해 N400을 보인다고 알려져 있다. 만일 ‘salmon’(연어)가 제시되면 피험자의 머릿속은 이 새로운 정보를 기존의 ‘A type of fish'와 의미적으로 통합하는 과정에서 P600을 보인다고 설명한다. 맥락갱신이론에서 N400은 기대하지 않은 단어나 이미지의 출현에 대한 뇌파 반응으로 간주하며, P600은 처리에 어려움이 있는 자극정보를 처리하기 위한 인지적 노력을 반영하는 뇌파반응으로 간주한다.

2.2 그림 자극에 대한 N400과 P600 효과 연구

단어 자극을 이용한 연구의 결과와 유사하게 새롭게 제시된 그림 자극의 의미가 이미 제시된 그림 자극들의 의미와 일치하지 않을 때에 N400과 P600이 관찰되었다[10]. 앞선 그림들의 의미와 부합하지 않는 그림을 제시한 때에 이 시간대에서 부적인 방향의 최저치 피크가 관찰되었다. 이러한 효과들은 이야기를 전달하는 그림들을 순차적으로 제시하는 경우에도 관찰되었다. 단어를 주로 다루는 언어학의 N400보다 이미지를 다루는 경우들에서 약간 빨라지는 N300 경향을 보였다[19]. 전극위치의 활성화 범위에 있어서도 약간의 차이가 관찰되었다. 언어 연구에서 N400과 P600 가설을 지지하는 증거들은 중앙엽과 두정엽에 한정되는 경향이 있었으나, 이미지 연구에서는 활성화 범위가 전두엽쪽으로 치우치는 경향이 있었다[20]. 기존의 이미지 연구들은 정지화상을 이용하거나 수초에서 수십초에 이르는 매우 짧은 동영상을 개별적으로 사용하였다. 이러한 실험결과의 현실타당성 문제를 극복하기 위해서 본 연구는 동영상 자극의 연속제시라는 ERP 실험설계를 처음으로 시도하였다.

2.3 연구가설

우리는 N400과 P600 효과가 각기 독립적으로 작용한다고 가정하였고, 이 가정 하에서 주제무관 쇼트에 대해서는 N400 효과가 나타날 것으로 그리고, 주제관련 쇼트에는 주제 파악의 인지적 부담을 처리하는 과정인 P600 효과가 나타날 것으로 예측하였다. 선행연구에서 살펴보았듯이, 단어나 문장을 실험재료로 다루는 언어학 연구에서 N400과 P600은 400ms 지체(latency)를 전후하여 좌측 두정엽과 중앙엽의 대뇌피질에서 주로 관찰되었고, 이미지와 동영상의 경우 300ms으로 지체가 앞당겨지며, 전두엽도 매우 중요한 역할을 하는 것으로 알려져 왔다. 본 연구에서는 주제관련도에 따른 N400효과는 영상물 쇼트 시작점 이후 300-500ms에서 주제관련 쇼트보다 주제 무관 쇼트에서 관찰될 것이라고 예측하였다. 영상물의 주제를 파악하고 그 주제에 밀접하게 관련된 쇼트를 기억하도록 요구된 피험자들은 주제와 관련 없는 쇼트들을 피험자 자신들의 기대를 배반하는 소위 언어학에서 부르는 ‘불일치’(mis-match) 자극으로 인식하고 N400 반응을 보일 것이기 때문이다. 주제에 집중하고 주제에 밀접하게 관련된 쇼트를 기억하라는 실험 진행자의 요구에 주제와 무관한 쇼트가 기대를 저버린 것이라고 인지할 것이라는 것은 논리적이다. 언어학의 선행연구에서 살펴보았듯이, 불일치 단어에 대한 N400효과가 좌측 두정엽과 중앙엽에서 주로 관찰되었으며, 이미지 연구의 선행연구에서 이미지 자극에 대한 N400효과는 좌측 전두엽도 관찰되었다. 본 연구에서는 N400효과의 좌우뇌 비교는 물론, 언어학의 단어연구에서 지속적으로 발견되어온 두정엽과 중앙엽 전극위치와 이미지 연구에서 확인되었던 전두엽을 포함하여 다양한 상호작용효과에 대한 가설을 설정하였다. 특히 [28]은 의미적 부호화에 대한 전전두엽의 역할을 강조해 왔다.

2.3.1 주제무관 쇼트에 대한 ERP의 N400효과 가설

연구가설1-1: 주제무관 쇼트에 대한 N400 시간대의 사건유발 뇌파반응은 주제관련 쇼트에 대한 것보다 더 낮을 것이다(주제관련도의 N400 주효과 예측).

연구가설1-2: N400 효과는 우뇌 전극위치보다는 좌뇌 전극위치에서 더 클 것이다(주제관련도와 좌우뇌 전극위치의 N400 2-way 상호작용효과 예측).

연구가설1-3: N400 효과는 후뇌 전극위치보다는 전뇌 전극위치에서 더 클 것이다(주제관련도와 전후 뇌 전극위치의 N400 2-way 상호작용효과 예측).

연구가설1-4: N400 효과는 좌측의 전뇌 전극위치에서 다른 전극위치보다 더 클 것이다 (주제관련도, 좌우뇌 및 전후뇌의 전극위치의 N400 3-way 상호작용효과 예측).

2.3.2 주제관련 쇼트에 대한 ERP의 P600효과 가설

P600에 관해서도 주효과 가설과 상호작용효과 가설을 설정하였다. 기본적인 P600 주효과 가설은 주제관련 쇼트가 시작한 후 500-700 ms 지난 시점에서 양전위 최고값들이 주제무관 쇼트들에 비해 통계적으로 현저하게 큰 전위차를 보일 것이라고 예측하였다.

연구가설2-1: 주제관련 쇼트들에 대한 P600 시간대의 사건유발 뇌파반응은 주제무관 쇼트들에 대한 것보다 더 높을 것이다(주제관련도의 P600 주효과 예측).

또한, 이러한 주제관련 쇼트와 주제무관 쇼트간 양전위 최고값의 전위차는 우측보다는 좌측일수록, 두정엽과 중앙엽보다는 전두엽과 전전두엽 쪽으로 전극위치가 이동할수록 더 큰 전위차를 보일 것이라고 예측하였다.

연구가설2-2: P600 시간대의 사건유발 뇌파반응은 우뇌 전극위치보다는 좌뇌 전극위치에서 더 높을 것이다(주제관련도와 좌우뇌 전극위치의 P600 2-way 상호작용효과 예측).

연구가설2-3: P600 시간대의 사건유발 뇌파반응은 후뇌 전극위치보다는 전뇌 전극위치에서 더 높을 것이다(주제관련도와 전후뇌 전극위치의 P600 2-way 상호작용효과 예측).

연구가설2-4: P600 시간대의 사건유발 뇌파반응은 좌측의 전뇌 전극위치에서 더 높을 것이다(주제 관련도, 좌우뇌 및 전후뇌의 전극위치의 P600 3-way 상호작용효과 예측).

3. 실험 설계

3.1 개요

ERP를 분석하기 위해서는 자극제시의 정확한 시작점 통제가 관건이다. 하지만 영상물에 포함된 쇼트들을 실험을 위해 통제할 경우 자연스러운 시청환경이 훼손되므로 영상물 시청시 영상추론을 방해하게 되는 어려움에 처하게 된다. 본 연구에서는 이 문제를 해결하는 방법으로 영상물 시청시에 주제와 주제에 밀접하게 관련되는 쇼트들을 기억하도록 요구하고, 각 영상물에서 추출한 정지화면을 피험자 스스로 주제관련 정도에 따라 점수(비적합: 1, 부분적합: 2, 적합: 3)를 매기게 하였다. 이 정보에 따라 주제관련 쇼트와 주제무관 쇼트를 구분하고, 영상물 내의 쇼트 시작점을 찾아서 -200ms에서 시작점까지를 기저선으로 삼고, 시작점부터 1000ms에 대한 ERP를 분석하였다.

3.2 피험자와 실험절차

성별, 나이 등에 따라서 뇌파의 차이가 있다고 알려졌기 때문에 뇌파 차이를 최소화하기 위해서 피험자의 자격을 오른손잡이 20대의 남자로 제한하여 M대학교 학부생 32명을 모집하였다. 실험은 2015년 10월 27일부터 12월 9일 까지 진행되었다. 모든 피험자에게 10여분 동안 연구에 대한 충분한 설명(실험 중에 어려움이 있으면 언제든지 중단할 수 있다는 정보를 포함)을 한 후 동의를 받았고, 기관생명윤리위원회의 승인을 받았다. 실험재료는 6개의 짧은 다큐멘터리 영상물들(1분 9초∼2분 11초)과 각 영상물에서 추출한 프레임들로 구성되었다. 실험절차는 다음과 같다.

1) 실험 안내: 7분 동안 영상물 시청실험에 대해 간단히 구두 소개를 하였다.

2) 영상물 시청: 중앙에 가로 세로 1센티미터의 십자 표시가 있는 검정색 화면과 곧이어 아무런 표시가 없는 검정색 화면을 각각 3초씩 보여준 다음 영상물을 보여주었다. 1∼2분 동안의 짧은 영상물을 시청하면서 각 영상물의 개별적인 주제에 집중해 줄 것을 요청하였다.

3) 주제관련도 측정: 영상물 시청후 영상물에서 추출한 9개의 정지화면들(연구자들이 비디오 주제를 얼마나 잘 나타냈는지에 따라서 적합, 부분적합 및 비적합하다고 분류한 이미지들을 각각 3개씩 포함함)을 무순으로 하나씩 보여준 후 현재 정지화면의 사진을 단서로 하여 방금전 시청한 영상물 주제와의 관련도를 평가하도록 하였다. 이때 각 정지화면을 6초 동안 보여준 후, 각 정지화면에 해당하는 영상물 쇼트의 주제적합도 판정을 위해서 7초를 부여하였다.

4) 다른 다섯개의 영상물들에 대해서도 위의 2)번∼4)번까지의 절차를 반복하여 진행했다. 다만 세 번째 비디오를 보여준 후에는 피험자들의 피로도를 고려하여 검정색 화면을 보여 주면서 30초 동안 잠시 휴식을 취하도록 하였다. 데이터 수집 시간은 피험자당 총 26분 39초가 걸렸다.

3.3 실험 재료

실험 재료인 영상물을 좀 더 자세히 설명하기 위해서 실험 영상물 중 하나인 피카소의 어린 시절을 다룬 애니메이션 영상물을 스토리보드로 Table 1에 기술하였다. 주제는 자막을 통해서 제공되기도 하고, 그림과 말로 드러내기도 한다. 두 개 프레임(2번과 9번)의 주제관련도가 가장 높았다. 2번 프레임은 피카소의 대표적인 작품을 화면속 화면 방식으로 보여 주면서 속 화면인 작품의 위와 아래에 각기 “뒤에 나타나는 자막과 같은 취지로 “아버지의 든든한 후원이 없었다면 천재적 재능을 발휘하기 어려웠을 것이다”라는 해설이 덧붙여졌다.

Table 1.Storyboard of an animation video, , means and sds of topic-relevance for each frame

프레임 평가는 음성정보 없이 프레임에 제시된 시각 단서만으로 점수를 매길 수 있도록 하였다. 2번 프레임은 화면에 주제와 같은 취지의 문자 자막을 보여 주었던 반면, 9번 프레임에서는 순수한 이미지만 보여주었다. 실험참가자들에 의한 평가 결과는 2번 프레임의 주제관련도 평균점수(2.75) 보다 9번 프레임의 주제관련도 평균점수(2.82)가 약간 더 높게 나타났다. 실시간 영상물 시청시의 뇌파분석에서는 프레임 테스트에서 피험자들의 주제관련 평점의 일치도가 높은 쇼트를 분석 하였다. <꼬마 피카소>를 비롯한 6개 영상물은 다큐멘터리 장르의 특성상 비교적 느린 속도로 진행되었으며 1-2분의 상영시간 동안 9-12개의 쇼트들로 구성되어, 쇼트들은 평균 5-6초의 지속시간을 보였다.

3.4 뇌파측정

뇌파 측정은 뇌파 측정기 Neuroscan Synamp amplifier(Compumedics USA, El Paso, TX, USA)와 Ag-AgCl electrodes가 10∼20 체계에 의해 심어져 있는 30채널 Quick Cap을 사용하였다. 사용된 전극들에는 FP1/FP2, F3/Fz/F4, F7/F8, FT7/FT8, FC3/FCz/FC4, CP3/CPz/CP4, C3/Cz/C4, P7/P8, P3/Pz/P4, O1/Oz/O2, T7/T8 및 TP7/TP8을 포함하였다. 뇌파 표집율(sampling rate)은 1,000Hz였다. 안구의 눈깜박임이나 움직임을 측정하기 위해 수직안구전도(vertical electrooculogram)는 좌측 안구의 위 아래 두 곳에서 측정하였고, 수평안구전도(horizontal EOG)는 양안의 외안각(outer canthi)에서 측정하였다. 기준(reference) 전극으로 A1과 A2를 측정하였다. E-Prime을 사용하여 자극제시와 뇌파측정의 시작점 동기화를 통제하였다.

3.5 뇌파분석

영상물 시청이 진행되는 동안 피험자의 두피에 장착한 뇌파측정기를 통하여 뇌파를 측정하였고 측정된 뇌파자료는 CURRY 7.09(Compumedics, El Paso, TX, USA) 프로그램을 이용하여 분석하였다. 피험자의 눈깜박거림과 같은 동작으로 생기는 잡음은 공분산(covariance) 행렬을 이용하여 제거하였다. 32명의 피험자들에게 수집한 뇌파 데이터 중에서 뇌파 데이터의 품질이 낮은 4명의 뇌파 데이터를 제외시켜 28명의 데이터를 최종적으로 분석하였다. 뇌파 데이터에서 자극(event)들을 확인하여 각 피험자가 구분한 비적합 이미지(자극 번호: 1), 부분적합 이미지(자극 번호: 2) 및 적합 이미지(자극 번호: 3)로 구분된 에폭(epoch)을 생성하였다. 기저선 교정을 시행하고, 이미지를 보고 나서 적합성을 판단할 때까지의 뇌파를 측정하기 위해서 에폭의 길이는 -200∼1,000ms, 즉 자극 제시 전 200ms부터 자극 제시 후 1,000ms까지로 정하였다. 이는 피험자가 각 이미지를 보고 1초 이내에 적합성 여부를 판정할 것으로 가정했기 때문이다. 뇌파분석은 피험자들이 정지화면(프레임)을 테스트할 때의 뇌파와 동영상을 시청할 때의 뇌파로 구분하여 분석하였다. 정지화면 테스트 뇌파는 각 피험자당 1.2초 짜리 에폭을 54개(6개 비디오에서 각 비디오당 9개 프레임들) 추출하여 피험자당 총 64.8초의 자료를 이용하였다. 생성된 에폭 파일은 자극 전 -200ms값을 이용하여 기저선 교정을 시행하였다. 사용된 band pass filtering은 0.1∼30Hz이고, 전체 채널에서 파형의 음전위와 양전위간 차이(진폭)가 -75∼75μV를 넘으면 잡파로 간주하여 제거하였다. 1,512개([한 피험자 당] 54개 X 28명) 에폭들은 피험자들의 주관적 판단에 따라 재분류하여 주제관련 에폭 532개, 주제부분관련 에폭 542개 및 주제무관 에폭 438개로 분석하였다. 정지화면 이미지에 대한 주제관련도 측정결과의 평균값(Table 1 참조)을 기준으로 3점에 가장 가까울 경우에 ‘주제관련’으로, 2점에 가장 가까울 경우에 ‘주제부분관련’으로 그리고 1점에 가장 가까울 경우에 ‘주제무관’으로 조작정의하였다.

동영상에서 각 쇼트의 뇌파분석은 그럼 다음 총 6개 영상물들 중에서 각 영상물 당 주제관련, 주제부분관련 및 주제무관을 포함하여 3개 정지화면 이미지들, 총 18개(6개 비디오에서 각 비디오당 3개 프레임들)의 프레임들을 선정하였다. 선정된 각 프레임(쇼트)의 해당 동영상에서의 시작 시간점(on-set time-point)을 찾은 후 이를 뇌파 측정 분석 결과로 생겨나는 로그 파일 안의 동영상 쇼트 시작점으로 지정하였다. 이렇게 생성된 에폭은 자극 전 -200ms 값을 이용하여 기저선 교정을 시행하였다. 뇌파를 측정하기 위해서 자극 제시 전 200ms부터 자극 제시 후 1,000ms까지로 정하였다. 이때 영상물 뇌파는 다큐멘터리 영상물의 전체 지속시간동안 지속적으로 측정되므로 기저상태를 결정해야 하는 어려움이 있었다. 영상물 쇼트의 시작 시간점을 정교하게 식별하는 방식으로 ERP를 적용하기 위한 기저선을 확인할 수 있었다. 잡파의 제거와 band pass filtering은 앞의 정지화면의 조건과 동일하게 하여 분석하였다. 총 504개([한 피험자 당] 18개 X 28명) 에폭을 추출하였다. 피험자들의 주관적 판단에 따라 재분류된 결과 주제관련 에폭 193개와 주제무관 에폭 164개를 통계분석에 투입자료로 하였다. 주제부분관련 에폭은 나비 그래프 분석을 제외한 다른 분석에서는 제외하였다.

3.6 통계처리

주효과 분석은 모든 전극위치에서 주제관련 쇼트와 주제무관 쇼트에 대한 뇌파반응을 N400에 대해서는 쇼트시작점(on-set)으로부터 300∼500ms의 시간대를 기준으로 ERP 최저점의 전위차로 측정하였다. 한편 P600에 대해서는 쇼트시작점으로부터 500∼700ms의 시간대를 기준으로 ERP 최고점의 전위차를 피험자별로 측정하였다. 그런 다음 전체 평균값을 비교하는 t검정을 실시하였다. 또한 상호작용효과 분석을 위해서는 30개 채널 중에서 주제관련 쇼트와 주제무관 쇼트간 두 구간에서의 뇌파패턴이 다르게 나타나는 8개의 전극위치를 선별하여 반복측정 분산 분석검증을 수행하였다.

연구 가설을 검증하기 위해서 뇌파 측정 데이터를 입력 자료로 하여 SPSS 23의 반복측정 분산분석을 사용하여 분석하였다. 통계 분석을 위한 반복측정 입력 데이터의 사례수는 28명이였고, 개체-내 변수들은 주제관련도 2개 수준(Topic-Relevant, Topic-Irrelevant)으로 하였다.

4. 분석결과

4.1 나비그림과 신호잡음비(SNR)의 비교

나비그림(butterfly plots)(Fig. 1)은 매 천분의 일초(ms) 마다 개별 피험자들의 두피의 30개 전극위치에서 측정한 28명 피험자 뇌파자료의 평균값을 시계열 상에 그린 개별 전극의 그래프들을 중첩시켜 표시한 것이다. Fig. 1에서 위 그림은 정지화면으로 제시한 프레임 테스트의 ERP 자료의 나비그림이며, 아래 그림은 영상물시청시 주제관련도에 따라 추출한 쇼트들에 대한 ERP 자료의 나비그림이다. X축으로는 동영상 쇼트의 시작점을 기준으로 이전 -200ms부터 이후 1,000ms까지이다.

Fig. 1.Upper, butterfly plot for 30 channels and lower, MGFT (Grand Mean, N=28) of the 30 channels(x, time in milli-seconds; y, amplitudes in uV). Two vertical dotted lines represent on-set time for visual shots and latency of 400ms: (a) represents plots for frame-test sessions(1,512 epochs) and (b) for video watching sessions(504 epochs).

위쪽 그림에서 프레임 테스트 나비그림의 기저선은 매우 선명한 데 비해, 아래쪽 그림에서 영상물 시청시 나비그림의 기저선은 상대적으로 큰 굴곡을 보였다. 위쪽의 정지화면에서 ERP 뇌파반응 자극제시점 이후 약 50ms까지 기저선이 유지되는 데에 비하여, 아래쪽의 영상물 시청시 쇼트 시작점에서 이러한 기저선의 연장은 관찰되지 않았다. 앞에서 기술한 것처럼 영상물 쇼트의 시작점은 뇌파자료의 로그파일에 시간코드를 입력한 것으로 영상물 쇼트의 내용이 바뀌는 쇼트 변경에 아무런 인위적 장치나 내용을 포함하지 않고, 피험자들은 영상물을 지속적으로 시청하였다. 즉, 위 그림에서 정지화면이 제시되기 이전에 검은 화면에 흰 십자 표시를 보여준 반면, 아래 그림에서 영상물 쇼트시작점 이전의 화면에는 앞선 쇼트의 동영상 자극이 지속적으로 제시되었고 피험자들은 이를 계속 시청하고 있었다. 아래 그림에서 쇼트 시작점 이후 50ms동안에도 쇼트 시작점 직전에 피험자들이 노출된 영상물의 내용에 대한 반응은 계속되었음을 의미한다.

영상물 시청시 뇌파분석에 ERP 분석법을 적용하기 위해 잡음수준과 신호잡음비(Signal to Noise Ratio, SNR)를 살펴보았다[25]. 신호잡음비의 계산에서 기저선(-200ms∼0)의 배경뇌파(background EEG)를 잡음(noise)으로 잡고 영상물 쇼트 시작점 이후(0∼1000ms)의 ERP뇌파를 신호(signal)로 잡아, 신호잡음비는 잡음 대비 신호의 비율로 측정한다. 피험자들마다 평상시의 배경대뇌 활성화의 수준이 다르다. 각기 다른 영상물을 시청할 때에도 영상물에 따라 그에 부응하는 대뇌활성화의 정도도 달라지게 마련이다. 우리가 사용한 CURRY 7.09의 ERP 분석에서 배경뇌파는 자극 시작점 이전 200ms 동안의 피험자 개인별 전극위치별 뇌파자료의 표준점수화 결과로 측정된 표준편차의 배수로 정의하였다. 자극 시작점 이후 뇌파 전위차자료를 표준점수화한 값의 평균값으로 ERP 분석기간(여기서는 1000ms)의 신호로 정의하여, 신호 대비 잡음의 비율을 신호잡음비로 계산하였다. 위쪽의 프레임 테스트의 나비그림잡음은 0.161였고, SNR은 29.2였다. 아래쪽의 영상물 시청시 나비그림의 잡음은 0.254였고, SNR은 6.61였다. 이러한 SNR 지표상 차이는 제시 자극의 속성차이(동영상과 정지화면; 사운드의 유무, 연속 vs. 단속 제시)에 비롯된 것으로 보인다.

4.2 가설검증 결과

4.2.1 연구가설1-1의 검증결과: 주제무관 쇼트의 N400 효과

연구가설1-1은 영상물 시청의 N400효과는 주제무관 쇼트들에만 나타날 것으로 예측하였다. 즉, 피험자들의 주제무관 쇼트에 대한 반응은 주제관련 쇼트들에 비하여 현저하게 낮은 최저값(concave or negative peaks)을 쇼트시작점으로부터 400ms 근처에서 보일 것이라고 예측하였다.

연구가설을 검증하기 위해서 300∼500ms 시간대에서 개별 피험자들의 30개 전극위치에서 관찰된 전위값의 최저치를 출력하였다. 예상대로 주제무관 쇼트들에 대한 최저치들의 평균값들이 모두 낮은 음전 1041991위값을 보였다. 주제관련 쇼트와 주제무관 쇼트의 최저치 평균 차이의 통계적 유의도를 확인하기 위해 주제관련도(1: 주제무관, 2: 주제관련)를 개인내 요인으로 하는 반복측정 1원(one-way) 요인설계에 대한 t-검정을 수행하였다.

300∼500ms 시간대의 N400효과 가설을 검증하기 위해 주제관련 쇼트와 주제무관 쇼트간 차이를 전극별로 t-검증한 결과를 Table 2에 제시하였다. 유의도 수준 0.05에서 좌측 전전두엽(FP1, t=7.767, p=0.010), 좌측 전두엽(F7, t=5.259, p=0.030; F3, t=5.629, p=0.025) 및 좌측과 중간 중앙엽(C3, t=5.505, p=0.027; Cz, t=6.256, p=0.019)에서 주제무관 쇼트에 대한 뇌파반응이 주제관련 쇼트에 대한 뇌파반응 보다 통계적으로 유의미한 차이를 나타내며 낮게 나타났다. 측두엽 그리고 전두-측두엽의 두 개 전극위치(T7, t=6.817; p=0.015; FT7, t=5.259, p=0.045)에서도 주제무관 쇼트에 대한 뇌파반응이 주제관련 쇼트에 대한 뇌파반응 보다 통계적으로 유의미한 차이를 나타내며 낮게 나타났다. 측두엽 활성화의 의미에 대해서 이것이 영상물 시청시 청각신호 처리에 민감한 결과인지, 의미처리와 관련되는지에 대해서 나중에 검토한다.

Table 2.** p<.01; * p<.05.

4.2.2 연구가설2-1 검증결과 : 주제관련 쇼트의 P600 주효과

연구가설2-1에서 영상물 시청시 주제파악과 주제관련 쇼트들에 관심을 집중해 주도록 요청한 상태에서 피험자들이 보여준 주제관련 쇼트에 대한 반응은 주제무관 쇼트들에 비하여 현저하게 높은 최고값(convex or positive peaks)을 쇼트시작점으로부터 600ms 근처에서 보일 것이라고 가정하였다. 연구가설의 검증을 위해 500∼700ms 시간대에서 개별 피험자들의 30개 전극위치에서 관찰된 전위값의 최고치를 출력하였다. 예상대로 주제관련 쇼트들에 대한 최고치들의 평균값들이 모두 높은 양전위값를 보였다. 최고치 평균차이의 통계적 유의도를 확인하기 위해 주제관련도(1: 주제무관, 2: 주제관련)를 개인내요인으로 하는 반복측정 1원(one-way) 요인설계에 대한 t-검정을 수행하였다.

500∼700ms 시간대의 P600효과 가설을 검증하기 위해 주제관련 쇼트와 주제무관 쇼트간 차이를 전극별로 t-검증한 결과를 Table 3에 제시하였다. 유의도 수준 0.05에서 좌측 전전두엽(FP1, t=6.930, p=0.013), 좌우측 및 중간 중앙엽(C3, t=4.670, p=0.039; Cz, t=9.818, p=0.004; C4, t=10.549, p=0.003) 및 우측 및 중간 전두-중앙엽(FC4, t=7.370, p=0.011; FCz, t=6.541, p=0.016)에서 주제관련 쇼트에 대한 뇌파반응이 주제무관 쇼트에 대한 뇌파반응보다 통계적으로 유의미한 차이를 나타내며 높게 나타났다. 우측 두정엽과 우측 측두-두정엽(P8, t=4.483, p=0.043; TP8, t=5.326, p=0.028)에서도 주제관련 쇼트에 대한 뇌파반응이 주제무관 쇼트에 대한 뇌파반응 보다 통계적으로 유의미한 차이를 나타내며 높게 나타났다.

Table 3.* p<.05; ** p<.01.

4.2.3 연구가설1-2, 1-3, 1-4, 2-2, 2-3, 2-4의 검증결과: 반복측정 다변량분산분석

영상물 시청시의 주제관련 및 주제무관 쇼트에 대한 뇌파반응을 전극위치별로 t-검증한 결과를 통해서 N400과 P600의 주효과는 전두엽과 전전두엽을 비롯하여 중앙엽에서도 통계적으로 의미있는 차이를 보인다는 것을 확인하였다. 이러한 발견은 언어자극을 사용할 때 중앙엽과 두정엽에서 주로 이들 효과를 관찰한 반면, 이미지자극을 사용할 때는 전두엽으로 그 효과가 옮겨가는 것을 관찰한 연구의 결과와 유사하지만 전전두엽의 역할이 특히 두드러진다[19]. 주제관련 및 주제무관 쇼트에 대한 ERP 반응의 효과 유무를 조사하기 위해서 주제관련 쇼트와 주제무관 쇼트간에 대조하는 3-way 상호작용효과 분석을 위한 반복측정 다변량분산분석(MANOVA) 검증을 실시하였다.

좌우에 위치한 두정엽, 중앙엽, 전두엽 및 전전두엽의 각 4개씩 모두 8개의 전극위치에서 피험자별 N400(연구가설1-2∼연구가설1-4)의 최저값, 그리고 P600(연구가설2-2∼연구가설2-4)의 최고값을 자료로 입력하였다. 반복측정 MANOVA 검증결과표의 주제관련성의 주효과(N400, F(1,27)=4.501, p=0.043; P600, F(1,27)=7.080, p=0.013)는 앞서 살펴본 t-검증의 결과와 내용적으로 중복된다.

연구가설 1-2와 관련하여 주제관련도 차이와 전극위치의 좌우에 따른 차이의 2-way 상호작용은 N400에만 관찰되었다(F(1,27)=5.058, p=0.033). 연구가설 1-2는 채택되었으나, 연구가설 2-2는 기각되었다. 주제관련성과 전후 전극위치와의 2-way 상호작용은 양쪽 모두 뚜렷했다(N400, F(3,25)=3.686, p=0.025; P600, F(3,25)=3.908, p=0.020). 연구가설 2-3과 3-3은 채택되었다. P600효과는 주제관련성, 좌우 및 전후 전극 위치의 3-way 상호작용도 관찰되었다(F(3,25)=3.226, p=0.040). N400에 대한 주제관련성, 좌우 및 전후 전극 위치의 상호작용 효과는 통계적 유의수준에는 약간 못 미쳤다(F(3,25)=2.435, p=0.088). 연구가설 1-4는 기각되었고, 연구가설 2-4는 채택되었다.

Table 4.** p<.01; * p<.05.

반복측정 MANOVA 검정결과표의 추상적 내용을 좀 더 쉽게 설명하기 위해 N400과 P600 효과가 가장 뚜렷하게 나타나는 전극위치를 잘 보여주는 Fig. 2를 살펴보자. 왼쪽의 N400 그래프는 주제무관 쇼트들에 대한 좌뇌쪽 전전두엽, 전두엽이 현저하게 낮은 전위차값을 보였다. 오른쪽의 P600 그래프는 주제관련 쇼트들에 대한 좌뇌쪽의 전전두엽, 중앙엽에서 현저하게 높은 전위차값을 보였다(Fig. 2 참조). 이러한 결과는 이미지에 대한 반응이 전두엽에서 관찰되던 점과 유사하다[19]. N400을 기준으로 전전두엽과 전두엽에서 주제무관 쇼트들은 주제관련 쇼트들보다 현저하게 낮은 최저값들을 보였다. 좌우뇌 모두 두정엽과 중앙엽에서는 N400은 뚜렷하지 않았다. 이점은 P600 효과에서도 마찬가지였다. 주제관련 쇼트들은 전전두엽과 전두엽에서 주제관련 쇼트들은 주제무관 쇼트들보다 현저하게 높은 최고값을 보였다.

Fig. 2.Typical graphs for 3-way interaction effects (N400 & P600) between topic-relevance and electrode positions at the left hemisphere. Topic-relevant shots, N=193; Topic-irrelevant shots, N=164.

5. 논의 및 결론

본 연구는 동영상물을 시청하는 동안 뇌파를 실시간으로 측정하여 이를 자동영상요약의 알고리듬을 개발하기 위한 기초연구이다. 자연스러운 시청환경을 제공하면서 영상물의 주제를 주관적으로 파악하되 주제와 밀접하게 관련되는 이미지를 기억하도록 유도하였다. 피험자들에게 시청한 영상물 장면들의 주제관련성을 평가하게 한 결과를 이용하여, 주제관련 영상물 쇼트와 주제무관 영상물 쇼트에 대한 피험자들의 실시간 ERP 뇌파반응을 분석하였다. 그 후, N400과 P600의 주제관련성 효과를 살펴보았고, 그 결과 이들 효과가 현저하게 나타나는 전극위치를 전후 및 좌우를 구분하여 살펴보았다.

영상물 시청후 사후적으로 개별 영상물 쇼트의 주제관련도를 측정하고 이 정보를 영상물 시청시의 뇌파반응 분석에 접합시키는 데 성공할 수 있었다. 즉, 실시간으로 시청한 영상물 쇼트의 시작시점을 피험자 뇌파의 로그파일의 시간코드에 적용하여 이에 대한 ERP 분석이 가능하다는 것을 확인하였다. 나비그림의 기저선은 프레임 테스트시 뇌파자료에 대한 나비그림의 기저선에 비하여 다소 불안정한 모습을 띠고 있었지만, 영상물 쇼트 시작점 이전의 -200ms부터 시작점까지의 기저선은 0.245의 잡음수준에 신호잡음비(SNR)는 6.66로 비교적 양호한 편이었다. 본 연구에서 시도된 영상물 연속시청시의 자료에 ERP 분석 기법은 앞으로도 계속 시도되어야할 중요한 연구과제라는 점에는 논란의 여지가 없다. 잡음수준이나 신호잡음비 같은 표준적인 기준을 찾아 내는 것이 후속연구들의 방법론적 과제이다.

단어를 주로 사용하는 전통적인 언어학의 실험연구에서 예기치 못한 자극의 입력시에 ERP의 N400의 좌뇌 음전위(left negativity, 300-500ms latency) 효과와 P600의 좌뇌 양전위(left positivity, 500-700ms latency) 효과는 주로 중앙엽과 두정엽에서 관찰되어 왔으며[26-27], 이미지를 사용한 연구들은 전두엽의 역할을 강조하였다[19]. 하지만, 동영상 쇼트 자극을 연속적으로 실시간 시청하는 환경에서의 시청자 ERP 뇌파반응을 분석한 본 연구에서 N400과 P600 효과들은 다른 양상을 보였다. N400 효과는 좌측 전전두엽, 좌측 전두엽 및 좌측 중앙엽에서 두드러지게 관찰되었다. P600 효과는 좌측의 전전두엽, 전두엽과 중앙엽에서 두드러지게 관찰되었다. 특히 P600에서 주제관련 영상물 쇼트를 시청할 때 좌측 전전두엽(FP1)이 활성화되는 것은 피험자가 주제와 관련된 쇼트를 보았을 때 해당 쇼트에 대한 의미 부호화(semantic encoding)와 연관되는 듯하다. 이와 관련하여, [28]의 연구는 P600에서 의미적 부호화를 수행할 때 좌측 전전두엽(FP1)이 활성화한다고 보고하였다. 즉, 새롭게 제시되는 쇼트가 주제에 관하여 새로운 정보를 제공하는 경우 주제관련 영상정보의 부호화와 함께 이 새로운 영상정보를 기존의 잠정적 주제에 의미적으로 통합하는 의미처리과정이 진행되어 맥락이 갱신된다고 볼 수 있다. N400과 P600 효과를 포착하는 데 있어서 전전두엽과 전두엽 전극위치가 보여준 뚜렷한 활성화 정도는 주제관련 뇌파반응을 이용하는 자동요약 기법에 매우 유용한 결과로 사용될 수 있다.

그림이나 정사진을 ERP 실험의 자극으로 제시할 때 전두엽이 중요해진다는 점은 선행연구들에서 꾸준히 거론되고 확인되어 왔다. 하지만 이미지 연구에서 전전두엽 위치의 중요성은 별로 거론되지 않았다. 본 연구에서 N400 효과와 P600 효과는 좌측 전전두엽에서 가장 뚜렷하였다. 이에 비하면 언어학의 선행 연구에서 거듭 확인되던 중앙엽과 두정엽의 중요성은 본 연구에서 거의 살펴볼 수 없었다. 이 논문에 포함하지는 않았지만 프레임 테스트의 뇌파자료 분석에서 이들 전극위치가 매우 중요한 역할을 하는 것으로 보아 좀더 면밀한 검토가 요청되는 부분이다.

실시간 영상물 시청시에 측두엽과 측두-두정엽이 활성화되는 것은 언어적 자극이 동영상과 함께 제시되었기 때문일 것으로 추측된다. 하지만, 자연스러운 영상물 시청 환경을 만들기 위해서는 언어 자극을 통제하지 않았다. 또한, 주제관련성을 측정할 때에 언어적 자극을 제거한 이미지만을 대상으로 하였다. 따라서, 주제무관 쇼트라 해도 사운드는 주제와 밀접하게 연관될 수 있다. 시각자극과 청각자극간의 상호작용이 영상물의 주제에 관련되는 방식은 인간의 정서나 감정과 같이 훨씬 더 복잡한 문제와 연관된다고 알려져 있다 [29]. 이러한 점들은 앞으로의 실험에서 면밀하게 살펴야 할 과제이다.

References

Y. Song, G. Marchionini, and C.Y. Oh, "What are the Most Eye-catching and Ear-catching Features in the Video? Implications for Video Summarization," Proceeding of International Conference of World Wide Web, pp. 911-920. 2010.
A.G. Money and H. Agius, "Analysing User Physiological Responses for Affective Video Summarization," Displays, Vol. 30, No. 2, pp. 59-70, 2009. https://doi.org/10.1016/j.displa.2008.12.003
A.G. Money and H. Agius, "Video Summarization: A Conceptual Framework and Survey," Journal of Visual Communication and Image Representation, Vol. 19, No. 2, pp. 121-143, 2008. https://doi.org/10.1016/j.jvcir.2007.04.002
Z. Lu and K. Grauman, "Story-Driven Summarization for Egocentric Video," The IEEE Conference on Computer Vision and Pattern Recognition, pp. 2714-2721, 2013.
W. Ren and Y. Zhu, "A Video Summarization Approach Based on Machine Learning," Proceeding of IEEE Xplore Abstract, pp. 450-453, 2008.
A. Porselvi and S. Gunasundari, "Survey on Web Page Visual Summarization," Proceeding of International Conference on Information Systems and Computing, pp.26-32, 2008
S. Lu, M.R. Jyu, and I. King, "Semantic Video Summarization Using Mutual Reinforcement Principle and Shot Arrangement Patterns," Proceedings of the 11th International Multimedia Modelling Conference, 2005. http://www.cse.cuhk.edu.hk/-lyu/paper_pdf/MMM2005.pdf
A.W.M. Smeulders, M. Worring, S. Satini, A. Gupta, and R. Jain, "Content-based Image Retrieval at the End of the Early Years," IEEE Transaction on Pattern Analysis and Machine Intelligence, Vol. 22, No. 12, pp. 1349-1380, 2000. https://doi.org/10.1109/34.895972
P.N. Johnson-Laird, Mental Models: Towards a Cognitive Science of Language, Inference, and Consciousness, Harvard University Press, Cambridege, 1983.
S.E. Barrett and M.D. Rugg, "Event-related Potentials and the Semantic Matching of Pictures," Journal of Brain and Cognition, Vol. 14, No. 2, pp. 201-212, 1990. https://doi.org/10.1016/0278-2626(90)90029-N
X. Zhu, A.B. Goldberg, M. Eldawy, C.R. Dyer, and B. Strock, "A Text-to-Picture Synthesis System for Augmenting Communication," Proceeding of Association for the Advancement of Artificual Intelligence, pp. 1590-1595, 2007.
M.J.A. Eugster, T. Ruotsalo, M.M. Spape, I. Kosunen, O. Barral, N. Ravaja, G. Jacucci, and S. Kaski, "Predicting Term-Relevance from Brain Signals," Proceeding of ACM Special Interest Group on Information Retrieval, 2014. https://www.cs.helsinki.fi/u/jacucci/eugster14sigir.pdf
M. Allegreti, Y. Moshfeghi, M. Hadjigeorgieva, F.E. Pollick, J.M. Jose, and G. Pasi, "When Relevance Judgement is Happening? An EEG-based Study," Proceeding of ACM Special Interest Group on Information Retrieval, 2015. http://dl.acm.org/citation.cfm?id=2767811
J.M. Zacks, N.K. Speer, J.M. Swallow, and C. J. Maley, "The Brain's Cutting Room Floor: Segmentation of Narrative Cinema," Frontiers in Human Neuroscience, Vol. 4, Article 168, pp. 1-15. 2010. https://doi.org/10.3389/fnhum.2010.00168
D. Friedman and R. Johnson, "Event-Related Potential(ERP) Studies of Memory Encoding and Retrieval: A Selective Review," Microscopy Research and Technique, Vol. 51, pp. 6-28, 2000. https://doi.org/10.1002/1097-0029(20001001)51:1<6::AID-JEMT2>3.0.CO;2-R
L. Nyberg, R. Habib, A.R. McIntosh, and E. Tulving, "Reactivation of Encoding-related Brain Activity during Memory Retrieval," Proceedings of the National Academy of Sciences of the United States of America, Vol. 97, No. 20, pp. 11120-11124, 2000. https://doi.org/10.1073/pnas.97.20.11120
J.M. Zacks, S. Braver, M.A. Sherian, D.I. Donaldson, A.Z. Snyder, J.M. Ollinger, R.L. Buckner, and M.E. Raichle, "Human Brain Activity Time-locked to Perceptual Event Boundaries," Nature Neuroscience, Vol. 4, pp. 651-655, 2001. https://doi.org/10.1038/88486
S. Haramati, M. Soroker, Y. Dudai, and D.A. Levy, "The Posterior Parietal Cortex in Recognition Memory: A Neuropsychological Study," Neuropsychologia, Vol. 46, pp. 1756-1766, 2008. https://doi.org/10.1016/j.neuropsychologia.2007.11.015
W.C. West and P.J. Holcomb, "Event-related Potentials during Discourse-level Semantic Integration of Complex Pictures," Cognitive Brain Research, Vol. 13, pp. 363-375, 2002. https://doi.org/10.1016/S0926-6410(01)00129-X
W.B. McPherson and P.J. Holcomb, "An Electrophysiological Investigation of Semantic Priming with Pictures of Real Objects," Psychophysiology, Vol. 36, pp. 53-65, 1999. https://doi.org/10.1017/S0048577299971196
J. Sassenhagen, M. Schlesewsky, and I. Bornkessel-Schlesewsky, "The P600-as-P3 Hypothesis Revisited: Single-trial Analyses Reveal that the Late EEG Positivity Following Linguistically Deviant Material is Reaction Time Aligned," Brain and Language, Vol. 137, pp. 29-39, 2014. https://doi.org/10.1016/j.bandl.2014.07.010
A. Kim and L. Osterhout, "The Independence of Combinatory Semantic Processing: Evidence from Event-related Potentials," Journal of Memory and Language, Vol. 52, pp. 205-225, 2005. https://doi.org/10.1016/j.jml.2004.10.002
H. Brouwer, H. Fitz, J. Hoeks, "Getting Real about Semantic Illusions: Rethinking the Functional Role of the P600 in Language Comprehension," Brain Research 1446, 127-143. 2012. https://doi.org/10.1016/j.brainres.2012.01.055
N. Cohn, R. Jackendoff, P.J. Holcomb, and G.R. Kuperberg, "The Grammar of Visual Narrative: Neural Evidence for Constituent Structure in Sequential Image Comprehension," Neurophychologia, Vol. 64, pp. 63-70, 2014. https://doi.org/10.1016/j.neuropsychologia.2014.09.018
D.M. Goldenholz, S.P. Ahlfors, M.S. Hamalaainen, D. Sharon, M. Ishitobi, L.M. Vaina, et al., "Mapping the Signal- To-Noise-Ratios of Cortical Sources in Magnetoencephalography and Electroencephalography, HHS Public Access Author Manuscript," Human Brain Mapping, Vol. 30, No. 4, pp. 1077-1086, 2009. https://doi.org/10.1002/hbm.20571
A. Kok, "Event-related-potential (ERP) Reflections of Mental Resources: A Review and Synthesis," Biological Psychology, Vol. 45, pp. 19-56, 1997. https://doi.org/10.1016/S0301-0511(96)05221-0
H.J. Neville, M. Kutas, G. Chesney, and A.L. Schmidt, "Event-Related Brain Potentials during Initual Encoding and Recognition Memory of Congruous and Incongruous Words," Journal of Memory and Language, Vol. 25, pp. 75-92, 1986. https://doi.org/10.1016/0749-596X(86)90022-7
A.D. Wagner, D.L. Schacter, M. Rotte, W. Koutstaal, A. Maril, A.M. Dale, B.R. Rosen, and R.L. Buckner, "Experiences as Predicted by Brain Activity Building," Science, Vol. 281, No. 5380, pp. 1188-1191, 1998. https://doi.org/10.1126/science.281.5380.1188
M. Lee, H. Kim, H, Kang, EEG-based Analysis of Auditory Stimulations Generated from Watching Disgust-Eliciting Videos, Journal of Korea Multimedia Society, Vol. 19, No. 4, pp. 756-764 2016. https://doi.org/10.9717/kmms.2016.19.4.756

Cited by

동영상 실시간 시청시 유발전위(ERP) N400 속성을 이용한 주제무관 쇼트 선별 자동영상요약 연구 vol.20, pp.8, 2016, https://doi.org/10.9717/kmms.2017.20.8.1258
영화 스토리와 관객 감성반응과의 상관성에 대한 연구 vol.21, pp.7, 2021, https://doi.org/10.5392/jkca.2021.21.07.013

Journal of Korea Multimedia Society (한국멀티미디어학회논문지)

Automatic Extraction Techniques of Topic-relevant Visual Shots Using Realtime Brainwave Responses

실시간 뇌파반응을 이용한 주제관련 영상물 쇼트 자동추출기법 개발연구

Abstract

Keywords

1. 서 론

2. 이론적 배경

2.1 단어 자극에 대한 N400과 P600 효과 연구

2.2 그림 자극에 대한 N400과 P600 효과 연구

2.3 연구가설

2.3.1 주제무관 쇼트에 대한 ERP의 N400효과 가설

2.3.2 주제관련 쇼트에 대한 ERP의 P600효과 가설

3. 실험 설계

3.1 개요

3.2 피험자와 실험절차

3.3 실험 재료

3.4 뇌파측정

3.5 뇌파분석

3.6 통계처리

4. 분석결과

4.1 나비그림과 신호잡음비(SNR)의 비교

4.2 가설검증 결과

4.2.1 연구가설1-1의 검증결과: 주제무관 쇼트의 N400 효과

4.2.2 연구가설2-1 검증결과 : 주제관련 쇼트의 P600 주효과

4.2.3 연구가설1-2, 1-3, 1-4, 2-2, 2-3, 2-4의 검증결과: 반복측정 다변량분산분석

5. 논의 및 결론

References

Cited by

Detail Search