1. 서론
영상요약 분야의 의미격차 (semanticgap)는 자동영상요약 결과물과 실제 영상물 사이에 존재하는 주제적 의미의 격차를 뜻한다[1]. 의미격차문제는 기존의 자동영상요약이 영상물에 담겨있는 시청각 내용에 관심을 두고, 영상물 이용자들이 실제 영상물을 시청하는 동안 시청각 내용을 처리하는 인지 과정에서 눈앞에 펼쳐지는 시청각 내용의 의미정보는 물론전체 영상물의 주제적 의미정보는 어떻게 처리하는지에 관심을 두지 않은 결과로 이해된다. 의미격차 문제를 극복하는 방법으로 연구자들은 실제 이용자 반응 자료를 함께 고려할 것을 제안하였다[2]. 최근 이러한 제안에 따라 뇌파나 f-MRI 자료를 사용하는 연구들이 늘어나는 추세이다[3-5]. 본 연구는 자동영상요약을 위해 주제관련 쇼트1)의 자동식별을 목표로 실시간 동영상 시청자의 뇌파자료에 대한 유발전위분석을 이용한다. 다음 절에서 자세히 살펴보는 바와 같이 유발전위분석은 실시간 뇌파측정한 자료를특정 자극이 주어진 시점으로부터 일정길이 동안 발생하는 뇌파의 잠재기와 활성도에 따라 유발전위 요소로 구분하여 연구한다. 전형적인 유발전위 실험에서 사용되는 자극들은 단순하다. 길거나 짧은 소리, 화면에 표시되는 일련의 문자나 단어, 또는 간단한 기호가 주로 사용되었으며, 이미지나 영상물도 간단한 내용만을 사용해 왔다. 이에 비하여 실시간으로 상영되는 동영상에 포함된 시청각 정보는 매우 복잡한 자극이다. 시청각 자극들이 지속적으로 등장하고 사라지는 동영상에서 특정한 자극 시작점을 특정하기도 어렵다. 유발전위분석 방법을 동영상 시청시 의미주제의 처리과정에 적용하기 위해서는 특별한 실험 디자인이 요청된다. 이 연구가 특별히 내재적 유발전위에 주목하는 이유이다. 동영상 실시간 시청시의 뇌파측정에 유발전위분석을 적용하기 위해서 여러 문제들에 대한 검토와 해결이 선행되어야 한다.
2. 선행연구와 연구가설
영상물 시청은 2단계로 진행된다[6]. 첫째는 지각과정이다. 시청자는 화면에 비춰지는 이미지를 보고스피커로 재생되는 소리를 듣는다. 시청각 매체인 동영상의 지각과정은 두 개의 채널로 구성된다. 시각채널로 영상, 이미지, 그래픽 또는 자막이 전달되며, 청각 채널로 음향, 음악, 음성이 전달된다. 둘째는 인간의 뇌가 맡은 통합과정이다. 이 과정에서 대뇌의 중추신경계는 지각과정을 통해 유입되는 다채널 감각정보를 통합하여 의미를 파악하기 위해 노력한다. 영상물 이용자의 주된 관심은 지각과정보다 통합과정을 거쳐 파악하는 영상물의 주제에 있다. 영상물 주제가 주어질 수도 있고, 이용자 스스로 주제를 탐색할 수도 있다. 의미격차의 문제를 해결하기 위해서1) 쇼트(shots)는 실사동영상 촬영의 최소구성단위이다. 이는 동영상편집의 최소단위인 컷(cuts)과 유사하지만 동영상 원자료를 쇼트라 하고, 컷인(cut-in)점과 컷아웃(cut-out)점을 정해 앞뒤를 잘라버리는 트리밍 과정을 거쳐 동영상편집을 완성한 결과인 컷을 통상 쇼트라고통칭한다. 여기서도 쇼트는 동영상의 최소편집단위로 컷인점에서 컷아웃점까지를 가리킨다.
영상물 시청의 두 단계 중 전자인 지각과정에 치중하는 주목모델보다 감각정보를 통하여 영상물 주제를 탐색하는 통합과정에서 수행되는 의미추론과정에연구자의 관심이 집중되어야 한다고 주장하는 이유이다.
2.1 멀티미디어 이해모델
Fig.1의 멀티미디어 모형은 멀티미디어 정보처리에 있어 인간두뇌의 활동방식에 관해 세 가지 기본적인 사항을 가정한다[7]. 첫째는 이중채널(dual chan-nels) 가정이다. 시각채널과 청각 채널은 역할이 다르다. 지각 과정에서 두 채널은 대개 독립적으로 활동한다. 하지만 통합과정에서 작업 기억 속의 청각중추와 시각중추는 서로 밀접하게 관련되어 있다고 가정한다. Fig. 1의 멀티미디어모델의 청각 채널은 음향, 음악, 음성 등의 소리정보의 입력과 처리에 특화되는 것으로 이해된다. 여기서 잠깐 언급해 둘 부분이 그림속의 ‘words’로부터 ‘Eyes’로 가는 화살표이다. 말은 청각 채널을 통해 청각정보로 입력되지만, 외부자극인 ‘words’는 말과 글이라는 두 가지 뜻을모두 포함한다. 말과 글로 구현된 개념적 어휘에 가깝다. 따라서 그림속의 ‘words’로부터 ‘Eyes’로 가는화살표는 ‘words’의 다른 뜻인 글이 시각채널을 통해 시각정보로 입력됨을 의미한다. 유기체의 주목기능은 이러한 감각정보 중 중요한 내용을 선택하는 경향이 있으며 선택된 감각정보는 작업 기억내의 통합과정을 거친다. 두 번째 기본가정은 제한 역량(limited capacity)에 관한 것이다. 제한 역량 가정은 영상물을 시청하는 도중 중요한 내용에 몰입하고 중요하지 않은 내용은 무시할 수 있어야 하므로 필수적이다. 제한역량은 시각채널과 청각 채널 중 어느 하나의 배타적 선택을 의미하지 않는다. 영상물 이해는 두 채널의 동시적 작동을 전제한다. 하지만 때로 제한 역량을 적절하게 배분하는 전략적 운용도 불가피할 것이다. 특히 작업 기억 안에서의 통합과정에서 제한 역량 가정은 본 연구와 관련하여 매우 중요하다. 영상물 주제에 대해 아무런 정보가 없는 조건에서 영상물을 시청해야 하는 경우 영상물의 세부적인 시청각정보사항에 세밀한 관심을 기울려야 한다. 이러한 인지적 노력은 제한 역량의 범주를 넘지 못하므로 전략적 운용이 불가피하며, 현실적인 타협의 대상이 된다. 반면, 제목이나 줄거리 요약 등의 주제 정보가 주어진 영상시청의 조건에서 주제추론에 필요한 인지노력은 불필요해 지며, 인지적 추론노력이 필요한 주제에 관한 감각정보를 정밀하게 처리하는 대신 감정이나 유머를 추구하거나, 주제추론의 인지부담을 덜고 편안한 상태에서 시청행위 자체를 즐거움의 대상으로 감각 자극에 치중할 수도 있다. 세 번째 가정은 능동적 처리(activeprocessing)이다. 인간은 시청각 채널을 통해 주어진 외부세계에 대한 감각정보는 물론 기억속의 저장되어 있던 장기기억들을 호출하여 현재 눈앞에 주어진 시청각 정보의 현실타당성을 검증하고 기존의 지식에 통합한다고 가정한다. 본 연구의 실험과제와 관련하여 이 가정도 매우 중요하다. 실험참가자들은 연구자의 주제탐색 요구에 부응하여 영상물의 시청각 정보 중 주제에 밀접하게 관련되는 정보는 적극적으로 처리하고 주제와 무관한 정보는 무시한다. 한편, 눈앞에 펼쳐지는 시청각 정보와 함께 자신의 기억 속 지식들을 검색하고 호출하여 통합 처리하는 과정에서, 영상물에 주제가 드러나 있지 않은 경우에도 주제를 추론할 수 있는 주제 추론의 능력이 있으며, 주제추론을 위한 인지적 노력에 능동적으로 참여할 것으로 가정된다.
Fig. 1. Theoretical Framework: Cognitive Model of Multimedia Comprehension (R. Mayer, 2005)
앞서 언급한 인지처리과정의 초기 지각과정에서 주목기능이 통합과정에서 추론기능이 중요하다. 메이어는 이를 자신의 모델에서 선택(selecting)과 조직(organizing) 기능으로 나타낸다. 인지체계의 제한역량 가정은 감각등록기(sensoryregister)에 입력되는 가능한 모든 감각정보의 인지체계내 유입을 허용하지 않는다. 대신, 인지체계는 중요한 감각정보를 선별하여 작업기억에 투입한다. 감각정보의 중요성에 대한 판별은 지각과정에서의 자동적이고 기계적인 작동방식과 달리 통합과정에서는 의식적이고 의도적인 정보처리의 동기(motivation)에 달려있다. 정보처리능력의 범위 안에서 주제정보에 대해 우선적으로 관심을 기울이고 기억하라는 지시에 따라서 실험에 참가한 피험자들은 주제관련 정보에 의도적인 관심을 기울이고 기억하려고 노력할 것이라고 기대하는 이유이다. 우리는 주제적 정보가 언어나 개념의 형태로 존재한다고 가정하지 않는다. 그 대신, 영상물의 주제적 정보는 시각적 내용에도 반영된다고 가정한다. 메이어의 작업 기억 안에서 이루어지는 통합과정과 비슷하게 진행된다고 간주된다. 영상물 주제에 대한 의미추론과정은 시각채널을 통해 유입되는 이미지, 자막, 그래픽 시각정보와 청각 채널을 통해 유입되는 음향, 음악, 대사나 해설정보의 통합과정이라고 가정한다. 추론과정은 감각정보의 처리에 관여하는 감각등록기(sensoryregistry)의 청각 채널과 시각 채널은 개별적으로 작동하지만, 감각정보처리를 넘어, 의미정보를 추론하고 이들을 조직하고 통합하는 조직과정은 하나의 작업 기억 내에서 통합적으로 작동한다. 이 과정에 관련 사전지식에는 다양한 유형이 포함된다. 새로운 감각정보를 의미적 추론의 대상으로 삼기 위해서는 장기기억에 저장된 지식과 정보의 도움이 필요하다. 장기기억 속의 지식은 호출되어 감각정보 내용에 대한 사실검증은 물론 영상물주제 추론이라는 논리적 작업의 일관성을 관리하는 기준이 된다. 또한 물론 눈앞에 펼쳐지고 있는 영상물의 단편적인 작은 단위(예를 들면 쇼트,shot)를 의미적으로 처리하기 위해서는 해당 단위 이전까지영상물 시청 자체로부터 듣고 본 정보에 대한 기억도포함된다.
2.2 내재적 유발전위(Endogenous ERP)
뇌파는 인간의 두뇌외피에 전극을 부착하여 생체시스템에 특정한 외부자극이 주어질 때 생기는 대뇌내부의 전기적 반응을 전극들의 전위차(potentials)로 측정한다. 뇌파자료를 이용하는 유발전위(Event-Related Potentials, 이하 ERP) 분석은 외부에서 일정한 자극을 제시하여 이에 반응하는 뇌파를 자극제시 후 일정시간 경과 후 관찰되는 피크값을 ERP 컴포넌트로 식별하는 방법이다.ERP 컴포넌트 분석은 외부자극의 제시점(on-settime)으로부터 천분의 일초(milli-second, orms) 시간단위로 경과한 후의 양전위 또는 음전위의 최고 또는 최저값을 보여주는 피크를 찾는다. 제시점 이전의 뇌파를 배경뇌파라 하고, 제시점 이후의 뇌파를 신호뇌파라 한다. 제시점 이전의 일정기간을 제시전 기간(pre-stimulusperiod, PSP)이라 하며 통상 200ms을 사용한다. 이 기간의 배경뇌파의 평균값을 0으로 하는 기준선(baseline)을 ERP 그래프의 원점으로 한다. 배경뇌파의 분산(varia-tion)의 크기가 잡음(noise)이다. 신호뇌파는 ERP신호 관찰의 전 기간(epoch)에 대해 측정하며 통상 1초또는 1000 ms 정도로 잡는다.
본 연구는 유발전위 중에서 특히 내재적 유발전위에 관심을 둔다. 감각 유발전위(sensoryERP), 행동유발전위(action ERP), 잡파에 대한 설명은 다른 문헌을 참고할 수 있을 것이다. 외부 시청각 자극의 즉각적인 감각처리를 반영하는 감각유발전위는 대략 250ms 안에 일어나며, 외부 자극에 따른 직접적 뇌파반응이므로 외재적 유발전위(exogenous ERP)라부르기도 한다. 감각유발전위는 감각자극을 특정하기가 용이하다. 외재적 유발전위라는 용어법에 기대어, 대뇌의 추론능력을 요구하는 추가적 의미정보처리 과정(예: 수리적 연산기능, 언어의 의미정보 처리, 이미지 라벨링)을 반영하는 유발전위를 특히 내재적유발전위(endogenous ERP)라고 한다. 내재적 유발전위는 대개 250ms이후에 일어난다. 내재적 유발전위는 이 외부자극에 의해 촉발된 내부의 정신적 사건(mentalevent)에 의해 2차적으로 유발된 뇌파반응이다. 뇌파자료에는 지속적으로 유입되는 외부자극에 의해 직접 유발된 외재적 유발전위와 함께 2차적으로 촉발된 두뇌내부의 정신적 사건이 유발한 내재적 유발전위가 뒤섞이게 마련이다. 실시간 시청 중인 영상물의 주제정보에 대한 내재적 유발전위를 분별하는 게 중요한 과제인 이유이기도 하다. 내재적 유발전위의 대표적인 컴포넌트로 P600과 N400을 들수 있다. 자동영상요약의 의미격차문제는 인간 두뇌내부의 정신활동에 대한 연구의 부족을 의미하며, 내재적 유발전위는 이 문제해결의 실마리를 찾는데 기여할 수 있을 것이다.
P600은 자극제시후 600ms 근처에서 발생하는 양전위 최대값으로 정의되며,N400은 400ms 근처에서 발생하는 음전위 최소값으로 정의된다. 계량언어학의 ERP 연구들에서 P600은 정보통합에 필요한 인지적 노력을 나타내는 것으로 알려져 있다.P600 효과는 애매한 개념 통합이나 정보처리 증가에 따른 인지노력이 요구되는 경우, 전두엽에 나타나는 경향이 있으며, 문법적 오류의 시정이나 문장 수정이 요구되는 경우 두정엽에서 나타나는 경향이 있다고 보고된다[8-9]. 또 다른 내재적 유발전위인 N400은 구문상의 불일치에 대한 반응으로 알려져 있다. 언어적 자극에 대해 두정엽에서의 반응이 일반적이지만, 시각적 자극에 대해선 전두엽 중심의 내재적 유발전위가 관찰된다고 보고되었다[10]. 무성영화의 말미에서 부적절한 정보가 제시될 때,N400이 관찰되었다. 영화의 문맥상 새로운 시각정보가 제시되어 주제통합의 어려운 과제가 부여될 때 두정엽에서 관찰된다고 보고되었다[11].
때로 매우 긴 잠재기를 보이는 P600의 경우, 달리LPC (late positive component)라 부르기도 한다. LPC는 담론구조의 유지와 갱신[12], 주제전환[13],담론 내재적인 재조직과 통합[14-15], 그리고 주제관련성[9,16]에 관계된다고 알려져 있다. 전두엽의 LPC 반응은 개념적으로(언어에 국한되지 않은), 더 복잡한 기억작업에 관련된다고도 알려져 있다[17]. 본 연구에서는 별도로 LPC를 다루지 않고 이후 별도의 연구에서 P600의 잠재기 지연(latencyjitter) 쟁점과 함께 검토할 예정이다.
2.3 영상물전체의 주제추론과 개별 영상쇼트의 주제 관련 판단
주제추론의 과정 연구는 영상요약 분야의 의미격차 문제를 해결하는 데 중요한 열쇠가 될 수 있으며, 다양한 영상물 내용과 장르적 특성에 따라 세분화된 정식화 노력이 필요할 것이다. 하지만, 영상물 주제의 추론과정을 본격적으로 다룬 연구는 매우 드물고, 최근에 들어서야 [18-19] 등의 연구가 발표되기 시작하였다.
본 연구에서는 하나의 영상물이 여러 개의 쇼트들로 구성되며, 각 쇼트들이 영상물 전체 주제에 나름의 기여를 한다고 가정한다. 순차적으로 처리되는 쇼트가 늘어나면서 잠재적인 주제는 개별 쇼트들의 주제적 의미들을 요소로 하는 복잡한 다차원 관계망을 형성하며 비교적 강력한 후보 주제 몇 개로 정리되어 갈 것으로 예상된다. 강력한 몇 개의 후보 주제 간의 경쟁은 궁극적인 영상물 전체주제가 확정될 때까지 계속되며, 대개 영상물 상영의 후반부에 결정된다. 따라서 잠정적인 주제 후보들은 영상물 전체 주제라는 단일한 지위를 두고 경쟁한다고 볼 수 있다. 이에 비하여, 영상물의 전체주제를 미리 정하여 알려주는 경우, 주제탐색에 따른 이런 인지적 부담은 현저하게 줄어들며, 개인에 따라서는 전혀 인지적 노력을 보이지 않을 수도 있다. 다시 말하면, 영상물 시청 전에 미리 영상물의 전체주제가 이용자에게 알려져 있는 경우와 그렇지 않은 경우, 개별 영상쇼트를 대하는 이용자의 인지노력의 양태는 매우 다를 수 있다. 영상물 전체주제의 추론에는 상당한 인지능력과 노력이 필요하다. 따라서 영상물 전체의 주제를 제시하거나 탐색하도록 피험자들에게 요청하는 방식으로 주제정보의 통합과정을 뇌파자료에 대한 내재적 유발전위 분석방법으로 들여다 볼 수 있을 것으로 기대한다. 다시 말하면 주제추론에 관련되는 주제관련 판단과 주제정보의 통합과정에 관여하는 것으로 알려진내재적 유발전위인 N400과 P600 반응을 이용하면주제 추론의 통합과정에 영향을 미치는 실험설계가 가능해 진다.
내재적 유발전위를 이용하면 주제적으로 중요한 쇼트와 중요하지 않은 쇼트를 식별할 수 있다고 가정된다. 이러한 가정 위에서 본 연구는 주제탐색조건과 주제제시 조건의 두 가지 실험상황을 설정하였다. 즉,영상물 전체의 주제를 피험자 스스로 탐색해 가야 하는 경우(이를 주제탐색조건, TE or Topic-Explor-ing)와 영상물 전체주제를 미리 알려주어 피험자의 인지적 노력이 불필요하다고 느끼는 조건(이를 주제제시 조건, TG or Topic-Given)을 달리하였다. 주제탐색조건(TE)에서 주제관련 쇼트의 P600 활성도는 주제무관 쇼트의 P600 활성도에 비하여 현저하게 클 것으로 예상할 수 있다. 반면, 주제제시조건에서 개별 쇼트의 주제관련성 정보에 따라 주제관련쇼트와 주제무관쇼트를 나누어 볼 때, 주제관련 쇼트의 P600활성도는 주제무관 쇼트의 P600 활성도가 비슷할 것으로 예상하였다. 피험자들을 주제탐색조건과 주제제시 조건으로 임의 할당하여, 주제조건을 개인간 집단변인으로 하고, 전체주제에 대한 개별 쇼트의 주제관련성을 개인내 반복측정변인으로 하는 2×2 요인설계를 사용하였다.
영상물 전체주제에 대한 개별 쇼트의 주제관련성측정은 별도의 세션을 통해 이루어졌다. 실시간 시청 시 주제관련성 측정을 진행할 경우, 실시간 동영상 시청시 뇌파측정에 영향을 미칠 수 밖에 없다. 주제관련성 판단 자체는 실시간 동영상 시청시에 주제 추론 과정의 일부로 진행할 수 있지만, 주제관련성 판단결과를 설문지에 기재하거나 등급판정을 위해 정한 단추를 누르기 위한 행동이 행동 유발전위를 일으키므로 뇌파측정결과의 해석에 있어서 혼선을 초래할 수 밖에 없다.
연구가설 1:(P600 효과가설) 주제탐색조건(TE)의 피험자 집단은 주제통합의 인지적 부담이 있는 반면, 주제제시조건(TG)의 피험자 집단은 주제통합의 인지적 부담이 없을 것이다. 따라서, 주제탐색조건에서 주제관련 쇼트에 대한 P600 활성도는 주제무관 쇼트에 대한 P600 활성도에 비하여 현저하게 클 것이다. 앞서 살펴본 것처럼 Kaan&Swaab[11]는P600 효과를 둘로 나누어 두정엽에서 발현하는 P600은 문법적 오류를 교정하는 인지적 노력을 반영하지만 전두-중앙엽의 P600은 주제 분석과 같은 고차적이고 복잡한 인지활동을 반영한다고 밝혔다. 따라서 영상물 실시간 시청시 주제관련 쇼트의 주제정보를 영상물 전체주제로 통합하는 과정에서의 인지적 부담을 반영하는 P600효과는 전두-중앙엽에 집중될것으로 예상한다.
연구가설 2:(N400 효과가설)N400효과는 주제가 명확하게 드러난 상황에서 이 주제와 무관한 쇼트에 대한 내재적 유발전위의 반응이다. 주제제시 조건의 피험자들은 영상물 전체 주제가 미리 주어지므로, 개별 쇼트의 주제관련성을 어렵지 않게 판단할 수 있다. 반면, 주제탐색조건(TE)의 피험자 집단들은 영상물 전체주제가 모호한 상태이므로 눈앞의 개별 쇼트들에 대한 주제관련성 판단도 모호해 진다. 따라서N400 효과는 주제제시조건이 주제탐색조건보다 더욱 분명할 것이며,N400효과는 주제제시조건에서 주제무관쇼트에 대한 뇌파활성도가 주제관련 쇼트에 대한 뇌파활성도보다 클 것이라고 예상한다.
3. 실험절차
3.1 실험대상과 진행순서
실험은 대학생(주제제시조건 22명; 주제탐색조건25명)들에게 두피의 32개 채널의 전극을 통해 뇌파를 측정하였다. 개별 피험자에 대한 실험절차는 두개 세션으로 구분되었으며, 동영상 시청세션에서는 자연스러운 상태에서 동영상을 시청하는 동안 뇌파를 측정하였다. 개별 동영상 시청 후 이어진 각 동영상에서 발췌한 9개의 개별 쇼트들에 대하여 피험자 스스로 주제관련성을 측정하도록 했다.
3.2 실험자료와 주제관련성 측정
실험용 동영상은 6개의 짧은 다큐 비디오들(첫 번째 세션용)과 각 비디오에서 추출한 쇼트들(두 번째 세션용)로 구성되었다.6개의 다큐 비디오들 중 4개는 문화유산채널이 제작한 5분 다큐 비디오들을 줄인 것이고, 나머지는 MBC 스페셜심리다큐(행복에 이르는 10단계)와 휴넷 감성다큐이다. 피험자별 모두 54개 쇼트중 영상물 후반부에 위치하는 26개 쇼트만분석에 포함하였다. 피험자 스스로 매긴 주제관련성정보를 기준으로 동영상 시청시 측정한 피험자별 뇌파자료와 유발전위 분석을 위해 개별 쇼트들의 시작시점으로부터 1.0초를 유발전위 분석시간단위(epoch,에포크)로 하였다.
Fig. 2. The Experimental Procedure (common for two conditions).
3.3 실험처치: 주제제시조건과 주제탐색조건
주제제시조건은 애초 영상물에 포함되었던 제목과 함께, 영상물의 주제요약을 짧게 작성하여 화면에 보여주고, 같은 내용을 녹음하여 피험자들에게 들려주었다. 동영상 시청이 끝나면 방금 시청한 영상물전체 주제와 개별 쇼트들의 주제관련성에 대한 테스트가 있을 것이라고 예고하였다. 주제제시 조건은 피험자들로부터 개별 쇼트 내용의 단순한 기억을 요구할 뿐, 쇼트내용의 주제추론이나 주제통합의 인지적 부담을 전혀 느끼지 않도록 의도되었다. 영상물 전체 주제는 피험자의 주관적 판단과는 무관하게 외부에서 주어진 정보이므로 이를 기준으로 개별 쇼트의 주제관련성에 집중할 것으로 기대되었다.
반면, 주제탐색 조건에서는 피험자들에게 주제와 관련된 아무런 정보도 제시하지 않았다. 대신, 영상물을 시청하는 동안 영상물 전체의 주제를 스스로 파악하도록 요청하였다. 동영상 시청이 끝나면 곧이어 피험자들 스스로 파악한 영상물 전체주제를 기준으로 영상물에 포함된 개별 쇼트들의 주제관련성 정도에 대한 테스트가 있을 것이라고 예고되었다. 주제탐색조건은 피험자들로 하여금 영상물 전체의 주제탐색에 집중하면서 개별 쇼트의 주제정보를 기억하고 사전지식과 함께 통합하도록 의도되었다.
3.4 뇌파 측정
뇌파 측정은 Neuroscan Synampamplifier (Com-pumedics USA, El Paso, TX, USA)와 Ag-AgClelectrodes가 에 의해 심어져 있는 32채널 Quick Cap을 사용하여 진행하였다. 국제공용의 10∼20 체계에 따른 전극들(전전두엽 FP1/FP2, 전두엽 F3/F4/Fz/F7/F8, 전-측두엽 FT7/FT8, 측두엽 T7/T8/TP7/TP8, 중앙엽 C3/Cz/C4, 전-중앙엽 FC3/FCz/FC4, 중앙-두정엽 CP3/CPz/CP4, 두정엽 P 7/P8/P3/Pz/P4, 후두엽 O1/Oz/O2)을 사용하였다. 표집율(sam-plingrate)은 1,000Hz였다. 눈깜박임을 통제하기 위해 수직안구전도(VEOG, or vertical electrooculo-gram)는 좌측 안구의 위아래 두 곳에서, 수평안구 전도(HEOG)는 양안 외안각(outercanthi)에서 측정하였다. 마스토이드 전극(A1, A2)을 이용하였다. E-Prime을 사용하여 자극제시점과 뇌파측정자료를 동기화하였다.
3.5 유발전위분석
뇌파는 CURRY7.09 (Compumedics, El Paso, TX, USA) 프로그램을 이용하여 분석했다. 뇌파 데이터의 품질이 낮은 피험자들은 제외되었고, 공분산(covar-iance) 행렬을 이용하여 잡파를 제거했다. 0.1& sim; 30Hz 주파수 대역을 사용했고, 전체 채널에서 파형의 음전위와 양전위간 차이(진폭)가 -75∼75㎶를 넘으면 잡파로 간주하여 제거했다. 유발전위분석의 기간 단위는 -200ms∼1,000ms, 즉 자극 제시전 200ms부터 자극제시 후 1,000ms까지로 정했다. 생성된 유발전위분석단위의 자극 이전 -200ms동안의 활성도 값을 이용하여 기저선 교정을 시행했다.
3.6 가설검정을 위한 통계분석
연구가설 1과 연구가설 2의 검증을 위해서 동영상 시청 후반부에 속한 26개 쇼트들에 한정하였다. 주제제시 조건과 주제탐색 조건에서 수집한 주제관련 쇼트들과 주제무관 쇼트들의 P600 잠재기에 해당하는 양전위 최고값과,N400 잠재기에 해당하는 기간 동안의 음전위 최저값을 비교하였다. 뇌파자료의 유발전위분석결과에 대해 ‘주제제시조건’과 ‘주제탐색조건’을 개인간 요인(between-subjectfactor)으로 하고‘주제무관’‘주제관련’을 개인내 요인(withinsubject factor)으로 하는 2×2 요인설계에 따른 반복 측정(repeated measures) MANOVA 검증을 실시하였다.
4. 분석결과
4.1 기초분석: 신호잡음비
일반적으로 유발전위실험에서 배경뇌파는 외부자극이 제시되기 전의 편안한 대기 상태에서 측정한 뇌파로 개념화된다. 뇌파실험에서 시선 고정점(fix-ationcross)에 이어 제시되는 500ms시간 동안 검은화면(blackscreen)을 대면하는 피험자의 뇌파로 측정한다. 동영상에 포함된 쇼트나 프레임을 추출하는 대신 여러 쇼트들이 순차적으로 재생되는 동영상 자극에 대한 뇌파실험에서 배경뇌파에 대한 개념과 조작정의를 달리해야 한다. 여기에는 여러 가지 이유가 있다. 우선 기존의 유발전위 관례와 달리 시선고정점과 검은 화면을 사용하기 어렵다. 동영상 시청중 시선고정점이나 검은 화면의 삽입은 연속되는 쇼트들의 정보처리가 필수적인 동영상의 기본속성과 모순적이다. 하나의 쇼트 말미에서 다음 쇼트 시작점을 기다리는 대기상태가 짧거나 거의 없는 상태가 배경뇌파 정의에 해당하는 대기상태가 맞는가 하는 문제도 있다. 직전 쇼트에 대한 주목과 감각정보처리에 이은 의미정보처리가 진행되는 상태일 수도 있기 때문이다.
동영상을 이용한 본 연구에서 개별 쇼트의 유발전위 분석을 위한 배경뇌파는 개념적으로는 연속적으로 제시되는 쇼트들을 순차적으로 시청하는 동영상 시청세션에서 쇼트경계에서 이전의 쇼트 시청이 끝나고 다른 쇼트의 시청이 새로 시작되기 직전 짧은 시간동안의 ‘각성된 대기상태’의 뇌파로 정의하였다. 상업영화나 상업광고의 쇼트들이 주목을 유지하기 위해 1-2초 동안 매우 빠르게 진행되는 반면 기록영화나 교육영상물에서는 6-7초의 비교적 긴 시간 동안느리게 진행된다. 어떤 장르이든 하나의 쇼트는 하나의 생각이나 느낌을 담기에 적합한 단위로 사용된다. 쇼트의 초기에 하나의 생각이나 느낌을 전달하고 나면 같은 쇼트의 후반에서 별도의 생각이나 느낌을담기는 어려운 구조이다. 이러한 쇼트의 특성을 감안하면, 배경뇌파의 개념보다 조작정의가 오히려 쉬운과제임을 알 수 있다. 배경뇌파는 쇼트경계 직전 200ms 동안의 뇌파가 기저선을 벗어난 정도로 조작 정의된다. 주제탐색조건의 배경뇌파의 잡음수준은 0.162, 최대 신호잡음비(SNR, signal-to-noiseratio)는 12.1이었고, 주제제시조건의 배경뇌파의 잡음수준은 0.206, 최대 신호잡음비는 19.0이었다. 두 조건의 모두에서 배경뇌파 대비 신호뇌파의 비율로 정의되는 신호잡음비는 유발전위분석을 위해 요구되는 합리적(reasonable) 수준,10.0을 상회하였다[20].
4.2 연구가설 1의 검정결과: P600 효과
연구가설 1은 P600효과가 주제탐색조건에서 주제제시 조건보다 더욱 뚜렷하게 나타날 것으로 예측하였다. 영상물 전체주제를 모르고 탐색해야 하는 실험실 연구자의 요청에 따라 피험자 스스로 영상물 주체를 탐색해야 하는 인지적 노력이 요구되는 상황이다. 전체 영상물의 주제는 영상물을 보는 순간 바로 드러나지 않는다. 순차적으로 편집되어 있는 일련의 쇼트들을 하나씩 처리하여 그 의미정보를 획득하고, 앞서쇼트들의 처리결과와 통합하면서 영상물 전체의 주제를 추론해야 한다. 이 과정에서 어떤 쇼트는 주제적으로 중요하고 중요하지 않은지에 대해서도 기억해 두었다가 정보통합의 과정에 호출하여 주제갱신에 반영해야 한다. 이러한 주제추론의 내면적 정신적 사건을 포착하는데 유용한 것이 내재적 유발전위이며, 주제통합과 갱신의 과정에 특히 P600이 관련된다고 알려져 있다. 반면, 피험자가 전체 영상물의 주제를 이미 알고 있는 경우, 주제형성이나 주제갱신의 인지적 부담은 현저하게 줄어들 것이다. 그 결과 주제제시 조건의 피험자들은 주제추론을 위해 인지노력을 하지 않아도 될 것이다. 내재적 유발전위가 이러한 인지노력을 포착하는데 유용한 도구라면 주제제시 조건에서 피험자들은 내재적 유발전위, 그 중 주제 추론과 통합에 관여하는 것으로 알려진 P600을 관찰하기 어려울 것이라고 예측할 수 있다.
Table1에서 인상적인 것은 주제조건의 압도적 주효과였다. 전체 30개 전극중 21개에서 통계적으로 유의미한 주효과를 발견할 수 있었다. 다수의 전두엽(Fz, F3, F4, F7, F8), 측두엽(FT7,FT8,TP8), 중앙엽(Cz, C3, C4), 전두중앙엽(FCzFC3,FC4), 중앙두정엽(CPz, CP3, CP4) 등의 전극위치에서 주제탐색조건(TE)의 P600효과가 주제제시조건(TG)의 그것보다 뚜렷하게 존재하였다. 주제탐색조건에서 주제관련쇼트에 대한 P600반응의 활성도는 주제제시 조건은 물론 같은 조건하의 주제무관쇼트에 대한 P600활성도보다 훨씬 더 크게 나타났다. 다중비교에 따른 통계적 오류가능성을 예방하는 차원의 엄격한 교정(Bonferronicorrection)이후에도 상당수의 전극에서 활성도간 차이검정의 유의도 수준은 유지되었다(Table 1의 ‘b’표시부분, 유의한 전극 23개 중 10개). 반면, 주제제시조건에서 주제관련성의 정도를 불문하고 모두 기저선에 수렴하면서 약한 음전위와 양전위를 보였다. 주제제시조건은 피험자에게 주제 추론의 인지적 부담을 줄이면서 P600효과를 나타내지 못했다. 연구가설 1은 채택되었다. 본 연구에서 주제관련쇼트와 주제무관쇼트에 대한 조작정의는 피험자 스스로가 쇼트의 주제관련성을 묻는 주관적 평가방식임을 감안하자면, 주제탐색조건에서 피험자들이 영상물을 실시간을 시청할 때 눈앞에 펼쳐져 있는쇼트들이 궁극적으로 영상물 주제와 관련되는지 관련되지 않는지 알 수 없는 상태였을 것으로 추정된다. 따라서, 대부분의 쇼트들에 주의를 기울이며 영상물의 전체내용을 이해하려고 집중하는 한편 영상물의 주제를 추론해 내기 위해 인지적 노력을 기울이고 있었을 것이라고 이해된다. 이에 비하면 주제제시 조건에서 피험자들은 이러한 부담을 전혀 느끼지 않았을 것이며, 눈앞의 쇼트들을 마주한 피험자들은 실험실 연구자가 알려준 영상물 주제와 눈앞의 쇼트의 관계에만 집중하였을 것이다. 그 결과, 주제제시 조건에서 피험자들은 주제관련 쇼트와 주제무관 쇼트에모두에 대해 낮은 유발전위를 보였던 반면에 주제 탐색 조건에서 피험자들은 주제관련 쇼트에 대해 더 높은 유발전위를 보였던 것으로 이해된다.
4.3 연구가설 2의 검정결과: N400 효과
N400효과는 주제제시 조건이 주제탐색 조건보다 더욱 분명할 것이며,N400효과는 주제제시 조건에서 주제무관 쇼트에 대한 뇌파활성도 세기가 주제관련쇼트에 대한 뇌파활성도 세기보다 클 것이라고 예상하였다. 내재적 유발전위로서 N400효과는 쇼트의 주제적 중요성에 대한 판단을 반영한다고 가정된다.
Table 1. MANOVA Test results from Mean difference of P600 amplitudes in mV
Note. Cells are means of amplitudes, t-values; *, p<0.05; **, p<0.01; ***, p<0.001; b, p<0.0017 sig. after Bonferronicorrection for multiple comparison.
따라서 영상물 전체주제를 알고 있을 때, 주제무관 쇼트를 식별하는 데 유용하다.Table2는 주 제조건별 주제관련 쇼트와 주제무관 쇼트에 대한 N400 구간의 음전위 최고점의 평균값을 비교하였다. 예를 들어 전두엽 F8의 값들은 전형적인 양상을 보여주었다. 주제 탐색 조건에서도 주제관련 쇼트와 주제무관 쇼트에 대한 N400 구간의 음전위 최저점의 평균값들은 차이가 있다 주제조건의 주효과를 나타내는 t-값이 7.81, 쇼트의 주제관련성에 따른 주효과를 나타내는 t값이 18.29, 상호작용효과를 나타내는 t값이 7.15로 모두 통계적 유의도 수준에 도달하였으며, 이와 같은 양상은 상당히 폭넓게 관찰된다. 주제탐색 조건에서 주제가 애매모호한 채 남아 있다. 그에 따라서, 눈앞에 펼쳐지는 한 쇼트의 주제관련성은 마찬가지로 모호한 채로 남아 있게 마련이다. 그 결과 영상물 전체 주제에 비추어 눈앞의 쇼트가 주제적으로 덜 중요한지 또는 더 중요한지에 대한 판단은 여전히 모호한채 진행될 것이다. 영상물 전체 주제를 탐색하는 과정에서 몇 개의 잠정적인 후보 주제들 사이의 경쟁에어떤 쇼트가 중요할지를 알 수 없다면, 주제적으로 중요한 주제관련 쇼트의 주제추론과 통합을 나타내는 P600효과도 미온적일 수 밖에 없을 것이며, 주제무관 쇼트에 대해 주제적 의미정보를 기대할 수 없을 때 보이는 N400효과도 미온적일 것이다. 따라서 시청각 채널을 통해 입력되는 감각정보에 대한 내재적유발전위의 반응은 줄어들 것이라는 예측이 합리적이다. 이에 비하여, 주제제시조건에서는 이미 영상물전체의 주제가 알려진 상황이다. 따라서, 눈앞에 펼쳐진 화면쇼트의 주제적 중요성은 거의 즉각적으로 판단할 수 있고 주제적으로 중요하지 않은 쇼트에 대한 N400효과는 크게 나타나고, 이 구간의 음전위최저값이 높게 나타나는 것으로 내재적 유발전위를 통해 주제정보의 추론과정을 포착할 수 있을 것이라는 애초의 기대와 일치하는 결과로 받아들였다. 연구가설 2도 채택되었다.
Table 2. MANOVA Test results from Mean difference of N400 amplitudes in mV
Note. Cells are means of amplitudes, t-values; *, p<0.05; **, p<0.01; ***, p<0.001; b, p<0.0017 sig. after Bonferronicorrection for multiple comparison.
5. 논의 및 한계
주제탐색 조건에서는 영상물 전체 주제와 개별 쇼트의 주제적 정보 둘 다 피험자 스스로에 의해서 파악되고 통합되어 전체적으로 갱신된다. 주제탐색 조건에서 피험자들에게 지워진 인지 부담은 삼중적이다. 실험지시문을 통해 영상물 전체의 주제를 파악하도록 강요되었고, 눈앞에 펼쳐지는 개별 쇼트의 주제관련 정도를 평가하고 뒤이어 실시되는 별도의 세션에서 테스트하는 데에 따른 인지 부담이 있었으며, 마지막으로 주제관련성이 높은 쇼트들을 테스트를 위해 기억해야 하는 부담이 있었다.
동영상 실시간 시청시의 뇌파실험 자료에 대한 내재적 유발전위 분석결과, 주제탐색 조건에서 P600 효과는 크게 나타났고 주제제시 조건에서 P600 효과는 거의 없었다. 반면 주제제시 조건에서 N400 효과는 뚜렷하였지만, 주제탐색 조건에서 N400효과는 미미했다. 주제조건을 피험자간 요인으로 하고 주제관련성을 피험자내 요인으로 하는 실험설계를 이용하였으며, 주제탐색조건과 주제관련성의 주효과와 상호작용효과를 살펴보았다. 본 연구에서 제시한 연구가설을 실험분석결과의 주효과와 상호작용효과에 비추어 상세하게 살펴보았다. 이러한 결과는 탐색, 발견, 지적 학습으로 이어지는 고도로 복잡한 인지과제의 수행에 따른 것으로 이해된다 [12-17].
본 실험연구에서는 주제관련성 평점을 위해 실시간 비디오 시청 세션과 구분하여 별도의 주제관련성평가 세션을 두었다. 동영상 시청시 주제관련성 평가와 별도의 세션에서 주제관련성을 평가하고 점수를 부여하더라도 둘 사이에 차이는 없을 것이라는 가정에 따른 것이다. 가정이 타당한지 여부에 대한 객관적 확인은 어렵다. 이 방안의 대안으로 두 가지를 고려해 볼 수 있다. 그 중 하나는 비디오 시청 세션에서 피험자 스스로 주제관련성을 직접 평가하고 그 결과를 입력하는 방법이다. 주제관련성 평가결과를 입력하는 단추누름이나 숫자기재행위에 의해서 행동뇌파(motor EEG)가 발생할 수 있으므로 타당성을 저해하게 될 것이다.
또한 다른 방안은 영상물 전체의 주제정보와 개별쇼트의 주제관련성을 전문가가 평가하여 피험자에게 제시하는 것이다. 본 논문에서 다룬 주제제시 조건은 영상물 전체의 주제정보를 외부에서 제시한 것이며, 위에서 거론한 대안은 영상물 전체의 주제정보와 함께 개별 쇼트의 주제관련성 평점도 피험자에게 제시하는 방안인 셈이다. 주제탐색 조건과 대비해 살펴본 이유이기도 하다. 주제제시 조건에서 영상물전체의 주제정보와 개별 쇼트의 주제관련성 평점을 제시하는 방안이다. 사전에 영상물의 전체 메시지 구조에 대한 면밀한 검토를 거쳐야 가능한 일이기도 하지만, 본 연구에서 다룬 주제탐색 조건과 주제제시 조건의 현저한 차이로 미루어 보아 주제제시 조건하에서 P600효과는 별로 기대하기 어렵다는 것이 분명하다. 따라서 영상물 전체의 주제와 함께 개별 쇼트의 주제관련성 평점을 피험자 스스로가 아니라 외부에서 투입하는 방안은 현실적이지 않다고 하겠다. 주제제시 조건의 결과는 영상물 전체주제가 제시된데 따른 것이기 보다는 개별 쇼트의 주제정보에 대해서는 스스로 탐색해야 하므로 제시된 주제와 탐색된 주제 사이의 불일치에 따라 이후 정보통합이 불가능하였을 수도 있다.
References
- A.G. Money and H. Agius, "Video Summarisation: A Conceptual Framework and Survey," Journal of Visual Communication and Image Representation, Vol. 19, No. 2, pp. 121-143, 2008. https://doi.org/10.1016/j.jvcir.2007.04.002
- A.W.M. Smeulders, M. Worring, S. Satini, A. Gupta, and R. Jain, "Content-based Image Retrieval at the End of the Early Years," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 12, pp. 1349-1380, 2000. https://doi.org/10.1109/34.895972
- A.G. Money and H. Agius, "Analysing User Physiological Responses for Affecive Video Summarisation," Displays, Vol. 30, No. 2, pp. 59-70, 2009. https://doi.org/10.1016/j.displa.2008.12.003
- S. Koelstra, C. Muhl, and I. Patras, "EEG Analysis for Implicit Tagging of Video Data," Proceeding of the 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops, pp. 1-6, 2009.
- M.J.A. Eugster, T. Ruotsalo, M.M. Spape, I. Kosunen, S. Barral, and N. Ravaja, et al., "Predicting Term-Relevance from Brain Signals," Proceedings of the 37th International Association for Computing Machinery Special Interest Group on Information Retrieval Conference on Research and Development in Information Retrieval, pp. 425-434, 2014.
- X. Zhu, A.B. Goldberg, M. Eldawy, C.R. Dyer, and B. Strock, "A Text-to-Picture Synthesis System for Augmenting Communication," Association for the Advancement of Artificial Intelligence, Vol. 7, pp. 1590-1595, 2007.
- R.E. Mayer, Cognitive Theory of Multimedia Learning, The Cambridge Handbook of Multimedia Learning, Cambridge University Press, New York, 2005.
- M. Allegretti, Y. Moshfeghi, J. Hadjigeorgieva, F.E. Pollick, J.M. Jose, and G. Pasi, "When Relevance Judgement is Happening? An EEGbased Study," Proceedings of the 38th International Association for Computing Machinery Special Interest Group on Information Restrieval Conference on Research and Development in Information Retrieval, pp. 719-722, 2015.
- Y.H. Kim and H.H. Kim, "A Video Summarization Study On Selecting-Out Topic-Irrelevant Shots Using N400 ERP Components in the Real-Time Video Watching," Journal of Korea Multimedia Society, Vol. 20, No. 8, pp. 1258-1270, 2017. https://doi.org/10.9717/kmms.2017.20.8.1258
- P. Burkhardt, "Inferential Bridging Relations Reveal Distinct Neural Mechanisms: Evidene from Event-related Brain Potentials," Brain and Language, Vol. 98, No. 2, pp. 159-168, 2006. https://doi.org/10.1016/j.bandl.2006.04.005
- E. Kaan and T.Y. Swaab, "Repair, Revision, and Complexity in Syntactic Analysis: An Electrophysiological Differentiation," Journal of Cognitive Neuroscience, Vol. 15, No. 1, pp. 59-201, 2003.
- C. Hendahewa and C. Shah, "Evaluating User Search Trails in Exploratory Search Tasks," Information Processing and Management, Vol. 53, No. 4, pp. 905-922, 2017. https://doi.org/10.1016/j.ipm.2017.04.001
- X., Xu and X. Zhou, "Topic Shift Impairs Pronoun Resolution during Sentence Comprehension: Evidence from Event Related Potentials," Psychophysiology, Vol. 53, No. 2, pp. 129-142, 2016. https://doi.org/10.1111/psyp.12573
- L. Wang and P.B. Schumacher, "New Is Not Always Costly: Evidence from Online Processing of Topic and Contrast in Japanese," Frontiers in Psychology, Vol. 4, No. 363, pp. 1-20, 2013
- J. Burmester, K. Spalek, and I. Wartenburger, "Context Updating during Sentence Comprehension: The Effect of Aboutness Topic," Brain and Language, Vol. 137, pp. 62-76, 2014. https://doi.org/10.1016/j.bandl.2014.08.001
- M.J. Eugster, T. Ruotsalo, M.M. Spape, I. Kosunen, O. Barral, N. Ravaja, et al., "Predicting Term-Relevance from Brain Signals," Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval, pp. 425-434, 2014.
- H. Nakano, M.A.M. Rosario, Y. Oshima-Takane, L. Pierce, and S.G. Tate, "Electrophysiological Response to Omitted Stimulus in Sentence Processing," NeuroReport, Vol. 25, No. 14, pp. 1169-1174, 2014. https://doi.org/10.1097/WNR.0000000000000250
- H.H. Kim and Y.H. Kim, "Video Summarization Using Event-Relate Potential Responses to Shot Boundaries in Real-Time Video Wathing," Journal of the Association for Information Science and Technology, Vol. 70, No. 2, pp. 164-175, 2019. https://doi.org/10.1002/asi.24103
- H.H. Kim and Y.H. Kim, "ERP/MMR Algorithm for Classifying Topic-Relevant and Topic-Irrelevant Visual Shots of Documentary Videos," Journal of the Association for Information Science and Technology, Vol. 70, No. 9, pp. 931-941, 2019. https://doi.org/10.1002/asi.24179
- S.J. Luck, Ten Simple Rules for Designing and Interpreting ERP Experiments, Event-Related Potentials: A Methods Handbook, Massachusetts Institute of Technology Press, Cambridge, Massachusetts, 2004.