Gaze Detection Using Facial Movement in Multimodal Interface

얼굴의 움직임을 이용한 다중 모드 인터페이스에서의 응시 위치 추출

  • 박강령 (연세대학교 기계 전자공학부 인공지능연구실) ;
  • 남시욱 (연세대학교 기계 전자공학부 인공지능연구실) ;
  • 한승철 (연세대학교 기계 전자공학부 인공지능연구실) ;
  • 김재희 (연세대학교 기계 전자공학부 인공지능연구실)
  • Published : 1997.11.01

Abstract

시선의 추출을 통해 사용자의 관심 방향을 알고자하는 연구는 여러 분야에 응용될 수 있는데, 대표적인 것이 장애인의 컴퓨터 이용이나, 다중 윈도우에서 마우스의 기능 대용 및, VR에서의 위치 추적 장비의 대용 그리고 원격 회의 시스템에서의 view controlling등이다. 기존의 대부분의 연구들에서는 얼굴의 입력된 동영상으로부터 얼굴의 3차원 움직임량(rotation, translation)을 구하는데 중점을 두고 있으나 [1][2], 모니터, 카메라, 얼굴 좌표계간의 복잡한 변환 과정때문에 이를 바탕으로 사용자의 응시 위치를 파악하고자하는 연구는 거으 이루어지지 않고 있다. 본 논문에서는 일반 사무실 환경에서 입력된 얼굴 동영상으로부터 얼굴 영역 및 얼굴내의 눈, 코, 입 영역 등을 추출함으로써 모니터의 일정 영역을 응시하는 순간 변화된 특징점들의 위치 및 특징점들이 형성하는 기하학적 모양의 변화를 바탕으로 응시 위치를 계산하였다. 이때 앞의 세 좌표계간의 복잡한 변환 관계를 해결하기 위하여, 신경망 구조(다층 퍼셉트론)을 이용하였다. 신경망의 학습 과정을 위해서는 모니터 화면을 15영역(가로 5등분, 세로 3등분)으로 분할하여 각 영역의 중심점을 응시할 때 추출된 특징점들을 사용하였다. 이때 학습된 15개의 응시 위치이외에 또 다른 응시 영역에 대한 출력값을 얻기 위해, 출력 함수로 연속적이고 미분가능한 함수(linear output function)를 사용하였다. 실험 결과 신경망을 이용한 응시위치 파악 결과가 선형 보간법[3]을 사용한 결과보다 정확한 성능을 나타냈다.

Keywords