Abstract
In this paper, we suggest a novel method of selecting visual information based on bottom-up visual attention of human. We propose a new model that improve accuracy of detecting attention region by using depth information in addition to low-level spatial features such as color, lightness, orientation, form and temporal feature such as motion. Motion is important cue when we derive temporal saliency. But noise obtained during the input and computation process deteriorates accuracy of temporal saliency Our system exploited the result of psychological studies in order to remove the noise from motion information. Although typical systems get problems in determining the saliency if several salient regions are partially occluded and/or have almost equal saliency, our system is able to separate the regions with high accuracy. Spatiotemporally separated prominent regions in the first stage are prioritized using depth value one by one in the second stage. Experiment result shows that our system can describe the salient regions with higher accuracy than the previous approaches do.
본 논문에서는 입력장치로 들어오는 수많은 시각정보 중 현 시점에서 가장 유용하다고 생각되는 정보를 인간의 상향식 주의시각에 기반하여 선택하는 시각정보 선택기법에 대해 소개한다. 제안하는 시스템은 색상, 명도, 방위, 형태 등 저수준의 공간특징 외에 시간특징으로서 움직임 정보와 3차원 정보인 깊이 정보를 추가적으로 사용함으로써 기존방법에 비해 정보 선택의 정확도를 높혔다. 움직임 정보 추출 시 발생할 수 있는 노이즈를 제거하기 위해 인간의 움직임 인지에 대한 연구결과를 이용하는 새로운 접근법을 사용하였으며, 입력 영상 내 객체들이 부분적으로 겹쳐있다거나 동일한 현저도를 가지고 있을 때에도 현저한 영역을 제대로 선택해낼 수 있도록 깊이 정보를 사용하여 유의미한 영역을 선별하고 우선순위를 부여하였다. 실험결과를 통해 제안하는 방법이 기존의 방법에 비해 높은 정확도를 가짐을 확인할 수 있었다.