Journal of rehabilitation welfare engineering & assistive technology (재활복지공학회논문지)
- Volume 13 Issue 2
- /
- Pages.143-149
- /
- 2019
- /
- 1976-7102(pISSN)
DOI QR Code
Deep learning based character-oriented image captioning method for visually impaired
시각장애인을 위한 딥러닝 기반 인물 위주 이미지 캡션 방법
- Seol, H. W. ;
- Poleak, C. ;
- Kwon, J. W.
- 설현우 (인하대학교) ;
- 찬리스 (인하대학교) ;
- 권장우 (인하대학교)
- Published : 20190000
Abstract
In this paper, we propose a system for visually impaired people to recognize visual characters and background in visual images by using deep learning. For people with visual impaired, since there is a limitation to viewing visual information such as place, action, character, etc. that appear in the video such as drama, movie or advertisement, they can only get those visual information from the Descriptive Video Service(DVS). However, screen commentary broadcasts are inconvenienced when the screenwriter collects the video information and writes the script, and the voice actor carries out the recording and the professional engineer of the screen commentary performs the video work. To improve this, the image is automatically segmented using the histogram, the characters are learned and classified by the person using CNN, and the image of the image is learned using the MSCOCO data set to describe the behavior and background of the image Captures image information. The image caption obtained from the above results can be confirmed to provide visual image information to the visually impaired by carrying out a qualitative evaluation comparing with the visual information in the image of the adult over 20 persons.
본 논문에서는 영상의 시각적인 정보를 딥러닝을 이용하여 시각장애인들에게 영상 내 등장인물과 배경을 인식하여 제공하는 시스템을 제안한다. 시각장애인들은 드라마, 영화, 광고 등 영상에서 장소, 행위, 등장인물 등 영상에 나타나는 시각적인 정보들을 제한적으로 시청하고 있어 시각적인 정보들을 화면해설방송을 사용하여 얻고 있다. 하지만 화면해설방송은 화면해설작가가 영상 정보를 수집하여 대본을 쓴 뒤 성우가 녹음을 진행하고, 화면해설 전문엔지니어가 영상 작업을 해야만 시청이 가능한 불편함을 갖는다. 이를 개선하고자 히스토그램을 이용하여 영상을 자동으로 분할하고, 등장인물들은 CNN을 이용하여 인물 별로 학습시킨 후 분류하며, 영상의 이미지를 MSCOCO 데이터 셋을 이용하여 학습시켜 이미지에 대한 행동, 배경들을 묘사한 정보를 이미지 캡션을 한다. 위의 결과를 통해 얻어진 이미지 캡션 결과에 대해서 20대 이상의 성인을 대상으로 영상내의 시각적인 정보와 비교하는 정성적 평가를 진행함으로서 시각장애인들에게 시각적인 영상 정보를 제공함을 확인할 수 있다.