Synchronization of VOD Content and Captions Using Speech Recognition and Modified Dynamic Programming

음성인식과 변경된 동적계획법을 이용한 VOD 콘텐트와 자막의 동기화

  • Oh, Juhyun (KBS Media Technology Research Institute)
  • Published : 2021.06.23

Abstract

지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있지만, 이를 저장하여 VOD 서비스 등에 제공하고자 할 때는 영상과의 비동기화(desynchronization) 문제로 인해 활용할 수 없는 문제가 있다. 본 논문에서는 이를 해결하기 위해 자동 음성인식(automatic speech recognition)과, 자막 동기화 문제에 맞게 변경된 동적계획법(modified dynamic programming)을 이용하는 방법을 제안한다. 문자열 정렬에서 삽입과 삭제 등 간격(gap)의 발생을 제어하는 제약조건과 그에 따른 점수 구조를 적용함으로써 문자열 정렬 성능을 개선한다. 또한 정렬된 폐쇄자막과 음성인식 문자열로부터 시간 동기정보를 복원하고 동기화된 자막을 생성하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하여 기존 방법에 비해 성능의 향상이 있음을 확인하였다.

Keywords

Acknowledgement

본 연구 논문은 과학기술정보통신부 및 정보통신기획평가원의 정보통신·방송 연구개발 사업의 일환으로 수행중인 한국전자통신연구원 주관 "시청각 장애인의 방송시청을 지원하는 감성표현 서비스 개발" [2019-0-00447] 과제의 지원을 받은 연구결과임.