Methods for Video Caption Extraction and Extracted Caption Image Enhancement

영화 비디오 자막 추출 및 추출된 자막 이미지 향상 방법

  • 김소명 (LG전자 디지털 TV 연구소) ;
  • 곽상신 (OrCom 주임 연구원) ;
  • 최영우 (숙명여자대학교 정보과학부) ;
  • 정규식 (숭실대학교 정보통신전자공학부)
  • Published : 2002.04.01

Abstract

For an efficient indexing and retrieval of digital video data, research on video caption extraction and recognition is required. This paper proposes methods for extracting artificial captions from video data and enhancing their image quality for an accurate Hangul and English character recognition. In the proposed methods, we first find locations of beginning and ending frames of the same caption contents and combine those multiple frames in each group by logical operation to remove background noises. During this process an evaluation is performed for detecting the integrated results with different caption images. After the multiple video frames are integrated, four different image enhancement techniques are applied to the image: resolution enhancement, contrast enhancement, stroke-based binarization, and morphological smoothing operations. By applying these operations to the video frames we can even improve the image quality of phonemes with complex strokes. Finding the beginning and ending locations of the frames with the same caption contents can be effectively used for the digital video indexing and browsing. We have tested the proposed methods with the video caption images containing both Hangul and English characters from cinema, and obtained the improved results of the character recognition.

디지털 비디오 영상을 효과적으로 색인하고 검색하기 위해서 비디오의 내용을 함축적으로 표현하고 있는 비디오 자막을 추출하여 인식하는 연구가 필요하다. 본 논문에서는 압축되지 않은 비디오 영화 영상에 인위적으로 삽입한 한글 및 영어 자막을 대상으로 자막 영역을 추출하고, 추출된 자막 이미지를 향상시키는 방법을 제안한다. 제안한 방법의 특징은 동일한 내용의 자막을 갖는 프레임들의 위치를 자동으로 찾아서 동일 자막 프레임들을 다중 결합하여 배경에 포함되어 있는 잡영의 일부 또는 전부를 우선 제거한다. 또한, 이 결과 이미지에 해상도 중대, 히스토그램 평활화, 획 기반 이진화, 스무딩의 이미지 향상 방법을 단계적으로 적용하여 인식 가능한 수준의 이미지로 향상시킨다. 제안한 방법을 비디오 영상에 적용하여 동일한 내용의 자막 그룹 단위로 자막 이미지를 추출하는 것이 가능해졌으며, 잡영이 제거되고 복잡한 자소의 획이 보존된 자막 이미지를 추출할 수 있었다. 동일한 내용의 자막 프레임의 시작 및 글위치를 파악하는 것은 비디오 영상의 색인과 검색에 유용하게 활용될 수 있다. 한글 및 영어 비디오 영화 자막에 제안한 방법을 적용하여 향상된 문자 인식 결과를 얻었다.

Keywords

References

  1. Y. Shong, H. Shang, A. K. Jain, 'Automatic Caption Localization in Compressed Video,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 4, pp. 385-392, 2000 https://doi.org/10.1109/34.845381
  2. Y. K. Lim, S. H. Choi and S. W. Lee, 'Text Extraction in MPEG Compressed Video for Content-based Indexing', Proceedings of 15th International Conference of Pattern Recognition, Vol. 3, pp. 409-412, Spain, 2000 https://doi.org/10.1109/ICPR.2000.902945
  3. 곽상신, 김소명, 최영우, 정규식, '효율적인 비디오 자막 인식을 위한 영상 향상 방법', 제12회 영상처리 및 이해에 관한 워크샵 발표논문집, pp. 342-346, 2000
  4. J.-C. Shim, C. Dorai and R. Bolle, 'Automatic Text Extraction from Video for Content-Based Annotation and Retrieval', Proceedings of 14th International Conference of Pattern Recognition, Vol. 1, pp. 618-620, Brisbane, 1998 https://doi.org/10.1109/ICPR.1998.711219
  5. H. Li and D. Doermann, 'Automatic Identification of Text in Digital Video Key Frames', Proceedings of 14th International Conference of Pattern Recognition, Vol. 1, pp. 129-132, Brisbane, 1998 https://doi.org/10.1109/ICPR.1998.711097
  6. Hae-Kwang Kim, 'Efficient Automatic Text Location Method and Content-Based Indexing and Structuring of Video Database', Journal of Visual Communication and Image Representation, Vol. 7, No. 1-4, pp.336-344, 1996 https://doi.org/10.1006/jvci.1996.0029
  7. 이미숙, 방건, 임영규, 홍영기, 김두식, 이성환, '내용 기반 색인 및 검색을 위한 실시간 뉴스 비디오 파서의 설계 및 구현', 한국정보과학회 가을 학술발표논문집, Vol. 24, No.1, pp. 268-365, 1997
  8. T. Sato,T. Kanade, E. K. Hughes and M. A. Smith, 'Video OCR for Digital News Archives,' IEEE Workshop on Content-Based Access of Image and Video Databases, pp. 52-60, India, 1998
  9. H. Li, O. Kia and D. Doermann, 'Text Enhancement in Digital Video', Proceedings of SPIE Conference on Document Recognition and Retrieval VI, Vol. 3651, pp. 2-9, 1999 https://doi.org/10.1117/12.335804
  10. V. Wu, R. Manmatha and E. M. Riseman, 'Finding text in images', 2nd ACM International Conference on Digital Libraries, Philadelphia, pp. 3-12, 1997 https://doi.org/10.1145/263690.263766
  11. 전병태, 배영래, 양영규, '다단계 특징 추출에 의한 일반화된 자막 영역 추출 방법', 제12회 영상처리 및 이해에 관한 워크샵 발표논문집, pp. 429-434, 2000
  12. 전병태, 정세윤, 이재연, 배영래, '뉴스 아이콘 자막 및 내용 자막 추출', 한국정보과학회 가을 학술발표 논문집, Vol. 24, No.2, pp.127-130, 1997
  13. Pyeong-Kee Kim, 'Automatic text location in complex color images using local color quantization,' Proceedings of the IEEE Region10 Conference, Vol. 1, pp. 625-632, 1999 https://doi.org/10.1109/TENCON.1999.818493
  14. 이성환, 시각장애인을 위한 착용형 컴퓨터 시각 기술의 현황 및 전망', 제13회 영상처리 및 이해에 관한 워크샵 발표논문집, pp. 3-8, 2001
  15. Yu Zhong, Kalle Karu, Anil K. Jain, 'Locating text in complex color image,' Pattern Recognition, Vol. 28, No. 10, pp. 1523-1535, 1995 https://doi.org/10.1016/0031-3203(95)00030-4
  16. Anil K. Jain, Bin Yu, 'Automatic text location in images and video frames,' Pattern Recognition, Vol. 31, No. 12, pp. 2055-2076, 1998 https://doi.org/10.1016/S0031-3203(98)00067-3
  17. R. Gonzalez and R. Woods, Digital Image Processing, Addison-Wesley, 1992
  18. M. Kamel and A Zhao, 'Extraction of Binary Character/Graphics Images from Grayscale Document Images', Graphical Models and Image Processing, Vol. 55, No. 3, pp. 203-217, 1993 https://doi.org/10.1006/cgip.1993.1015
  19. W. Niblack, An Introduction to Image Processing, Prentice Hall, 1986