An Efficient Face Region Detection for Content-based Video Summarization

내용기반 비디오 요약을 위한 효율적인 얼굴 객체 검출

  • 김종성 (한국항공대학교 정보통신공학과 대학원 멀티미디어검색연구실) ;
  • 이순탁 (한국항공대학교 정보통신공학과 대학원 멀티미디어검색연구실) ;
  • 백중환 (한국항공대학교 항공전자 및 정보통신공학부)
  • Published : 2005.07.01

Abstract

In this paper, we propose an efficient face region detection technique for the content-based video summarization. To segment video, shot changes are detected from a video sequence and key frames are selected from the shots. We select one frame that has the least difference between neighboring frames in each shot. The proposed face detection algorithm detects face region from selected key frames. And then, we provide user with summarized frames included face region that has an important meaning in dramas or movies. Using Bayes classification rule and statistical characteristic of the skin pixels, face regions are detected in the frames. After skin detection, we adopt the projection method to segment an image(frame) into face region and non-face region. The segmented regions are candidates of the face object and they include many false detected regions. So, we design a classifier to minimize false lesion using CART. From SGLD matrices, we extract the textual feature values such as Inertial, Inverse Difference, and Correlation. As a result of our experiment, proposed face detection algorithm shows a good performance for the key frames with a complex and variant background. And our system provides key frames included the face region for user as video summarized information.

본 논문에서는 효율적인 얼굴 영역 검출 기법을 제안하고 얼굴 객체 검출을 통해 인물 기반의 비디오 시스템을 제공한다. 비디오 분할을 위해 비디오 시퀀스로부터 장면 전환점을 검출하고 분할된 장면들로부터 대표 프레임을 선정한다. 대표 프레임은 인접 프레임 간 변화량이 가장 적은 프레임으로 선정하였으며 추출된 대표 프레임에 대해서 얼굴 영역 검출 알고리즘을 적용하여 등장인물을 포함하는 프레임들을 정보로 제공한다. 얼굴영역 검출을 위해 피부색의 통계적 특성을 이용한 Bayes 분류기를 이용한다. 피부색 검출 결과 영상으로부터 수직 및 수평 투영 기법을 이용하여 영상 분할을 수행하고 후보군들을 생성한다. 생성된 후보군 중 오검출 영역을 최소화하기 위해서 이진 분류 나무(CART)를 이용하여 분류기를 생성한다. 특징 값으로는 SGLD(spatial gray level dependence) 매트릭스로부터 Inertial, Inverse Difference, Correlation 등의 질감 정보를 이용하여 최적의 이진 분류 나무를 생성한다. 실험 결과 제안된 얼굴 영역 검출 알고리즘은 복잡하고 다양한 배경에서도 우수한 성능을 보였으며, 얼굴 객체를 포함하는 프레임들을 비디오 정보로 제공한다. 제안하는 시스템은 향후 화자 인식 기법을 이용하여 등장인물 기반의 비디오 분석 및 에 활용될 수 있을 것이다.

Keywords

References

  1. B. S. Manjunath, P. Salembier, T. Sikora, Introduction to MPEG-7, John Wiley&Sons, 2002
  2. Y. Alp Aslandogan, Clement T. Yu, 'Techniques and Systems for Image and Video Retrieval', IEEE Trans. on Knowledge and Data Engineering, vol. 11, no. 1, pp. 56-63, Jan./Feb. 1999 https://doi.org/10.1109/69.755615
  3. J. H. Lee, G. G. Lee, W. Y. Kim, 'Automatic Video Summarizing Tool using MPEG-7 Descriptors for Personal Video Recorder', IEEE Trans. on Consumer Electronics, vol. 49, no. 3, pp. 742-749, Aug. 2003 https://doi.org/10.1109/TCE.2003.1233813
  4. S. B. Hong, W. Nah, J. H. Baek, 'Abrupt Shot Change Detection Using Multiple Features and Classification Tree', IDEAL 4th International Conference on Intelligent Data Engineering and Automated Learning 2003, LNCS 2690, pp. 553-560, March 2003 https://doi.org/10.1007/b11717
  5. M. Yeung, B. L. Yeo, 'Segmentation of Video by Clustering and Graph Analysis', Computer Vision and Image Understanding, vol. 71, no. 1, pp. 94-109, July. 1998 https://doi.org/10.1006/cviu.1997.0628
  6. Azirel Rosenfeld, David Doermann, Daniel DeMenthon, Video Mining, Kluewer Academic Publishers, 2003
  7. H. Wang, S. Fu. Chang, 'A Highly Efficient System for Automatic Face Region Detection in MPEG Video', IEEE Trans. on Circuits and System for Video Technology, vol. 7, no. 4, pp. 615-928, Aug. 1997 https://doi.org/10.1109/76.611173
  8. C. W. Ngo, Y. F. Ma, H. J. Zhang, 'Video Summarization and Scene Detection by Graph Modeling', IEEE Tans. on Circuits and Systme for Video Technology, vol. 15, no. 2, pp 296-305, Feb. 2005 https://doi.org/10.1109/TCSVT.2004.841694
  9. L. Breiman, J. H. Friedman, R. A. Olshen, Charles J. Stone, Classification and Regression Tree, CRC Press, 1998
  10. H. Zhang, J. Wu, D. Zhong, and S. W. Smoliar, 'An integrated system for content-based video retrieval and browsing', Pattern Recognition, vol. 20, no. 4, pp. 643-658, 1997
  11. W. Wolf, 'Key frame selection by motion analysis', IEEE Int. Conference on Acoustic, Speech, and Signal Processing, vol. 2, pp. 1228-1231, May 1996
  12. P. O. Gresle and T, S, Huan, 'Gisting of video documents: A key frame selection algorithm using relative activity measure', 2nd Int. Conference on Visual information Systems, 1997
  13. Ying Li, C. C. Jay, Video Content Analysis using Multimodal Information, Kluewer Academic Publishers, 2003
  14. Dufaux F., 'Key frame selection to represent a video', IEEE Proceedings of International Conference on Image Processing, vol. 2, pp. 275-278, 2000
  15. Ming-Hsuan Yang, David J. Kriegman, Narendra Ahuja, 'Detecting Faces in Images: A Survey,' IEEE Trans. on PAMI, vol. 24, no. 1, pp. 34-58, Jan. 2002 https://doi.org/10.1109/34.982883
  16. Ying Dai, Y. Nakano, 'Face-Texture Model Based On SGLD and Its Application in Face Detection in a Color Scene', Pattern Recognition, vol. 29, no. 6, pp. 1007-1017, 1996 https://doi.org/10.1016/0031-3203(95)00139-5