2단계 신경망과 계층적 프레임 탐색 방법을 이용한 MPEG 비디오 분할

MPEG Video Segmentation using Two-stage Neural Networks and Hierarchical Frame Search

  • 김주민 (LG전자기술원 정보기술연구소) ;
  • 최영우 (숙명여자대학교 정보과학부) ;
  • 정규식 (숭실대학교 정보통신전자공학부)
  • 발행 : 2002.02.01

초록

본 논문에서는 MPEG 비디오 데이터의 컷(cut)과 디졸브(dissolve)를 검출하여 샷(shot) 단위로 분할하고 각 샷의 카메라 동작 또는 객체 움직임의 형태를 분류하는 방법을 제안하고자 한다. 정확한 샷의 위치와 카메라, 객체의 세분화된 동작을 구별하기 위한 전단계의 연구에서[1] 우선 MPEG 데이터의 I(Intra) 프레임의 DC(Direct Current) 계수를 분석하여 픽처 그룹을 Shot(장면이 바뀐 경우), Move(카메라 동작 또는 객체가 움직인 경우), Static(영상의 변화가 거의 없는 경우)으로 세분화하여 분류하였다. 이 과정에서 2단계 구조의 신경망을 구성하고 여러 종류의 특징을 서로 다른 해상도에서 추출하여 결합시키는 방법을 제안하였다. 다음 단계로 Shot 또는 Move로 분류된 픽처 그룹의 P(Predicted), B(Bi-directional) 프레임을 선별적, 계층적으로 탐색하여 컷의 정확한 발생 위치와 카메라 동작 또는 객체 움직임의 종류를 결정하는 방법을 제안한다. P, B 프레임의 매크로 블록의 종류별 분포를 통계적으로 이용하여 컷의 발생 위치를 검출하여, P, B 프레임의 매크로 블록 종류와 움직임 벡터를 동시에 사용하는 신경망을 구성하여 디졸브, 카메라 동작, 객체 움직임의 종류를 검출한다. 본 논문에서 제안하는 방법은 MPEG 데이터의 압축을 풀지 않은 상태에서 I 프레임의 DC 계수만을 사용하여 픽처 그룹을 분류하며, 분류된 픽처 그룹 내에서 일부의 P, B 프레임만을 계층적으로 선택하여 탐색함으로서 처리 시간을 감소시키고자 하였다. 세 종류의 서로 다른 비디오 데이터를 사용한 실험에서 93.9-100.0%로 픽처 그룹을, 96.1-100.0%로 컷을 검출하였다. 또한 두 종류의 비디오 데이터를 사용한 실험에서 90.13% 및 89.28%의 정확성으로 카메라 동작 또는 객체 움직임을 분류하였다.

In this paper, we are proposing a hierarchical segmentation method that first segments the video data into units of shots by detecting cut and dissolve, and then decides types of camera operations or object movements in each shot. In our previous work[1], each picture group is divided into one of the three detailed categories, Shot(in case of scene change), Move(in case of camera operation or object movement) and Static(in case of almost no change between images), by analysing DC(Direct Current) component of I(Intra) frame. In this process, we have designed two-stage hierarchical neural network with inputs of various multiple features combined. Then, the system detects the accurate shot position, types of camera operations or object movements by searching P(Predicted), B(Bi-directional) frames of the current picture group selectively and hierarchically. Also, the statistical distributions of macro block types in P or B frames are used for the accurate detection of cut position, and another neural network with inputs of macro block types and motion vectors method can reduce the processing time by using only DC coefficients of I frames without decoding and by searching P, B frames selectively and hierarchically. The proposed method classified the picture groups in the accuracy of 93.9-100.0% and the cuts in the accuracy of 96.1-100.0% with three different together is used to detect dissolve, types of camera operations and object movements. The proposed types of video data. Also, it classified the types of camera movements or object movements in the accuracy of 90.13% and 89.28% with two different types of video data.

키워드

참고문헌

  1. 김주민, 최영우, 정규식, '계층적 신경망과 다중특징을 이용한 MPEG 비디오 분할.' 한국 통신학회 하계학술발표회 논문집(상), pp. 52-55, 2000
  2. H. Zhang, A. Kankanhalli, and S. Smoliar, 'Automatic Partitioning of Full-Motion Video,' Multimedia Systems, Vol. 1, No. 1, pp. 10-28, 1993 https://doi.org/10.1007/BF01210504
  3. M. Cherfaoui and C. Bertin. 'Two-state Strategy for Indexing and Presenting Video,' Proc. of SPIE-Storage and Retrieval for Image and Video Databases II., Vol. 2185, pp. 174-184, 1994 https://doi.org/10.1117/12.171774
  4. B. Shahraray, 'Scene Change Detection and Content-Based Sampling of Video Scqucnces,' Proc. of SPIE Digital Video Compression:Algorithms and Technologies, Vol. 2419, pp. 2-13, 1995 https://doi.org/10.1117/12.206348
  5. D. Swanberg. C. F. Shu and R. Jain, 'Knowledge Guided Parsing in Video Databases.' Proc. of SPIE'93 - Storage and Retrieval for Image and Video Databases, Vol. 1908, pp. 13-24, 1993 https://doi.org/10.1117/12.143647
  6. A. Hanjalic, R. Lagcndijk, and J. Biemond, 'A New Key-Frame Allocation Method for Representing Stored Video-Strcams.' Proc. of 1st Inter Workshop on Image Databases and Multi-Media Search, pp. 67-74, Netherlands, 1996
  7. H. Zhang, S. W. Smoliar, 'Developing Power Tools for Video Indexing and Retrieval,' Proc. of SPIE'94 - Storage and Retrieval for Image and Video Databascs II, Vol. 2185, pp. 140-149, 1994 https://doi.org/10.1117/12.171771
  8. B. Yeo and B. Liu, 'A Unified Approach to Temporal Segmentation of Motion JPEG and MPEG Compressed Video,' Proc. of Inter. Conf. on Multimedia Computing and Systems, pp. 81-88, 1995 https://doi.org/10.1109/MMCS.1995.484911
  9. H. Zhang, C. Low, and S. Smoliar, 'Video Parsing and Browsing using Compressed Data,' Multimedia Tools and Applications, Vol. 1, No. 1, pp. 89-111, 1995 https://doi.org/10.1007/BF01261227
  10. H. Liu and G. Zick, 'Scone Decomposition of MPEG Comprcssed VIdeo,' Proc. of SPIE Digital Video Compression: Algorithms and Technologies, vol. 2419, pp. 26-37, 1995 https://doi.org/10.1117/12.206370
  11. N. Gamaz, X. Huang, S. Panchanathan, 'Scene Change Detection in MPEG Domain,' Proc. of IEEE Southwest Symposium on Image Analysis and Interpretation, pp. 12-17, 1998 https://doi.org/10.1109/IAI.1998.666852
  12. F. Arman, A. Hsu and M. Y. Chiu, 'Feature Management for Large Video Databases,' Proc. of SPIE Storage and Retrieval for Image and Video Databases, Vol. 1908, pp. 2-12, 1993 https://doi.org/10.1117/12.143638
  13. 김가현, 문형식, 'MPEG 압축된 비디오의 자동 분할기법,' 한국정보처리학회 논문지, 제6권 제4호, 1999
  14. 이충훈, 이흥규, '패턴인식을 이용한 MPEG 비디오 스트림상에서의 장면 전환 검출,' 한국정보과학회 봄 학술발표 논문집, 제 13권 제 1호, pp, 619-621, 1998
  15. J. S. Boreczky and L. A. Rowe, 'Comparison of Video Shot Boundary Detection Techniques,' IS&SPIE, Vol. 2670, pp. 170-179, Feb. 1996 https://doi.org/10.1117/12.234794
  16. 대우전자 영상연구소, MPEG 비디오, 연암출판사, 서울, 1995
  17. 김상운, 패턴인식 입문, 홍릉과학출판사, 서울, 1992