DOI QR코드

DOI QR Code

A Fast Motion Estimation Algorithm using Adaptive Search According to Importance of Search Ranges

탐색영역의 중요도에 따라 적응적인 탐색을 이용한 고속 움직임 예측 알고리즘

  • Kim, Tae Hwan (Dept. of IT Convergence and Applications Eng., Pukyong National University) ;
  • Kim, Jong Nam (Dept. of IT Convergence and Applications Eng., Pukyong National University) ;
  • Jeong, Shin Il (Dept. of Information and Communication Eng., Pukyong National University)
  • Received : 2014.12.16
  • Accepted : 2015.02.24
  • Published : 2015.04.30

Abstract

Voice activity detection is very important process that voice activity separated form noisy speech signal for speech enhance. Over the past few years, many studies have been made on voice activity detection, but it has poor performance in low signal to noise ratio environment or fickle noise such as car noise. In this paper, it proposed new voice activity detection algorithm using ensemble variance based on wavelet band entropy and soft thresholding method. We conduct a survey in a lot of signal to noise ratio environment of car noise to evaluate performance of the proposed algorithm and confirmed performance of the proposed algorithm.

Keywords

1. 서 론

비디오 압축에서 움직임 예측 모듈은 비디오 압축에서 그 성능을 좌우할 정도로 중요한 부분이다. 이는 방대한 계산량을 사용하고 있는데, 최근까지 이에 대한 많은 연구가 진행되어 왔다. 움직임 예측 방법에서 블록매칭(block matching)방법은 좋은 예측 성능, 상대적으로 적은 연산량, 그리고 적은 움직임 부가정보 인하여 비디오 표준에서 널리 사용되어 왔다. 비디오 부호화를 위한 블록기반의 움직임 예측에서 전영역 탐색방법이 가장 기본적인 방법으로 사용되고 있는데, 이는 많은 계산량을 차지한다. 이의 계산량을 줄이기 위해 많은 고속 알고리즘들이 연구 되어져 왔는데, 이들 고속 알고리즘들은 크게 두 그룹으로 나눌 수 있다.

하나는 손실 움직임 예측 기법으로서 전영역 탐색방식의 예측 화질과 비교해 볼 때 예측 화질의 차이를 갖는 기법이다. 다른 하나는 무손실 예측 기법으로서 전영역 탐색 방식의 예측 화질과 비교해 볼 때 예측 화질의 손실차를 갖지 않는 방식이다[1-3]. 전자는 다음의 세부 그룹으로 다시 나누어 질 수 있다. 단일모달에러표면(unimodal error surface) 기법, 계층적 탐색, 낮은 비트 해상도, 가변 탐색법, 문턱치에 의한 중간 멈춤기법, 간소화된 에러 비교 방법 등이 이에 포함 된다[2]. 그리고 후자의 무손실 움직임 예측 기법에는 기준 블록과 후보 블록의 블록합을 이용한 후보 제거 알고리즘(SEA: Successive Elimination Algorithm) 및 그 응용 방법들[4-8], 그리고 부분 매칭 에러 값을 이용한 후보 제거(PDE: Partial Distortion Elimination) 알고리즘 및 그 응용 방법 등이 있다[9-14]. 비교해 볼 때 예측화질의 차이는 전혀 없으면서 불필요한 계산만 줄인 것이다. 그러나 손실 움직임 예측 방법들이 계산량 감축은 많지만 예측 화질이 영상에 따라 심각하게 저하되는 문제점을 지니고 있다.

이러한 문제점은 응용분야에 따라 중대한 문제가 될 수 있으며 이로 인하여 무손실 예측 방법을 여전히 연구하고 있는 중이다. 반면, 무손실 움직임 예측방법은 예측 화질이 전영역 탐색방법과 같지만 계산량의 감축이 손실 예측 방법에 비하여 많지 않다는 단점이 있는 것이다. 움직임 예측방법들의 결과들을 살펴보면 움직임 벡터의 분포가 탐색 영역에 골고루 분포된 것이 아니라 탐색영역의 중심을 기준으로 그 분포가 집중되어 있는 것을 알 수 있다. 또한 탐색 영역에 따라 움직임벡터가 될 수 있는 확률이 희박한 영역은 많은 계산량을 사용하는 매칭 기준(matching criterion)을 사용할 필요가 낮다는 것을 알 수 있다.

본 논문에서는 예측화질은 무손실 예측 방법과 거의 같으면서 방대한 계산량을 현저히 줄이는 움직임 예측 방법을 제안한다. 제안하는 방법은 움직임벡터의 분포를 이용하여 탐색영역을 나누고, 각 탐색 영역의 중요도에 따라 각각 다른 매칭기준을 적용하여 불필요한 계산을 없애고 불가능한 후보를 가능한 빨리 제거한다. 특히 움직임벡터의 분포 특성을 이용하여 영역을 구분함으로써 예측화질을 유지하면서 소요되는 계산량을 효율적으로 줄인다. 또한, 각 영역에 따라 매칭기준을 다르게 적용할 때 예측화질의 저하를 최소화하도록 매칭기준을 다르게 제시하고, 최종단계에서 복수개의 후보에 대하여 정밀한 매칭 기준을 적용함으로써 예측화질의 저하를 최소화 한다. 그리고, 최소의 블록매칭에러(block matching error)의 지점을 가능한 빨리 검출하기 위하여 중간에 최소에러를 추정하여 적응적으로 최소의 블록매칭에러의 위치를 검출한다. 제안하는 알고리즘의 이러한 특징들이 많은 계산 감축과 함께 예측화질을 우수하게 유지하게 한다.

본 논문의 구성은 다음과 같다. 2장에서 제안 방법의 이유, 절차, 논리적 타당성을 기술하고, 3장에서 실험 환경 및 결과를 제시하며, 4장에서 결론으로 끝을 맺는다.

 

2. 제안한 움직임 추정 알고리즘

전술한 바와 같이 기존의 전영역 탐색(full search) 방법과 비교하여 예측화질은 똑같으면서 화질저하가 발생하지 않는 무손실 방법으로 대표적인 방법이 부분 매칭 에러값을 이용한 후보 제거(PDE) 방법이 다[9-11]. 식 (1)에서 보듯이, 부분 매칭 에러값을 이용한 후보 제거(PDE) 방법에서는 매칭 블록에서 k행까지의 누적된 매칭에러의 중간합(APSADk)이 그때까지 결정된 최소 에러(SADmin)보다 크다면 나머지 계산을 할 필요가 없다는 것이다.

식 (1)과 식 (2)는 일반적인 부분 매칭 에러값을 이용한 후보 제거 (PDE) 에서 사용되는 절대에러합 (sum of absolute difference)의 각 행별 부분비교를 나타낸 것이다. 식 (1)에서, ft (i, j)는 t 시간의 매칭블록의 위치 (i, j)에서 화소값을 나타내고, ft-1 (i+x, j+y) 는 t-1 시간의 (i+x, j+y) 위치에서 화소값을 나타낸다. 여기서 APSADk 는 매칭블록에서 k 행까지의 누적된 부분블록매칭에러 (partial block matching error)이다. SADmin 은 탐색영역에서 해당 후보지점 탐색까지 결정된 최소의 블록매칭에러를 의미한다.

본 논문의 제안 알고리즘은 예측화질에 있어서는 무손실 움직임 예측방법과 거의 같으면서 계산량 감축은 손실 예측방법과 비슷한 성능을 얻는 방법이다. 본 논문에서 한 개의 용어를 정의한다. 본 논문에서 무손실 움직임 예측방법에 비하여 0.1dB 이하의 예측 화질 차이가 발생하는 방법을 유사 무손실 움직임 예측 방법이라고 정의한다. 본 논문의 핵심은 움직임 벡터의 확률 분포를 이용하여 탐색 영역을 네 개로 구분하고 이에 따라 후보점 탐색 패턴을 다르게 하여 효율적인 계산량 감축을 하며, 움직임 벡터의 확률 분포 및 주변 후보점의 에러 크기에 따라 블록매칭에러의 기준을 다르게 하여 예측화질을 높임과 동시에 계산량을 감축하는 것이다. 보통의 비디오영상에서는 움직임벡터의 분포가 탐색영역의 중심을 기준으로 라플라시안 분포를 이루고 있다[12]. 이를 바탕으로 탐색 영역의 중심을 기준으로 그 거리에 따라 탐색영역의 중요도를 구분짓는다.

본 논문에서는 이러한 움직임 벡터의 확률 분포를 이용하여 Fig. 1에서처럼 (가)~(라)까지 네 개의 영역을 설정하고 이에 따라 매칭에러의 기준을 다르게 적용한다. Fig. 1은 탐색영역을 나타내며, 내부의 각격자는 화소를 나타낸다.

Fig. 1.Regional classification for adaptive search.

우선 움직임 벡터가 가장 많이 발생하는 (가)영역은 PDE 알고리즘을 이용하여 블록매칭에러를 계산 한다. (가)영역은 다른 영역에 비하여 움직임벡터 발생 확률이 현저히 높기 때문에 가장 중요한 영역이며, (가)영역 부분 탐색 영역을 PSR1이라 할 때 PSR1 내의 모든 후보점에 대해서는 완전 무손실 예측 알고리즘을 이용하여 가장 정밀하게 탐색을 한다. 본 논문에서는 (가)영역의 무손실 예측 알고리즘을 적용할 때, H.264의 고속 무손실 예측 알고리즘으로 사용되는 PDE 알고리즘을 사용한다.

(나)영역은 (가) 영역에 비하여 움직임 발생 확률이 낮기 때문에 그 다음으로 중요한 영역이며, (가)영역처럼 모든 탐색점의 블록매칭에러를 구하지만 (가) 영역의 매칭 기준과는 다르게 식 (3)을 이용하여 매칭에러를 계산한다. 여기서 사용하는 매칭에러기준은 다음 식 (3)과 같이 정의 할 수 있다.

여기에서 SADmin 은 현재 후보지점까지의 최소 블록매칭에러이며, α는 스케일 상수이다. 블록매칭에러가 균일하다면, APSADk 의 매칭에러는 k*SADmin/N과 비교를 해야 한다. 그러나 실제 영상에서는 블록 매칭에러의 분포는 균일하지 않고 그 분포를 계산을하지 않고서는 알 수 없는 상황이다. 이러한 이유 때문에 α 만큼의 스케일 변수를 두어 블록매칭에러의 불균일한 분포에 대비해야 한다. α 변수를 두지 않는다면 계산량 감축은 더 얻을 수 있지만, 실제 매칭에러의 불균일한 분포로 인하여 중간에 블록매칭에러 계산을 멈추지 말아야 할 후보지점에 대해 계산을 멈추고 이로 인하여 실제 최소에러를 갖는 움직임 벡터를 찾지 못할 확률이 아주 높다. α값을 키울수록 움직임 벡터를 정확하게 찾고, 반면 소요되는 계산량은 더 많아진다. (가)영역과 (나)영역에서 매칭 에러를 계산할 때 두 영역에 대하여 동시에 진행된다. k값이 증가 되면서 (가)영역은 식 (1)의 무손실 매칭기준을 사용하고, (나)영역은 식 (3)의 매칭기준을 사용한다. 이때 기준이 되는 SADmin 은 해당 k에서 식 (1)의 최소의 APSADk에 대하여 k/N의 값을 곱하여 산출하며, 이는 최소점에 대한 에러값을 조기에 검출하고, 중간에 최소에러값이 변경된다면 신속히 그 변경값을 적용하기 위함이다.

만약, (가)영역과 (나)영역에서 최소에러 지점이 (가)영역의 변두리거나, 또는 (나)영역에서 검출된다면 그 주변 지점들은 중요한 영역으로서 최소에러지점을 중심으로 인접 8방향에 대하여 식 (3)을 이용하여 다시 검사한다. 이때 최소점 하나만 설정할 경우, 전체적인 예측 화질 저하를 초래할 수 있기 때문에 k=N에서 제거되지 않은 후보 지점에 대하여 복수개의 지점을 중심으로 위의 과정을 수행한다.

(가)영역과 (나)영역의 최소 지점과 무관한 (라)영역의 후보들은 그 중요성이 대폭 떨어지기 때문에 이의 후보들은 다음 탐색과정에서 무시하고 버려지게 된다. 이미 앞 단계에서 최소에러지점으로 가능성이 있는 후보 지점들은 매칭에러를 계산하기 때문에 이들의 영역 후보지점들은 무시하는 것이 타당하다고 판단하는 것이다.

 

3. 실험 결과 및 고찰

제안한 알고리즘과 기존의 알고리즘의 성능을 비교하기 위해, “foreman”, “car phone”, “trevor”, “akio”, “grandmother”, “claire”의 비디오 시퀀스를 가지고 실험을 하였다. “foreman”과 “car phone” 시퀀스는 비교적 많은 움직임을 가진 영상이며, “trevor”는 중간 정도의 움직임을 가지고 있으며, “akio”, “grandmother”, “claire” 시퀀스는 적은 움직임을 가지고 있는 영상이다. 매칭 블록의 크기는 16×16화소이며, 탐색 영역의 범위는 ±15 화소로 설정하였다. 프레임의 크기는 176×144 화소를 사용하였다. 실험 결과는 계산량 감축률을 위하여 평균 연산량과 예측화질평가를 위하여 PSNR(Peak Signal to Noise Ratio)로 나타내었으며, 계산량 감축은 기존의 전영역 탐색방법의 계산량을 100%로 설정하고 이의 상대적 비율로 나타내었다. Fig. 1에서 (가)영역의 탐색영역인 PSR1 은 +-1로 설정하였으며, (나), (다)영역에서 식(3)에 사용될 스케일 상수 α는 각각 2.5, 3.5로 설정하였다. k=N에서 복수개의 후보 개수는 3으로 설정하였다.

기준이 되는 전영역 알고리즘 (FS), H.264에서 사용되는 PDE 알고리즘 (PDE H.264) [10], 복잡도 기반의 고속 PDE 방법 (PDE Complex) [9], 하다마드 변환을 이용한 고속 PDE 방법 (PDE HD) [11], MSEA (Multilevel SEA) [8], 다해상도 기법 (MRME) [2], 육각형기반 탐색방법 (HEXBA) [13] 방법들과 제안 알고리즘의 결과를 비교하였다. 여기서 다해상도 계층은 두 계층으로 나누었다.

Table 1과 Table 2는 각 방법에 대하여 각 비디오 시퀀스별로 평균 연산량 감축과 예측화질 결과를 정량적으로 나타내었다. 구체적으로 본다면, Table 1의 “car phone” 영상 시퀀스에서 제안된 3.3%이하를 차지함을 알 수 있다. 이는 많은 양의 계산량 감축을 얻었음을 볼 수 있다. “trevor”와 “akio”시퀀스의 경우 이의 계산량이 3% 미만임을 볼 수 있다. Table 1의 계산량에서 보듯이, 전영역 탐색방법과 다해상도 기법 (MRME)은 고정된 계산량을 가지지만, 나머지 기법들은 모두 비디오 시퀀스마다 가변적인 계산량을 가짐을 볼 수 있다.

Table 1.Results of Computational reduction of algorithms for each image sequence [%]

Table 2Results of prediction quality of algorithms for each image sequence [dB]

Table 1에서 보는바와 같이 전체적으로 제안 방법은 전영역 탐색 방식에 비하여 2.7~3.3%의 계산량만을 차지한다. H.264의 참조 소프트웨어에서 사용중인 PDE 방법과 비교하면 이를 기준으로 20%~30%의 계산량을 차지한다. Table 2를 본다면 많은 계산량 감축에도 불구하고 예측화질은 거의 전영역 탐색과 비슷한 수준으로 볼 수 있다. 일반적으로 0.5 dB 이하이면 시각적 차이를 무시할 수 있는데, Table 2에서 보면 전영역 탐색 대비 예측화질의 최대 차이가 0.04dB이하이다. Table 2에서 보듯이 “akio”같은 움직임이 적은 비디오는 화질의 차이가 적음을 볼 수 있는데, 이는 원점을 중심으로 +-1 화소 이내에 대부분의 움직임 벡터가 분포해 있음을 유추할 수 있다. 기존의 무손실 고속 알고리즘들과 제안 알고리즘의 결과를 비교했을 때, 계산량 감축이 3~6배에 이르고 화질차이는 0~0.04dB에 그침을 알 수 있으며, 이를 통하여 제안 알고리즘이 연산량 감축 대비 뛰어난 화질을 얻음을 알 수 있다.

 

4. 결 론

본 논문에서는 예측화질은 기존의 전영역 탐색방식인 무손실 움직임예측방법과 비교하여 예측화질은 거의 같은 성능을 가지면서 계산량은 손실 움직임 예측 방법과 견줄 수 있는 유사 무손실 움직임 예측 알고리즘을 제안하였다. 제안하는 방법은 탐색영역의 중요도에 따라 매칭기준을 달리하고, 그 안에서 탐색 시에도 최소에러의 지점을 가능한 빨리 검출할 수 있도록 하였다. 전영역 탐색 방법의 연산량과 비교할 때 2.7~3.3% 정도의 계산량만을 사용하여 거의 30배의 계산량 감축을 얻었다. 또한 기존의 고속 무손실 방법과 비교하여 3~6배의 계산량 감축을 얻었으며, 예측화질의 차이는 0.04dB 이내로서 화질차이가 거의 없음을 알 수 있었다. 제안한 알고리즘은 기존의 압축 표준인 MPEG-2/4, 및 차세대 표준인 H.265에서 호환이 가능하며, 이를 이용하는 실시간 비디오 압축 응용분야에 유용하게 사용될 수 있을 것이다.

References

  1. F. Dufaus and F. Moscheni, “Motion Estimation Techniques for Digital TV: A Review and a New Contribution,” Proceeding of IEEE, Vol. 83, No. 3, pp. 858-876, 1995. https://doi.org/10.1109/5.387089
  2. J. Kim and T. Choi, “Adaptive Matching Scan Algorithm based on Gradient Magnitude for Fast Full search in Motion Estimation,” IEEE Transactions on Consumer Electronics, Vol. 45, No. 3pp. 762-772, 1999. https://doi.org/10.1109/30.793593
  3. J. Lu, K. Wu, and J. Lin, “Fast Full Search in Motion Estimation by Hierarchical use of Minkowski’s Inequality (HUMI),” Pattern Recognition, Vol. 31, No. 7, pp. 945-952, 1998. https://doi.org/10.1016/S0031-3203(97)00077-0
  4. W. Li and E. Salari, “Successive Elimination Algorithm for Motion Estimation,” IEEE Transactions on Image Processing, Vol. 4, No. 1, pp. 105-107, 1995. https://doi.org/10.1109/83.350809
  5. M.Z. Coban and R.M. Mersereau, “A Fast Exhaustive Search Algorithm for Rate-Constrained Motion Estimation,” IEEE Transactions on Image Processing, Vol. 7, No. 7, pp. 769-773, 1998. https://doi.org/10.1109/83.668031
  6. H. Wang and R. Mersereau, “Fast Algorithms for the Estimation of Motion Vectors,” IEEE Transactions on Image Processing, Vol. 8, No. 3, pp. 435-438, 1999. https://doi.org/10.1109/83.748899
  7. X.Q. Gao, C.J. Duanmu, and C.R. Zou, “A Multilevel Successive Elimination Algorithm for Block Matching Motion Estimation,” IEEE Transactions on Image Processing, Vol. 9, No. 3, pp. 501-504, 2000. https://doi.org/10.1109/83.826786
  8. T.G. Ahn, Y.H. Moon, and J.H. Kim, “Fast Full-Search Motion Estimation based on Multilevel Successive Elimination Algorithm,” IEEE Transactions on Circuits and System for Video Technology, Vol. 14, No. 11, pp. 1265-1269, 2004. https://doi.org/10.1109/TCSVT.2004.835146
  9. J. Kim, S. Byun, Y. Kim, and B. Ahn, “Fast Full Search Motion Estimation Algorithm Using Early Detection of Impossible Candidate Vectors,” IEEE Transactions on Signal Processing, Vol. 50, No. 9, pp. 2355-2365, 2002. https://doi.org/10.1109/TSP.2002.801888
  10. H.264/AVC reference software, http://iphome.hhi.de/suehring/tml/download/old_jm/, (accessed Nov. 2, 2014)
  11. S. Jin and H. Lee, "Fast Partial Distortion Elimination Algorithm based on Hadamard Probability Model," IEE Electron. Letters, Vol. 44, No. 1, pp. 17-19, 2008. https://doi.org/10.1049/el:20082872
  12. F. Cheng and S. Sun, “New Fast and Efficient Two-Step Search algorithm for Block Motion Estimation,” IEEE Transactions on Circuits System for Video Technology, Vol. 9, No. 7, pp. 977-983, 1999. https://doi.org/10.1109/76.795049
  13. C. Zhu, X. Lin, and L. Chau, “Hexagon Based Search Pattern for Fast Block Motion Estimation,” IEEE Transactions on Circuits System for Video Technology, Vol. 12, No. 7, pp. 349-355, 2002. https://doi.org/10.1109/TCSVT.2002.1003474
  14. 유태경, 문광석, 김종남, "서브블록 부분 계수 적응제거를 통한 고속 움직임 추정 알고리즘," 한국멀티미디어학회논문지, 제12권, 제4호, pp. 483-491, Apr. 2009.