1. 서론
한국농촌경제연구원에 따르면 한국의 양돈 생산액은 2018년 기준으로 약 7조 원을 기록[1]하여, 쌀생산액인 약 8조 원에 이어 농업 생산액 2위에 이를 정도로 대한민국의 중요한 산업이다. 따라서 양돈 업계에서는 돼지의 생산성을 증대시키기 위하여 많은 노력을 기울이고 있으나, 관리인 1명당 약 1,000마리에 이르는 규모의 돼지들을 관리하기 때문에 모든 돼지에 대한 세밀한 관찰이 불가능하며 생산성 증대에 한계가 있는 상황이다.
이러한 문제를 컴퓨터를 이용하여 해결하기 위하여 돈사 천장에 카메라를 설치하고 카메라로부터 획득한 영상 정보로부터 돼지의 정보를 자동으로 추출하는 다양한 모니터링 방법들이 발표되고 있다[2- 10]. 그러나, 최근의 딥러닝 기술을 적용한 객체 탐지기들의 정확도가 크게 개선되었음에도 불구하고, 모든 돼지들이 카메라를 향하여 포즈를 취해주지 않기 때문에 시설물이나 다른 돼지로부터 겹침(occlusion) 현상에 의한 정확도 하락 이슈가 남아있으며, 실제 농장에 적용하여 생산성 향상을 위한 다양한 돼지 모니터링 응용을 위해서는 우선적으로 개별 돼지를 보다 정확히 탐지할 수 있어야 한다. 본 연구에서는 비디오 데이터의 특성을 이용하여 돈사 비디오 모니터링 환경에서 딥러닝 기반 객체 탐지기의 돼지탐지 문제를 해결(즉, 실시간 처리 속도를 만족하면서 돼지 탐지 정확도 개선)하고자 한다.
사실 정지영상에 대한 객체 탐지 정확도가 크게 개선되었음에도, 비디오 데이터에 대한 실시간 처리나 겹침에 따른 정확도 하락 등의 이유로 동영상에서의 객체 탐지 문제는 최근 주요한 연구 이슈로 활발히 연구되고 있다[10-22]. 본 연구에서는 다양한 연구 방향 중 실시간 조건을 만족하면서 정확도를 개선하기 위해, 딥러닝 기반 탐지기 중 처리속도 대비 정확도가 우수하다고 알려진 CNN 기반 탐지기 결과를 후처리[21,22]하는 방법을 따른다.
먼저 tilted-down-view 카메라에서 획득한 학습용 동영상으로부터 영상 내 돼지들의 크기를 균일하게 하기 위하여 카메라 보정과 관련된 영상처리 기법을 적용한 후 각 픽셀 위치별 움직임 여부를 판단하고, 움직임이 충분한 경우(본 연구에서는 연속된 프레임 간 움직임이 발생한 픽셀의 수가 학습 데이터의 평균 돼지 크기에 해당하면 움직임이 충분하다고 설정) 키 프레임(key frame)으로 추출한다. 추출된 각각의 키 프레임에 대하여 딥러닝 기반 탐지기 중 처리속도 대비 정확도가 우수하다고 알려진 YOLOv4 [23] 탐지기를 적용하여 돼지의 경계 박스(bounding box)들을 획득한다. 최종적으로, 인접 키 프레임 간의 경계 박스들을 본 논문에서 제안하는 경계 박스 매칭 알고리즘을 이용하여 병합한 후 추가 생성 또는 누락된 경계 박스들에 대한 처리를 마무리한다.
제안 방법의 타당성을 검증하기 위해 실제 돈사에서 획득된 비디오 데이터로 실험한 결과, 실시간 처리를 만족하면서도 개별 프레임에 대한 YOLOv4의정확도가 86%에서 97%로 크게 개선되었음을 확인하였다. 또한, 기존의 비디오 객체 탐지 및 추적 방법에 비하여, 제안 방법이 더 빠른 수행 속도로 더 정확히 돼지를 탐지할 수 있음을 확인하였다. 이는 동일한 모델로 복잡한 비디오 객체 탐지 및 추적을 수행하는 것보다, 간단한 경계 박스 매칭 알고리즘을 이용하여 수행시간 증가를 최소화하면서도 상이한 앙상블 모델로 비디오 객체 탐지를 수행하는 것이 정확도 개선 측면에서 더욱 효과적이며, 본 연구의 독창성과 우수성을 확인할 수 있었다.
본 논문의 구성은 다음과 같다. 2장에서는 비디오에서의 돼지 탐지와 관련된 기존 연구들을 간략하게 소개하고, 3장에서는 본 연구에서 제안하는 키 프레임 추출과 키 프레임 간 돼지 탐지 결과 병합 방법에 관하여 기술한다. 4장에서는 제안한 방법으로 실험한 결과를 객관적인 지표로 평가하고, 마지막으로 5 장에서 결론 및 향후 연구에 대하여 언급한다.
2. 관련 연구
2.1 정지영상에서의 돼지 탐지
돼지의 생산성에 영향을 주는 여러 요인 중 돼지의 무게는 돼지의 건강 및 성장 상태, 적정 무게 도달 여부를 통한 돼지의 출하 여부 및 사료 배급량을 결정하며, 특히 가성비 기준 적정 출하 시점과 저성장돈을 결정하는 중요한 요인이다. 일반적으로 돼지의 무게는 저울을 이용하여 측정하나, 저울을 이용한 무게 측정은 노동력을 많이 소모할 뿐만 아니라 많은 시간을 소요하며, 돼지와 접촉하면서 부상이 생길 수 있는 위험한 작업이기도 하다. 또한, 국내 양돈 농가의 환경은 관리인 1명당 약 1,000마리에 이르는 규모의 돼지들을 관리하기 때문에, 약 100kg에 육박하는 모든 돼지의 무게를 직접 측정하는 것은 현실적으로 불가능하다.
이러한 문제점을 해결하기 위하여 관리인이 직접 돼지의 무게를 측정하는 방법 대신, 돈사 천장에 카메라를 설치하고 카메라로부터 획득한 영상 정보에 영상처리 기법을 이용하여 돼지의 무게를 추정하는 다양한 방법들이 제안되고 있다[2,3]. 예를 들어, 돈사 천장에서 획득된 정지영상으로부터 돼지의 픽셀 수를 측정하고 선형회귀 함수를 이용하여 돼지의 무게를 추정한 결과, 실제 돼지 무게의 2 kg 내외 오차로 무게 추정이 가능함이 보고되었다[2]. 그러나 이러한 방법은 앞서 언급한 시설물이나 다른 돼지로부터 겹침(occlusion) 현상에 의한 정확도 하락 문제를 피하기 위해 시설물이 없는 특수한 촬영용 돈방에서 한 마리 돼지씩 무게를 추정하는 방식으로, 실제 농가에 적용하기는 어려움이 있다.
보다 실질적인 농가 적용을 위해서는 실제 돼지들이 거주하는 돈방에서 자연스럽게 개별 돼지들의 무게 추정에 필요한 정보 등 유용한 정보들을 분석할 수 있어야 하고, 이를 위하여 근접 돼지들 간의 구분을 위한 다양한 선행 연구[4-8]가 발표되었다. 그러나 돈방내 모든 돼지들이 카메라를 향하여 포즈를 취해주지 않기 때문에, 지속적으로 입력되는 동영상을 분석하면서 원하는 돼지의 정보를 추출할 필요가 있다. 하지만 정지영상에서의 돼지 탐지 정확도의 한계 때문에 돈방내 전체 돼지들의 움직임이 감소했는지 여부를 통상의 영상처리 기법으로 탐지하는 수준의 비디오 분석 결과가 발표[9,10]되었지만, 보다 유용한 정보 분석을 위해서는 비디오 특성을 이용하여 돼지 탐지의 정확도를 개선해야 한다. 또한, 돼지 의무게 추정 외에도 돼지들 간의 공격 행동 파악 및 환돈/폐사 돈 탐지 등 생산성 향상을 위한 고급 비디오분석(high-level video analytics)을 이용한 다양한 돼지 모니터링 응용을 위해서는 보다 정확한 돼지탐지가 선행되어야 한다.
2.2 비디오 객체 탐지
비디오 데이터에 대한 실시간 처리나 겹침에 따른 정확도 하락 등의 이유로 동영상에서의 객체 탐지 문제는 최근 주요한 연구 이슈로 활발히 연구되고 있다[11,12]. 예를 들어, 비디오 내 움직임 정보를 활용하기 위해 광류(optical flow)를 이용한 방법[13,14], LSTM을 이용한 방법[15,16], 추적을 이용한 방법[17,18] 등이 제안되고 있다. 또한, 개별 프레임에서 추출된 특징들을 결합하기 위한 다양한 특징 필터링 방법[19,20] 등도 보고되고 있다. 그러나 Imagenet VID 데이터 등 공개 데이터를 이용한 성능 비교에 따르면, YOLO[23] 등 가성비(수행속도 대비 정확도)가 뛰어난 탐지기의 결과를 후처리(post-processing)하는 방법[21,22]이 가장 좋은 가성비를 보여줌을 확인할 수 있다.
예를 들어, 비디오의 각 프레임에 대하여 CNN 기반 탐지기의 결과를 병합하는 방법 중 SeqNMS[20] 는 프레임 간 박스가 매우 유사한 결과를 활용하여 탐지 결과의 정확도를 개선하였다. 또한, SeqBbox Matching[22]은 프레임간 박스의 유사한 결과를 병합하여 현재 프레임의 박스의 신뢰도를 수정하였고 이를 통하여 누락된 탐지 일부를 해결하였다. 본 연구에서도 비디오 객체 탐지를 위한 다양한 연구 방향 중 실시간 조건을 만족하면서 정확도를 개선하기 위해, 딥러닝 기반 탐지기 중 수행속도 대비 정확도가 가장 우수하다고 알려진 YOLOv4[23] 탐지기 결과를 돼지 모니터링에 적합하도록 후처리하는 방법을 제안한다. 특히, 동일한 모델로 복잡한 비디오 객체탐지 및 추적을 수행하는 기존의 비디오 객체 탐지 및 추적 방법과 달리, 간단한 경계 박스 매칭 알고리즘을 이용하여 수행 시간 증가를 최소화하면서도 상이한 앙상블 모델로 비디오 객체 탐지의 정확도를 개선할 수 있는 방법을 제안한다.
3. 제안 방법
본 논문에서는 입력되는 비디오 스트림에 대하여 돈사 내 돼지들에 대한 움직임이 설정된 threshold 이상 검출되는 키 프레임을 추출하여 객체 탐지 효율성을 개선하는 방법을 제안한다. 또한, 추출한 키 프레임들에 대하여 추가적인 연산 비용을 최소화하면서도 두 개의 딥러닝 모델들(본 논문에서는 model A 및 model B로 명시)의 경계 박스 결과들을 보정하고 결합하는 모델 앙상블 방법을 제안한다. 본 논문의 제안 방법에 대한 전체적인 구조는 Fig. 1과 같다.
Fig. 1. Overview of a Proposed Method.
3.1 키 프레임 추출
키 프레임 선택을 위해서는, 이전 키 프레임(Previous Key Frame)과 현재 입력 프레임(Current Input Frame)의 비교를 통하여 현재 입력 프레임에서 움직임이 있는 돼지의 수를 추정한다. 즉, 두 프레임 간 화소 차이를 이용하여 움직임이 있는 픽셀의 수를 측정하고, 일정 값 이상의 움직임이 있으면 현재 입력 프레임을 키 프레임으로 선택한다.
먼저, 딥러닝 기반의 객체 탐지기(i.e., YOLOv4) 학습 데이터를 이용하여 돈방에 있는 돼지들의 GT 경계 박스 평균 크기(Average BB Size)를 구하고, 입력되는 테스트 비디오 스트림의 첫 번째 프레임을 이전 키 프레임으로 초기화한다. 이후 입력되는 테스트 비디오 스트림의 각 프레임에 대하여, 이전 키 프레임(Previous Key Frame)과 현재 입력 프레임 (Current Input Frame) 간의 움직임 차이가 발생하는 픽셀 수 D를 획득한다. 마지막으로 움직임 차이가 발생하는 픽셀 수 D를 돼지의 평균 크기 S(= Average BB Size)로 나누어 움직임이 있는 돼지 수를 추정하고, 일정 값(i.e., THkeyframe) 이상의 움직임이 있으면 현재 프레임을 키 프레임으로 선택한다. 통상 돈방의 카메라는 고정되어 있으며 돼지들도 일정 기간(예를 들어, 한 달) 같은 돈방내에서 사육되는 closed room 모니터링 환경이므로, 카메라 설치 후 해당 돈방의 지속적인 모니터링에 의해 돼지의 평균 크기 S는 매우 정확하게 튜닝될 수 있다. 본 논문에서는 키 프레임 추출을 위한 기준 값을 THkeyframe = 1(즉, 평균 돼지 크기)로 설정하였으며, 키 프레임을 추출하는 알고리즘을 요약하면 Fig. 2의 Algorithm 1과 같다.
Fig. 2. Algorithm for Key Frame Extraction.
3.2 키 프레임 간 돼지 탐지 결과 병합
기존의 컴퓨터 비전 분야 모델 앙상블 기법들은 정확도를 개선하기 위하여 한 장의 입력 영상(비디오 프레임)에 대하여 복수 개의 모델을 적용하고 각각의 탐지 결과를 병합하는 방법을 사용하였다[23]. 그러나, 이러한 모델 앙상블 기법을 그대로 적용하게 되면 다양한 탐지 결과들을 이용함으로써 탐지 정확도를 개선할 수 있으나, 복수 개의 모델을 사용함으로써 필연적으로 수행속도가 적게는 약 2배, 많게는 수십 배 이상으로 느려지는 문제가 발생한다. 따라서, 실시간 탐지 성능이 중요한 비디오 객체 탐지에서는 정확도 개선과 수행속도 감소의 트레이드오프를 고려해야 한다. 본 논문에서는 2개의 모델을 사용하지만, 수행속도 감소가 크지 않도록 2개의 탐지 결과를 결합하고 보정하는 방법을 제안한다.
먼저 Fig. 1에 나타낸 바와 같이 추출된 t-1번 째 키 프레임과 t번째의 키 프레임에 대하여 각기 다른 모델을 적용하여 객체를 탐지한다. 그리고 설명을 위하여 Fig. 3에 나타낸 바와 같이 두 키 프레임 간 움직임이 발생한 영역과 그렇지 않은 영역을 구분한 후, CIoU 기법[24]을 이용하여 두 키 프레임 간 경계 박스들의 CIoU 값을 계산한다. 이후 일정 이상의 CIoU 값(i.e., 본 논문에서는 0.4로 설정)을 가진 경계 박스들 중 가장 높은 CIoU를 가진 경계 박스들부터 매칭시킨다. 이때, 기존 박스와 겹치는 현상을 방지하기 위해서 앞서 수행한 CIoU 매칭을 수행하는 중 기존탐지된 박스와 겹칠 시에는 매칭을 수행하지 않는다. 즉, t번째 키 프레임의 매칭된 경계 박스 중, 움직임이 없는 영역의 것은 Stay Box로, 움직임이 있는 영역의 것은 New Box로 해석될 수 있다. 또한, 두 키 프레임 간 매칭되지 않은 경계 박스들에 대해서는, 각각 Disappear Box(즉, t-1번째 키 프레임에는 있지만 t번째 키 프레임에는 매칭되는 박스가 없는 경우), Appear Box(즉, t번째 키 프레임에는 있지만 t-1번째 키 프레임에는 매칭되는 박스가 없는 경우)로 해석될 수 있다. 연속하는 두 개의 키 프레임에 대하여 각각의 모델에서 탐지된 경계 박스들을 매칭하는 알고리즘을 요약하면 Fig. 4의 Algorithm 2와 같다.
Fig. 3. State Transition between Consecutive Key Frames.
Fig. 4. Algorithm for Bounding Box Matching.
특히, 움직임이 없는 픽셀 위치에 대하여 앙상블 효과를 극대화하기 위하여 Stay Box에 대한 박스합병을 먼저 적용한 후, 남은 박스들과의 박스 합병을 다시 적용하는 cascaded box merging 방법을 제안하며, 그 구조도를 Fig. 5에 나타내었다. 여기서 Box Removal 단계의 Confidence 파라미터는 각 모델에 의하여 생성된 박스의 신뢰도가 설정된 Confidence 값보다 작으면 제외됨을 의미하며, NMS(Non Maximum Suppression) 단계에서는 생성된 박스 간 중복 정도가 설정된 Threshold 값보다 크면 신뢰도가 작은 박스가 중복 박스로 제외됨을 의미한다. 또한, 박스 합병에 필요한 파라미터(Confidence_A, Confidence_B, NMS Threshold_A, NMS Threshold_B) 값에 따라 박스 합병 결과가 달라질 수 있으며, 이러한 파라미터 값에 따른 정확도 차이를 4장에서 설명한다.
Fig. 5. Cascaded Box Merging.
4. 실험 결과
본 실험은 경상남도 하동군에 위치한 바른양돈 내에 70마리 돼지가 활동하는 돈사에서, 천장의 높이 제약 때문에 절반의 영역만 모니터링하는 카메라 (Fig. 6, Fig. 7, Fig. 8의 화면 하단에서 돼지들이 IN/OUT 가능)에서 획득된 비디오 데이터로 수행되었다. 즉, 영상 데이터 촬영을 위해 돈사의 중앙을 기준으로 2.1 m 높이의 기둥에 약 45도 각도로 QNO 6012R 카메라를 설치하였으며, 이를 통해 1920 × 1080 해상도의 돼지들 영상 데이터를 획득하였다. 또한, tilted-down-view로 촬영된 영상 내 돼지들의 크기를 균일하게 하기 위하여 Warp Perspective[26] 영상처리 기법을 적용하였다. 본 실험은 Ubuntu 16.04 LTS OS, Intel Core i7-7700K 4.20 GHz CPU, GeForce RTX 2080 Ti(4352 CUDA cores, 11 GB VRAM) GPU, 32 GB RAM, Visual Studio 2017, 영상처리 라이브러리 OpenCV 3.4[26] 환경에서 수행되었다.
Fig. 6. Illustration of Extracted Key Frames. (a) Consequtive Key Frames with 1-Pig Moving, (b) Consequtive Key Frames with 2-Pig Moving, and (c) Consequtive Key Frames with 3-Pig Moving.
Fig. 7. Illustration of Detection Boxes with the Proposed Ensemble Method.
Fig. 8. Result of Baseline and Proposed Method.
본 논문이 제안한 모델 앙상블 방법을 수행하기 위해서는 키 프레임 내 돼지 탐지를 위한 model A와 model B를 학습시킬 필요가 있다. 따라서 본 논문에서는 model A와 model B의 학습 데이터에 대하여 각기 다른 파라미터의 CLAHE(Contrast Limited Adaptive Histogram Equalization) 영상처리 기법[27]을 이용하여 image augmentation을 수행 후 학습을 진행하였다. Table 1은 각 모델별로 사용된 CLAHE 파라미터 값을 보여준다. 즉, 각 모델별 다른 영상처리 결과를 입력하기 위하여, 다양한 조합의 CLAHE 파라미터에 따른 영상처리 결과의 전경과 배경의 평균 픽셀값 차(Difference)와 정보량(Entropy)을 측정하였으며, Table 1에 정리한 바와 같이 각 모델이 유사한 Entropy를 갖지만 Difference 차이가 최대가 되도록 파라미터를 설정(즉, 앙상블 모델 간 다양성을 위하여, 2개의 앙상블 모델 각각이 상이한 특징을 추출하도록 CLAHE 파라미터 값을 도출)하였다.
Table 1. Comparison of CLAHE parameters for Model A and Model B.
본 논문에서는 획득된 입력 비디오 스트림에서 총 400장의 키 프레임을 추출하였으며, 200장은 학습 데이터, 200장은 테스트 데이터로 사용하였다. Fig. 6은 추출된 키 프레임의 예시를 보여준다. 예를 들어, Fig. 6 (a)는 키 프레임 간 돼지가 1마리 움직인 경우를 보여주며 (b)는 키 프레임 간 돼지가 2마리 움직인 경우를, (c)는 키 프레임 간 돼지가 3마리 움직인 경우를 각각 보여준다.
또한, 이렇게 추출된 키 프레임에 대하여 각각의 모델 결과 및 앙상블 결과를 Fig. 7에 나타내었다. Fig. 7과 같이, t 프레임(model A 적용)과 t+1 프레임 (model B 적용)에서 나타난 각각의 에러(False Negative를 연두색 점선으로 표시)가 상호 보완적인 모델 앙상블을 통해 해결(파랑색 실선으로 표시) 된것을 확인할 수 있다. 또한, t+1 프레임(model B 적용)과 t+2 프레임(model A 적용)에서 나타난 에러도, 모델 앙상블을 통해 상호 보안 된 것을 확인할 수 있다.
또한, 제안 방법의 효과를 정량적으로 분석하기 위해, Table 2에 추출된 200장의 키 프레임에 대하여 베이스라인인 YOLOv4[23] 대비 제안 방법의 정확도 개선 정도를 정리하였다. 즉, 본 논문의 제안 방법은 기존 베이스라인 대비 TP가 1.16배 개선되었으며, FP는 1.35배, FN은 3.64배 감소됨을 확인하였다. 기존 베이스라인과 비교하였을 때 제안 앙상블 방법은 오탐지 결과가 감소(특히 FN이 크게 감소)하고 정탐지 결과가 증가하는데, 이는 Fig. 8(기존 베이스라인과 제안 방법의 탐 지 결과 예시)에 보여주는 것처럼 빨간색 점선 박스로 표시한 베이스라인의 누락 돼지가 앙상블 방법에 의하여 정확히 탐지되기 때문이다.
Table 2. Accuracy Comparison of Video Pig Detection.
또한, Table 3에 추출된 200장의 키 프레임에 대하여 비디오 객체 탐지의 기존 방법(SeqNMS[21] 및 SeqBboxMatching[22])과 제안 방법의 정확도 및 수행속도를 비교하였다. 정확도 AP는 Average Precision을 의미하며 통상적인 객체 탐지 정확도 측정 시 활용되는 성능 지표이며, 수행속도 fps는 frames per second를 의미하고, 두 수치 모두 높을수록 성능이 높음을 의미한다. 기존 방법인 SeqNMS[21]는 베이스라인 대비 3%의 정확도가 개선되었으나 수행속도가 23.40fps 감소되었고, SeqBboxMatching[22] 의 경우도 베이스라인 대비 3%의 정확도가 개선되었으나 수행속도가 22.40fps 감소됨을 확인하였다. 반면 제안 방법은 베이스라인 대비 정확도가 11%나 개선되면서도 수행속도는 3.8fps 밖에 감소되지 않음을 확인하였다. 즉, 기존 방법과 비교할 때, 감소한 수행속도에 대비하여 정확도가 큰 폭으로 향상됨을 확인하였으며, 비록 수행속도가 감소하였지만 여전히 실시간 탐지 성능을 가짐을 확인하였다. 또한, 입력되는 비디오 스트림의 모든 프레임에 대하여 모델 앙상블 방법을 적용하는 것이 아니라 설정된 threshold 이상 움직임이 검출되는 키 프레임에만 적용하기 때문에, 실제로는 가성비 대비 더 효율적으로 돼지 탐지를 수행할 수 있음을 의미한다.
Table 3. Performance Comparison of Video Pig Detection.
또한, 본 논문의 연구 분야인 비디오 객체 탐지와 관련하여 비디오 객체 추적 분야가 있으며, 베이스라인인 YOLO4[23]와 결합할 수 있는 딥러닝 기반 온라인 다중 객체 탐지기 중 널리 사용되는 DeepSort [28]와의 추가적인 성능 비교를 하였다. 즉, DeepSort [28]가 다중 객체 추적에 적용되는 방법이나, 본 논문의 제안 방법과 유사하게 비디오 모니터링 환경에서 실시간 추적을 위해 제안된 방법이기 때문에 Deep Sort[28]를 적용한 탐지 정확도와 수행 속도를 측정하였다. DeepSort[28]를 적용할 경우 비디오 객체 탐지 기법인 SeqNMS[21]와 SeqBboxMatching[22] 에 비해서는 정확도 및 수행속도가 우수하지만, 제안 방법에 비해서는 정확도(3% 차이) 및 수행속도(9.62 fps 차이) 모두 떨어짐을 확인하였다. 즉, 널리 사용되는 실시간 다중 추적 방법인 DeepSort[27]는 추적을 위한 추가적인 학습을 필요로 함에도 불구하고, 비디오 돼지 탐지 문제에 대하여 본 논문의 제안 방법보다 효과적이지 못하다는 것을 확인하였다.
종합적으로, 기존의 비디오 객체 탐지 또는 추적 방법에 비하여, 제안 방법이 더 빠른 수행 속도로 더 정확히 돼지를 탐지할 수 있는데, 이는 동일한 모델로 복잡한 비디오 객체 탐지 및 추적을 수행하는 것 보다 간단한 경계 박스 매칭 알고리즘을 이용하여 수행 시간 증가를 최소화하면서도 상이한 앙상블 모델로 비디오 객체 탐지를 수행하는 것이 정확도 개선 측면에서 더욱 효과적임을 의미한다.
마지막으로, 3장에서 언급한 Cascaded Box Merging 구조(Fig. 5 참조)의 파라미터 값에 따른 정확도 변화를 확인하기 위하여 다양한 파라미터 조합에 대하여 정확도를 측정하였다. Box Removal 단계와 NMS 단계 모두 기준을 충족하는 박스를 제거하는 과정인데, Confidence 값이 크면 공격적으로 박스를 제거하는 것이지만 NMS Threshold 값이 크면 보수적으로 박스를 제거하는 것이다. 즉, Table 4에 나타낸 바와 같이, 두 모델의 파라미터를 동일하게 설정한다면 두 모델에 같은 기준을 적용하는 것이지만, 다르게 설정한다면 두 모델에 다른 기준을 적용(예를 들어, Confidence_A < Confidence_B 및 Threshold_ A > Threshold_B로 설정하면 model A를 보수적, model B를 공격적으로 설정)하는 것이다. 본 논문에서는 다양한 파라미터 값에 대하여 정확도를 측정한 결과, 두 모델의 파라미터를 동일하게 설정한 경우 가장 높은 정확도를 확인하였다. 그러나, 다양한 파라미터 조합에 대한 실측치로 파라미터 값을 정하는 대신, 각 모델의 TP, FP, FN 등의 정확도 수치로 파라미터 값을 결정하는 것도 좋은 향후 연구 주제로 판단된다.
Table 4. Comparison of Accuracy with Various Parameters.
5. 결론 및 향후 연구
실제 돈사에서 돼지 모니터링을 하기 위해서는 비디오 모니터링 환경에서의 정확한 돼지 탐지가 중요하다. 그러나, 최근의 딥러닝 기술을 적용한 객체 탐지기들의 정확도가 크게 개선되었음에도 불구하고, 모든 돼지들이 카메라를 향하여 포즈를 취해주지 않기 때문에 시설물이나 다른 돼지로부터 겹침(occlusion) 현상에 의한 정확도 하락 이슈가 남아있다. 또한, 정지영상에 대한 객체 탐지 정확도가 크게 개선되었음에도, 비디오 데이터에 대한 실시간 처리나 겹침에 따른 정확도 하락 등의 문제가 있다.
본 논문에서는 비디오 실시간 처리를 위하여, 입력되는 비디오 스트림에 대하여 모든 프레임에 딥러닝 모델을 적용하는 것이 아니라 설정된 threshold (학습 데이터 내 평균 돼지 크기) 이상 돈사 내 돼지들의 움직임이 검출되는 키 프레임을 먼저 추출하여 객체 탐지 효율성을 개선하는 방법을 제안하였다. 또한, 추출한 키 프레임들에 대하여 추가적인 연산 비용을 최소화하면서도 2개의 앙상블 모델들의 결과를 보정하여 정확도를 개선하는 모델 앙상블 방법을 제안하였다. 즉, 앙상블 모델 간 다양성(diversity)을 위하여, 2개의 앙상블 모델 각각이 상이한 특징을 추출하도록 CLAHE 파라미터 값을 먼저 도출하였다. 그리고 이렇게 도출된 파라미터 값으로 변환된 키 프레임을 2개의 모델에 동시 적용하여 수행 시간이 2배 증가 하는 것이 아니라, 연속되는 키 프레임에 번갈아 적용(즉, 홀수 키 프레임에 model A 적용, 짝수 키 프레임에 model B 적용)함으로써 수행시간 증가를 최소화하였다. 반면, 연속되는 키 프레임간 돼지 한 마리 크기에 해당하는 픽셀에서만 움직임이 있으므로, 키 프레임내 평균 95% 이상의 움직임이 없는 픽셀 위치에 대해서는 2개의 모델을 적용하여 앙상블 한 정확도 개선 효과를 기대할 수 있다.
실제 돈사에서 획득한 비디오 데이터로 실험한 결과, 제안 방법은 베이스라인인 YOLOv4[22] 대비 11%의 정확도가 개선되었으며, 약 37fps의 수행속도로 돼지를 실시간 탐지할 수 있음을 확인하였다. 또한, SeqNMS[21], SeqBboxMatching[22], DeepSort [28] 등 기존의 비디오 객체 탐지 및 추적 방법에 비하여, 제안 방법이 더 빠른 수행 속도로 더 정확히 돼지를 탐지할 수 있음을 확인하였다. 이는 동일한 모델로 비디오 객체 탐지 및 추적을 수행하는 것보다, 수행시간 증가를 최소화하면서도 상이한 앙상블 모델로 비디오 객체 탐지를 수행(본 연구의 독창적인 부분) 하는 것이 정확도 개선 측면에서 더욱 효과적임을 알 수 있었다. 다만 앙상블시 다양한 파라미터값에 따라 정확도 개선 효과가 상이할 수 있으므로 다양한 조합에 대하여 실험을 수행해야 하며, 이러한 조합들에 대한 실험은 학습 데이터로 한 번만 수행하면 되므로 테스트 수행 속도에 영향을 주지는 않는다. 향후 연구로는 비디오 스트림에서의 정확한 돼지 탐지 기술을 바탕으로, 환돈이나 폐사돈을 자동 탐지하는 등 생산성 향상을 위한 다양한 응용 연구를 수행하고자 한다.
참고문헌
- Korea Rural Economic Institute(2019). https://www.krei.re.kr (accessed July 2021).
- K. Jun, S. Kim, and H. Ji, "Estimating Pig Weights from Images Without Constraint on Posture and Illumination," Computers and Electronics in Agriculture, Vol. 153, pp. 169-176, 2018. https://doi.org/10.1016/j.compag.2018.08.006
- S. Lee, H. Ahn, J. Seo, Y. Chung, D. Park, and S. Pan, "Practical Monitoring of Undergrown Pigs for IoT-Based Large-Scale Smart Farm," IEEE Access, Vol. 7, pp. 173796-173810, 2019. https://doi.org/10.1109/ACCESS.2019.2955761
- J. Seo, M. Ju, Y. Choi, J. Lee, Y. Chung, and D. Park, "Separation of Touching Pigs using YOLO-Based Bounding Box," Journal of Korea Multimedia Society, Vol. 21, No. 2, pp. 77-86, 2018 https://doi.org/10.9717/kmms.2018.21.2.077
- J. Kim, et al. "Depth-Based Detection of Standing-Pigs in Moving Noise Environments," Sensors, Vol. 17, No. 12, pp. 2757, 2017. https://doi.org/10.3390/s17122757
- M. Ju, et al. "A Kinect-Based Segmentation of Touching-Pigs for Real-Time Monitoring," Sensors, Vol. 18, No. 6, pp. 1746, 2018. https://doi.org/10.3390/s18061746
- J. Sa, Y. Choi, H. Lee, Y. Chung, D. Park, and J. Cho, "Fast Pig Detection with a Top-View Camera Under Various Illumination Conditions," Symmetry, Vol. 11, No. 2, pp. 266, 2019. https://doi.org/10.3390/sym11020266
- J. Seo, H. Ahn, D. Kim, S. Lee, Y. Chung, and D. Park, "EmbeddedPigDet: Fast and Accurate Pig Detection for Embedded Board Implementations," Applied Sciences, Vol. 10, No. 8, pp. 2878, 2020. https://doi.org/10.3390/app10082878
- S. Mathews, A. Miller, J. Clapp, T. Plotz, and I. Kyriazakis, "Early Detection of Health and Welfare Compromises through Automated Detection of Behavioural Changes in Pigs," The Veterinary Journal, Vol. 217, pp. 43-51, 2016. https://doi.org/10.1016/j.tvjl.2016.09.005
- Y. Chung, H. Kim, H. Lee, D. Park, T. Jeon, and H. Chang, "A Cost-Effective Pigsty Monitoring System Based on a Video Sensor," KSII Transaction on Internet and Information Systems, Vol. 8, No. 4, 2014.
- H. Zhu, H. Wei, B. Li, X. Yuan, and N. Kehtarnavaz, "A Review of Video Object Detection: Datasets, Metrics, and Methods," Applied Science, Vol. 10, No. 21, pp. 7834, 2020. https://doi.org/10.3390/app10217834
- L. Jiao, et al. "New Generation Deep Learning for Video Object Detection: A Survey," IEEE Transactions on Neural Networks and Learning Systems, pp. 1-21, 2021.
- X. Zhu, Y. Xiong, J. Dai, L. Yuan, and Y. Wei, "Deep Feature Flow for Video Recognition," Proc. Conference on Computer Vision and Pattern Recognition, pp. 4141-4150, 2017.
- S. Wang, Y. Zhou, J. Yan, and Z. Deng, "Fully Motion-Aware Network for Video Object Detection," Proc. European Conference on Computer Vision, pp. 557-573, 2018.
- K. Kang, et al. "Object Detection in Videos with Tubelet Proposal Networks," Proc. Conference on Computer Vision and Pattern Recognition, pp. 889-897, 2017.
- F. Xiao and Y. Lee, "Video Object Detection with an Aligned Spatial-Temporal Memory," Proc. European Conference on Computer Vision, pp. 485-501, 2018.
- C. Feichtenhofer, A. Pinz, and A. Zisserman, "Detect to Track and Track to Detect," Proc. Conference on Computer Vision and Pattern Recognition, pp. 3038-3046, 2017.
- F. Xiao and Y. Lee, "CaTDet: Cascaded Tracked Detector for Efficient Object Detection from Video," Proc. European Conference on Computer Vision, pp 485-501, 2018.
- G. Bertasius, L. Torresani, and J. Shi, "Object Detection in Video with Spatiotemporal Sampling Networks," Proc. European Conference on Computer Vision, pp. 331-346, 2018.
- Y. Chai, "Patchwork: A Patch-Wise Attention Network for Efficient Object Detection and Segmentation in Video Streams," Proc. International Conference on Computer Vision, pp. 3415-3424, 2019.
- W. Han, et al. "Seq-NMS for Video Object Detection," Proc. Conference on Computer Vision and Pattern Recognition, arXiv:1602.08465, 2016.
- H. Belhassen, H. Zheng, V. Fresse, and E. Bourennane, "Improved Video Object Detection by Seq-Bbox Matching," Proc. International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Application, pp. 226-233, 2019.
- A. Bochkovskiy, C. Wang, and H. Liao, "Yolov 4: Optimal Speed and Accuracy of Object Detection," arXiv Preprint, arXiv:2004.10934, 2020.
- J. Xu, M. Yang, and Y. Wu, "Multi-Model Ensemble with Rich Spatial Information for Object Detection," Pattern Recognition, Vol. 99, pp. 107098, 2020. https://doi.org/10.1016/j.patcog.2019.107098
- Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, "Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression," Proc. Conference on Artificial Intelligence, 2020.
- Open Source Computer Vision: 'OpenCV'(2021). https://opencv.org (accessed April 2021).
- K. Zuiderveld, Contrast Limited Adaptive Histogram Equalization, Academic Press Inc, Cambridge, MA, USA, 1994.
- N. Wojke, A. Bewley, and D. Paulus, "Simple Online and Realtime Tracking with a Deep Association Metric," Proc. International Conference on Image Processing, pp. 3645-3649, 2017.