Multi-Decoder DNN Model for High Accuracy Segmentation using Pseudo Depth-Map and Efficient Training Strategy

의사 깊이맵을 이용한 다중 디코더 기반의 고정밀 분할 딥러닝 모델 개발 및 효율적인 학습 전략

  • Yu-Jin Kim (Smart Computing Laboratory, Hallym University) ;
  • Dongyoung Kim (Dept. of Computer Engineering, Hallym University) ;
  • Jeong-Gun Lee (Smart Computing Laboratory, Hallym University)
  • 김유진 (한림대학교 스마트컴퓨팅연구소) ;
  • 김동영 (한림대학교 컴퓨터공학과) ;
  • 이정근 (한림대학교 스마트컴퓨팅연구소)
  • Published : 2024.05.23

Abstract

최근 딥러닝 기술이 급속히 발전하며 현대 사회의 다양한 응용분야에서 빠르게 적용되고 있다. 특히 영상 기반의 딥러닝 기술은 자연어 처리와 함께 인공지능 기술의 핵심 연구 분야로 많은 연구가 진행되고 있다. 논문에서는 최근 많은 연구가 진행되고 있는 영상의 의미적 분할 (Semantic Segmentation) 성능을 향상하기 위한 연구를 진행한다. 특히 모델에서 고정밀의 의미적 분할을 수행할 수 있도록 추가적인 정보로써 의사 깊이맵 (Pseudo Depth-Map)을 활용하는 방법을 제안하였다. 더불어, 의사 깊이맵을 모델 상에서 효과적으로 학습시키기 위하여 다중 디코더 모델과 학습 효율을 높이는 학습 스케줄링 전략을 제안한다. 의사 깊이맵과 다중 디코더 모델 기반의 제안 모델은 기존 의미적 분할 모델과 비교하여 iIoU 기준 2%의 성능 향상을 보였다.

Keywords

Acknowledgement

본 논문은 한림대학교 3단계 산학연협력 선도대학 육성사업 (LINC 3.0)의 2024년도 산학공동 기술개발과제, "차량 라이브뷰 영상을 활용한 스마트 도로안전 모니터링 시스템 개발", 지원을 받았습니다.

References

  1. J. Long, E. Shelhamer and T. Darrell, "Fully convolutional networks for semantic segmentation", 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015, pp. 3431-3440.
  2. Kendall, Alex et al. "Multi-task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics.", 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018, pp. 7482-7491.
  3. Everingham, M. and Van-Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A. "The PASCAL Visual Object Classes Challenge 2012 VOC2012 Results" http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html
  4. Oquab, Maxime et al. "DINOv2: Learning Robust Visual Features without Supervision." ArXivabs/2304.07193, 2023.