DOI QR코드

DOI QR Code

딥러닝 효율화를 위한 다중 객체 데이터 분할 학습 기법

A Study on Multi-Object Data Split Technique for Deep Learning Model Efficiency

  • 나종호 (한국건설기술연구원 미래스마트건설연구본부 ) ;
  • 공준호 (한국건설기술연구원 미래스마트건설연구본부) ;
  • 신휴성 (한국건설기술연구원 미래스마트건설연구본부) ;
  • 윤일동 (한국외국어대학교 컴퓨터공학과 )
  • Jong-Ho Na (Department of Future & Smart Construction Research, Korea Institute of Civil Engineering and Building Technology) ;
  • Jun-Ho Gong (Department of Future & Smart Construction Research, Korea Institute of Civil Engineering and Building Technology) ;
  • Hyu-Soung Shin (Department of Future & Smart Construction Research, Korea Institute of Civil Engineering and Building Technology) ;
  • Il-Dong Yun (Division of Computer Engineering, Hankuk University of Foreign Studies)
  • 투고 : 2024.06.07
  • 심사 : 2024.06.14
  • 발행 : 2024.06.30

초록

최근 건설현장의 안전사고 문제를 해결하기 위해 컴퓨터 비전 기술을 활용한 안전관리에 관한 연구를 많이 수행하고 있다. 최근 딥러닝 기반 객체 인식 및 영역 분할 연구에서 앵커 박스 파라미터를 사용하고 있다. 일관적인 정확도를 확보하기 위하여 학습 과정에서 앵커 박스 파라미터의 최적화가 중요하다. 앵커 박스 관련 파라미터는 일반적으로 학습자의 휴리스틱 방법으로 모양과 크기를 고정하여 학습을 수행하고 있고, 파라미터는 단일로 구성된다. 하지만 파라미터는 객체 종류와 객체 크기에 따라 민감하고 수가 증가하면 단일 파라미터로 데이터의 모든 특성을 반영하는데 한계가 발생한다. 따라서 본 논문은 분할 학습을 통해 최적화된 다중 파라미터를 적용하는 방법을 제안하여 단일 파라미터로 모든 객체의 특성을 반영하기 어려운 문제를 해결하고자 한다. 통합 데이터를 객체 크기, 객체 수, 객체의 형상에 따라 효율적으로 분할하는 기준을 정립하였으며, 최종으로 통합 학습과 분할 학습 방법의 성능 비교를 통해 제안한 학습 방법의 효과를 검증하였다.

Recently, many studies have been conducted for safety management in construction sites by incorporating computer vision. Anchor box parameters are used in state-of-the-art deep learning-based object detection and segmentation, and the optimized parameters are critical in the training process to ensure consistent accuracy. Those parameters are generally tuned by fixing the shape and size by the user's heuristic method, and a single parameter controls the training rate in the model. However, the anchor box parameters are sensitive depending on the type of object and the size of the object, and as the number of training data increases. There is a limit to reflecting all the characteristics of the training data with a single parameter. Therefore, this paper suggests a method of applying multiple parameters optimized through data split to solve the above-mentioned problem. Criteria for efficiently segmenting integrated training data according to object size, number of objects, and shape of objects were established, and the effectiveness of the proposed data split method was verified through a comparative study of conventional scheme and proposed methods.

키워드

과제정보

본 연구는 과학기술정보통신부 한국건설기술연구원 연구운영비지원(주요사업)사업으로 수행되었습니다(20240143-001, 미래 건설산업견인 및 신시장 창출을 위한 스마트 건설기술 연구).

참고문헌

  1. Girshick, R., 2015, Fast r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, 1440-1448.
  2. He, K., Gkioxari, G., Dollar, P., and Girshick, R., 2017, Mask r-cnn. In Proceedings of the IEEE International Conference on Computer Vision, 2961-2969.
  3. Lempitsky, V., Kohli, P., Rother, C., and Sharp, T., 2009, Image segmentation with a bounding box prior, In 2009 IEEE 12th International Conference on Computer Vision, 277-284. IEEE.
  4. Lin, T.Y., Dollar, P., Girshick, R., He, K., Hariharan, B., and Belongie, S., 2017, Feature pyramid networks for object detection, In Proceedings of the IEEE Conference on Computer Vision And Pattern Recognition, 2117-2125.
  5. Minaee, S., Boykov, Y., Porikli, F., Plaza, A., Kehtarnavaz, N., and Terzopoulos, D., 2021, Image segmentation using deep learning: A survey, IEEE Transactions on Pattern Analysis And Machine Intelligence, 44(7), 3523-3542.
  6. Ministry of Government Legislation (MGL), 2023, Construction machinery management act (in Korean).
  7. Na, J.H., Shin, H.S., Lee, J.K., and Yun, I.D., 2023, Building-up and Feasibility Study of Image Dataset of Field Construction Equipments for AI Training, Journal of the Korean Society of Civil Engineers, 43(1), 99-107 (in Korean).
  8. Powers, D.M., 2010, Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation, arXiv preprint, arXiv:2010.16061.
  9. Redmon, J., and Farhadi, A., 2017, YOLO9000: better, faster, stronger. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 7263-7271.
  10. Zhao, Z.Q., Zheng, P., Xu, S.T., and Wu, X., 2019, Object detection with deep learning: A review, IEEE Transactions on Neural Networks and Learning Systems, 30(11), 3212-3232.
  11. Zhong, Y., Wang, J., Peng, J., and Zhang, L., 2020, Anchor box optimization for object detection, In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 1286-1294.