DOI QR코드

DOI QR Code

가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템 제안

Proposal for Deep Learning based Character Recognition System by Virtual Data Generation

  • 이승주 (서울과학기술대학교 일반대학원 미디어IT공학과) ;
  • 박구만 (서울과학기술대학교 전자IT미디어공학과)
  • Lee, Seungju (Dept. of Media IT Engineering, The Graduate School, Seoul National University of Science and Technology) ;
  • Park, Gooman (Dept. of Electronic IT Media Engineering, Seoul National University of Science and Technology)
  • 투고 : 2020.02.11
  • 심사 : 2020.03.18
  • 발행 : 2020.03.30

초록

본 논문에서는 가상 데이터 생성을 통한 딥러닝 기반 문자인식 시스템을 제안한다. 지도학습에서 가장 큰 비중을 차지하는 학습 데이터를 확보하기 위하여 가상 데이터를 생성하였다. 또한 가상 데이터를 생성 후 증강 파라미터를 이용하여, 실제 다양한 데이터에 대응하기 위해서 데이터 일반화를 하였다. 최종적으로 학습 데이터 구성은 증강 파라미터와 폰트 인자에 다양한 값을 대입하여 데이터를 생성하였다. 문자인식 성능을 측정하기 위한 테스트 데이터는 실제 촬영된 이미지 데이터에서 문자영역을 크롭하여 구성하였다. 테스트 데이터는 실제환경에서 발생할 수 있는 이미지 왜곡을 고려하여 데이터 증강하였다. 딥러닝 알고리즘은 실시간 검출에 용이한 YOLO v3를 사용하였으며, 추론결과는 후처리를 통하여 최종 검출결과를 출력한다.

In this paper, we proposed a deep learning based character recognition system through virtual data generation. In order to secure the learning data that takes the largest weight in supervised learning, virtual data was created. Also, after creating virtual data, data generalization was performed to cope with various data by using augmentation parameter. Finally, the learning data composition generated data by assigning various values to augmentation parameter and font parameter. Test data for measuring the character recognition performance was constructed by cropping the text area from the actual image data. The test data was augmented considering the image distortion that may occur in real environment. Deep learning algorithm uses YOLO v3 which performs detection in real time. Inference result outputs the final detection result through post-processing.

키워드

참고문헌

  1. Deng, Li, "The mnist database of handwritten digit images for machine learning research [best of the web]," IEEE Signal Processing Magazine, Vol.29, No.6, pp.141-142, November 2012, doi:10.1109/ MSP.2012.2211477.
  2. Russakovsky, Olga, et al, "Imagenet large scale visual recognition challenge," International journal of computer vision, Vol.115, No.3, pp.211-252, December 2015, doi:10.1007/s11263-015-0816-y.
  3. Joseph Redmon and Ali Farhadi, "YOLOv3: An Incremental Improvement," arXiv preprint arXiv:1804.02767, 2018, https://arxiv.org/abs/1804.02767.
  4. Girshick, Ross, et al., "Rich feature hierarchies for accurate object detection and semantic segmentation," Proceedings of the IEEE conference on computer vision and pattern recognition, Ohio, United States of America, pp. 580-587, 2014.
  5. GIRSHICK, Ross, "Fast r-cnn," Proceedings of the IEEE international conference on computer vision, Santiago, Chile, pp. 1440-1448, 2015.
  6. REN, Shaoqing, et al, "Faster r-cnn: Towards real-time object detection with region proposal networks," Advances in neural information processing systems, Montreal, Canada, pp. 91-99, 2015.
  7. LIU, Wei, et al., "Ssd: Single shot multibox detector," European conference on computer vision, Springer, Amsterdam, Netherlands, pp. 21-37, 2016, doi:10.1007/978-3-319-46448-0_2.