DOI QR코드

DOI QR Code

New Hybrid Approach of CNN and RNN based on Encoder and Decoder

인코더와 디코더에 기반한 합성곱 신경망과 순환 신경망의 새로운 하이브리드 접근법

  • Jongwoo Woo (DataWorld Co., Ltd.) ;
  • Gunwoo Kim (Department of Business Administration, Hanbat National University) ;
  • Keunho Choi (Department of Business Administration, Hanbat National University)
  • 우종우 ((주)데이터월드) ;
  • 김건우 (국립한밭대학교 융합경영학과) ;
  • 최근호 (국립한밭대학교 융합경영학과)
  • Received : 2022.10.27
  • Accepted : 2023.01.10
  • Published : 2023.02.28

Abstract

In the era of big data, the field of artificial intelligence is showing remarkable growth, and in particular, the image classification learning methods by deep learning are becoming an important area. Various studies have been actively conducted to further improve the performance of CNNs, which have been widely used in image classification, among which a representative method is the Convolutional Recurrent Neural Network (CRNN) algorithm. The CRNN algorithm consists of a combination of CNN for image classification and RNNs for recognizing time series elements. However, since the inputs used in the RNN area of CRNN are the flatten values extracted by applying the convolution and pooling technique to the image, pixel values in the same phase in the image appear in different order. And this makes it difficult to properly learn the sequence of arrangements in the image intended by the RNN. Therefore, this study aims to improve image classification performance by proposing a novel hybrid method of CNN and RNN applying the concepts of encoder and decoder. In this study, the effectiveness of the new hybrid method was verified through various experiments. This study has academic implications in that it broadens the applicability of encoder and decoder concepts, and the proposed method has advantages in terms of model learning time and infrastructure construction costs as it does not significantly increase complexity compared to conventional hybrid methods. In addition, this study has practical implications in that it presents the possibility of improving the quality of services provided in various fields that require accurate image classification.

빅데이터 시대를 맞이하여 인공지능 분야는 괄목할만한 성장을 보이고 있으며 특히 딥러닝에 의한 이미지 분류 학습방법이 중요한 영역으로 자리하고 있다. 이미지 분류에서 많이 사용되어 온 CNN의 성능을 더욱 개선하기 위해 다양한 연구가 활발하게 진행되었는데, 이 중에서 대표적인 방법이 CRNN(Convolutional Recurrent Neural Network) 알고리즘이다. CRNN 알고리즘은 이미지 분류를 위한 CNN과 시계열적 요소를 인식하기 위한 RNN의 조합으로 구성되는데, CRNN의 RNN영역에서 사용하는 입력값은 학습 대상의 이미지를 합성곱과 풀링 기법을 적용하여 추출된 결과물을 flatten한 값이고, 이 입력값들은 이미지 내 동일 위상에 있는 픽셀값들이 서로 다른 순서로 나타나기 때문에, RNN에서 의도한 이미지 내 배열 순서를 제대로 학습하기 어렵다는 한계점을 지닌다. 따라서 본 연구는 인코더와 디코더의 개념을 응용한 CNN과 RNN의 새로운 하이브리드 방법을 제안하여, 이미지 분류 성능을 향상시키는 것을 목적으로 하였다. 본 연구에서는 다양한 알고리즘 비교 실험을 통해, 새로운 하이브리드 방법의 효과성을 검증하였다. 본 연구는 인코더와 디코더 개념의 적용 가능성을 넓히고, 제안한 방법이 기존 하이브리드 방법에 비해, 복잡도가 크게 증가하지 않아 모델 학습 시간과 인프라 구축 비용 측면에서 이점을 있다는 점에서 학문적 시사점을 가진다. 또한, 정확한 이미지 분류가 필요한 다양한 분야에서 제공되는 서비스의 품질을 높일 수 있는 가능성을 제시하였다는 점에서 실무적 시사점을 가진다.

Keywords

References

  1. 김윤진, 딥러닝(Deep Learning)을 활용한 이미지 빅데이터(Big Data) 분석 연구, 박사학위논문. 중앙대학교 대학원, 2017.
  2. 박경철, 임베디드 플랫폼에서 빠르고 정확한 객체 분류를 위한 체계적 학습이 가능한 조건부 합성곱 신경망, 석사학위논문, 서울시립대학교 대학원, 2019.
  3. 박호연, 김경재, "CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석", 지능정보연구, 제25권, 제4호, 2019, pp. 141-154. https://doi.org/10.13088/JIIS.2019.25.4.141
  4. 성상하, 딥 러닝을 활용한 이미지 내 한글 텍스트 인식 알고리즘 개선에 관한 연구, 석사학위논문, 동아대학교 대학원, 2019.
  5. 이동엽, 유원희, 임희석, "자질 보강과 양방향 LSTM-CNN-CRF 기반의 한국어 개체명 인식 모델", 한국융합학회논문지, 제8권, 제12호, 2017, pp. 55-62. https://doi.org/10.15207/JKCS.2017.8.12.055
  6. 이영욱, 박재한, 신수용, "CNN-LSTM 기반 낙상 감지 시스템 구현", 한국통신학회논문지, 제47권, 제2호, 2022, pp. 340-347. https://doi.org/10.7840/kics.2022.47.2.340
  7. 이정민, 이현, "단백질 기능 예측 문제에서 시퀀스 패턴 추출을 위한 작은 CNN-RNN 접목모델 연구", 한국컴퓨터정보학회, 제27권, 제8호, 2022, pp. 49-59. https://doi.org/10.9708/JKSCI.2022.27.08.049
  8. 임근영, 조영복, "임의 차원 데이터 대응 Dynamic RNN-CNN 멀웨어 분류기", 한국정보통신학회논문지, 제23권, 제5호, 2019, pp.533-539. https://doi.org/10.6109/JKIICE.2019.23.5.533
  9. 허인성, 합성곱 신경망의 기계학습 기법을 이용한 이미지 분류, 석사학위논문, 서강대학교대학원, 2015.
  10. 홍창우, 허견, "CNN-RNN 기반의 DNN을 활용한 DP 선박의 전력부하 예측", Journal of the Korea Society for Naval Science and Technology, 제4권, 제2호, pp. 121-126.
  11. Chatfield, K., K. Simonyan, A. Vedaldi, and A. Zisserman, "Return of the devil in the details: Delving deep into convolutional nets", arXiv preprint arXiv:1405.3531, 2014.
  12. He, K., X. Zhang, S. Ren, and J. Sun, "Deep Residual learning for image recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770-778.
  13. Hu, J., L. Shen, and G. Sun, "Squeeze-and-excitation networks", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 7132-7141.
  14. Krizhevsky, A., I. Sutskever, and G. Hinton, "ImageNet classification with deep convolutional Neural Networks", Advances in neural Information Processing System, Vol.25, 2012, pp. 1-9.
  15. LeCun, Y., L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition", Proceedings of the IEEE, Vol.86, No.11, 1998, pp. 2278-2324. https://doi.org/10.1109/5.726791
  16. Shi, B., X. Bai, and C. Yao, "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.39, No.11, 2016, pp. 2298-2304. https://doi.org/10.1109/TPAMI.2016.2646371
  17. Simonyan, K. and A. Zisserman, "Very deep convolutional networks for large-scale image recognition", arXiv preprint arXiv, 2014, pp. 1409-1556.
  18. Szegedy, C., W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, and A. Rabinovich, "Going deeper with convolutions", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1-9.
  19. Tan, M. and Q. Le, "Efficientnet: Rethinking model scaling for convolutional neural networks", In International Conference on Machine Learning, 2019, pp. 6105-6114.