DOI QR코드

DOI QR Code

Implementation of CNN-based Classification Training Model for Unstructured Fashion Image Retrieval using Preprocessing with MASK R-CNN

비정형 패션 이미지 검색을 위한 MASK R-CNN 선형처리 기반 CNN 분류 학습모델 구현

  • 조승아 (덕성여자대학교 소프트웨어전공) ;
  • 이하영 (덕성여자대학교 IT미디어공학전공) ;
  • 장혜림 (덕성여자대학교 IT미디어공학전공) ;
  • 김규리 (덕성여자대학교 IT미디어공학전공) ;
  • 이현지 (덕성여자대학교 IT미디어공학전공) ;
  • 손봉기 (서원대학교 소프트웨어학부 컴퓨터공학전공) ;
  • 이재호 (덕성여자대학교 소프트웨어전공)
  • Received : 2022.11.09
  • Accepted : 2022.12.25
  • Published : 2022.12.30

Abstract

In this paper, we propose a detailed component image classification algorithm by fashion item for unstructured data retrieval in the fashion field. Due to the COVID-19 environment, AI-based online shopping malls are increasing recently. However, there is a limit to accurate unstructured data search with existing keyword search and personalized style recommendations based on user surfing behavior. In this study, pre-processing using Mask R-CNN was conducted using images crawled from online shopping sites and then classified components for each fashion item through CNN. We obtain the accuaracy for collar of the shirt's as 93.28%, the pattern of the shirt as 98.10%, the 3 classese fit of the jeans as 91.73%, And, we further obtained one for the 4 classes fit of jeans as 81.59% and the color of the jeans as 93.91%. At the results for the decorated items, we also obtained the accuract of the washing of the jeans as 91.20% and the demage of jeans accuaracy as 92.96%.

본 논문에서는 패션 분야의 비정형 데이터 검색을 위한 패션 아이템별 세부 컨포넌트 이미지 분류 알고리즘을 제안한다. 코로나-19 환경으로 인하여 최근 AI 기반 쇼핑몰이 증가하는 추세이다. 하지만 기존의 키워드 검색과 사용자 서핑 행위 기반 개인 맞춤형 스타일 추천으로는 정확한 비정형 데이터 검색에는 한계가 있다. 본 연구는 다양한 온라인 쇼핑 사이트에서 크롤링한 이미지를 사용하여 Mask R-CNN을 활용한 전처리를 진행한 후, CNN을 통해 패션 아이템별 컴포넌트에 대한 분류를 진행하였다. 셔츠의 카라 및 패턴과 청바지의 핏, 워싱 및 컬러에 대한 분류를 진행하였으며, 다양한 전이학습 모델을 비교 분석한 후 가장 높은 정확도가 나온 Densenet121모델을 사용하여 셔츠의 카라는 93.28%, 셔츠의 패턴은 98.10%의 정확도를 도달하였으며, 청바지의 핏은 Notched, Spread, Straight 3가지의 클래스의 경우 91.73%, Regular 핏을 추가한 4가지의 클래스의 경우 81.59%, 청바지의 색상은 93.91%, 청바지의 Washing은 91.20%, 청바지의 Demgae는 92.96%의 정확도를 도출하였다.

Keywords

References

  1. K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask r-cnn," in Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy, pp. 2961-2969, 2017.
  2. R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Columbus: OH, USA, pp. 580-587, 2014
  3. S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems 28, Montreal, Canada, 2015.
  4. J. Deng, W. Dong, R. Socher, L. J. Li, K. Li, and L. Fei-Fei, "Imagenet: A large-scale hierarchical image database," in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, Miami: FL, USA, pp. 248-255. 2009.
  5. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: Nevada, USA, pp. 770-778, 2016.
  6. G. Huang, Z. Liu, L. V. D. Maaten, and K. Q. Weinberger, "Densely connected convolutional networks." in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: Hawaii, USA, pp. 4700-4708, 2017.
  7. B. C. Russell, A. Torralba, K. P. Murphy, and W. T. Freeman, "LabelMe: a database and web-based tool for image annotation." International Journal of Computer Vision , vol. 77, no. 1, pp. 157-173, 2008. https://doi.org/10.1007/s11263-007-0090-8
  8. T. Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, "Microsoft COCO: Common Objects in Context," in Proceedings of the European Conference on Computer Vision, Zurich, Switzerland, pp. 740-755, 2014
  9. F. C. Akyon, labelme2coco project [Internet], 2022. Available: https://github.com/fcakyon/labelme2coco/.
  10. K. Simonyan, and A. Zisserman, "Very Deep Convolutional Networks For Large-Scale Image Recognition," arXiv preprint arXiv:1409.1556, 2014.
  11. L. Min, Q. Chen, S. Yan, "Shuicheng. Network in network," arXiv preprint arXiv:1312.4400, 2013.
  12. W. Rong, Z. Li, W. Zhang, and L. Sun, "An improved CANNY edge detection algorithm." in Proceedings of the IEEE International Conference on Mechatronics and Automation. Tianjin, China, pp. 577-582, 2014.
  13. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative Adversarial Nets," Communications of the ACM, vol. 63, no. 11, pp. 139-144, 2020. https://doi.org/10.1145/3422622
  14. M. H. Lee, K. W. Nam, and C. W. Lee, "Crack Detection on the Road in Aerial Image using Mask R-CNN." Journal of the Korea Industrial Information Systems Research, vol. 24, no. 3, pp. 23-29, 2019.
  15. J. H. Lee, B. M. Kim, and Y. S. Shin, "Effects of Preprocessing and Feature Extraction on CNN-based Fire Detection Performance." Journal of the Korea Industrial Information Systems Research, vol. 23, no. 4, pp. 41-53. 2018.
  16. J. W. Jo, M. H. Lee, H. R. Lee, Y. S. Chung, J. H. Baek, K. H. Kim, and C. W. Lee, "LeafNet: Plants Segmentation using CNN." Journal of the Korea Industrial Information Systems Research, vol. 24, no. 4, pp. 1-8, 2019.