DOI QR코드

DOI QR Code

확산모델의 미세조정을 통한 웹툰 생성연구

A Study on the Generation of Webtoons through Fine-Tuning of Diffusion Models

  • 유경호 (조선대학교 컴퓨터공학과) ;
  • 김형주 (조선대학교 AI융합연구원) ;
  • 김정인 (조선대학교 치의학전문대학원 미생물학 및 면역학 교실) ;
  • 전찬준 (조선대학교 컴퓨터공학과) ;
  • 김판구 (조선대학교 컴퓨터공학과)
  • 투고 : 2023.08.09
  • 심사 : 2023.08.29
  • 발행 : 2023.08.31

초록

본 연구에서는 웹툰 작가의 웹툰 제작 과정을 보조하기 위해 사전학습된 Text-to-Image 모델을 미세조정하여 텍스트에서 웹툰을 생성하는 방법을 제안한다. 제안하는 방법은 웹툰 화풍으로 변환된 웹툰 데이터셋을 사용하여 사전학습된 Stable Diffusion 모델에 LoRA 기법을 활용하여 미세조정한다. 실험 결과 3만 스텝의 학습으로 약 4시간 반이 소요되어 빠르게 학습하는 것을 확인하였으며, 생성된 이미지에서는 입력한 텍스트에 표현된 형상이나 배경이 반영되어 웹툰 이미지가 생성되는 것을 확인하였다. 또한, Inception score를 통해 정량적인 평가를 수행하였을 때, DCGAN 기반의 Text-to-Image 모델보다 더 높은 성능을 나타냈다. 본 연구에서 제안된 웹툰 생성을 위한 Text-to-Image 모델을 웹툰 작가가 사용한다면, 웹툰 저작에 시간을 단축시킬 수 있을 것으로 기대된다.

This study proposes a method to assist webtoon artists in the process of webtoon creation by utilizing a pretrained Text-to-Image model to generate webtoon images from text. The proposed approach involves fine-tuning a pretrained Stable Diffusion model using a webtoon dataset transformed into the desired webtoon style. The fine-tuning process, using LoRA technique, completes in a quick training time of approximately 4.5 hours with 30,000 steps. The generated images exhibit the representation of shapes and backgrounds based on the input text, resulting in the creation of webtoon-like images. Furthermore, the quantitative evaluation using the Inception score shows that the proposed method outperforms DCGAN-based Text-to-Image models. If webtoon artists adopt the proposed Text-to-Image model for webtoon creation, it is expected to significantly reduce the time required for the creative process.

키워드

과제정보

이 논문은 2021학년도 조선대학교 학술연구비의 지원과 연구개발특구진흥재단의 '기술사업화 협업 플랫폼' 사업으로 수행되었습니다.(과제명: 인공지능 산업 육성 및 기술사업화를 위한 지능형 디지털 콘텐츠 제작 기술 개발 및 플랫폼 구축 사업, 과제고유번호: 1711177250)

참고문헌

  1. 이승진, 왕덕원, "인공지능 웹툰 작가의 가능성과 성공에 대한 연구: 혁신 확산 이론을 중심으로," 애니메이션연구, pp 231-254, 2023년 6월 
  2. Dhariwal, P. & Nichol, A., "Diffusion models beat gans on image synthesis," Advances in neural information processing systems 34, pp 8780-8794, 2021. 
  3. 유경호, 노주현, 홍택은, 김형주, 김판구, "Self-Attention을 적용한 문장 임베딩으로부터 이미지 생성 연구," 스마트미디어저널, 제10권, 제1호, 63-69쪽, 2021년 03월 
  4. 유경호, 양희덕, "Generative Adversarial Network 를 이용한 카툰 원화의 라인 드로잉 추출," 스마트미디어저널, 제10권, 제2호, 30-37쪽, 2021년 06월 
  5. 김광진, 이칠우, "Bi-LSTM 모델을 이용한 음악 생성 시계열 예측," 스마트미디어저널, 제11권, 제10호, 65-75쪽, 2022년 11월  https://doi.org/10.30693/SMJ.2022.11.10.65
  6. Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. & Chen, M., "Hierarchical text-conditional image generation with clip latents," arxiv.org/abs/2204.06125, 2022. 
  7. Rombach, R., Blattmann, A., Lorenz, D., Esser, P. & Ommer, B., "High-resolution image synthesis with latent diffusion models," Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684-10695, 2022. 
  8. Ruiz, N., Li, Y., Jampani, V., Pritch, Y., Rubinstein, M. & Aberman, K., "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 22500-22510, 2023. 
  9. Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., ... & Chen, W., "Lora: Low-rank adaptation of large language models," arXiv:2106.09685, 2021. 
  10. 웹툰 AI 페인터, https://ai.webtoons.com/ko/painter (accessed Jul., 28, 2023). 
  11. Kang, S., Choo, J. & Chang, J., "Consistent comic colorization with pixel-wise background classification," In Proceedings of the NIPS, Vol. 17, 2017. 
  12. Xu, X., Xie, M., Miao, P., Qu, W., Xiao, W., Zhang, H., ... & Wong, T. T., "Perceptual-aware sketch simplification based on integrated VGG layers," IEEE transactions on visualization and computer graphics, Vol. 27, Issue 1, pp. 178-189, Jan. 2021.  https://doi.org/10.1109/TVCG.2019.2930512
  13. Yu, K., Kim, H., Kim, J., Chun, C., & Kim, P., "A Study on Generating Webtoons Using Multilingual Text-to-Image Models," Applied Sciences, 13(12), 7278, 2023. 
  14. Ho, J., Jain, A. & Abbeel, P., "Denoising diffusion probabilistic models," Advances in neural information processing systems33, pp 6840-6851, 2020. 
  15. Kim, G., Kwon, T. & Ye, J. C., "Diffusionclip: Text-guided diffusion models for robust image manipulation," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 2426-2435, 2022. 
  16. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, "I. Learning transferable visual models from natural language supervision," International conference on machine learning, pp. 8748-8763, 2021. 
  17. Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X. & He, X., "Attngan: Fine-grained text to image generation with attentional generative adversarial networks," Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1316-1324, Salt Lake City, USA, Jun. 2018. 
  18. Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X. & Metaxas, D. N., "Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks," 2017 IEEE International Conference on Computer Vision (ICCV), pp. 5907-5915, Venice, Italy, Oct. 2017. 
  19. Zhu, M., Pan, P., Chen, W. & Yang, Y., "Dm-gan: Dynamic memory generative adversarial networks for text-to-image synthesis," Proceedings of the IEEE/CVF conference on computer vision and pattern recognitio, pp. 5802-5810, 2019. 
  20. PEFT, https://github.com/huggingface/peft/tree/main (accessed Jul., 28, 2023). 
  21. MSCOCO, https://cocodataset.org/#home, (accessed Jul., 28, 2023). 
  22. Chen, Y., Lai, Y. K. & Liu, Y. J., "Cartoongan: Generative adversarial networks for photo cartoonization," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9465-9474, Salt Lake City, USA, Jun. 2018.