DOI QR코드

DOI QR Code

Automated Story Generation with Image Captions and Recursiva Calls

이미지 캡션 및 재귀호출을 통한 스토리 생성 방법

  • Isle Jeon (Division of Computer Engineering, Dongseo University) ;
  • Dongha Jo (Dept. of Software, Dongseo University) ;
  • Mikyeong Moon (Dept. of Software, Dongseo University)
  • 전이슬 (동서대학교 컴퓨터공학과) ;
  • 조동하 (동서대학교 소프트웨어학과) ;
  • 문미경 (동서대학교 소프트웨어학과)
  • Received : 2023.02.28
  • Accepted : 2023.03.15
  • Published : 2023.03.31

Abstract

The development of technology has achieved digital innovation throughout the media industry, including production techniques and editing technologies, and has brought diversity in the form of consumer viewing through the OTT service and streaming era. The convergence of big data and deep learning networks automatically generated text in format such as news articles, novels, and scripts, but there were insufficient studies that reflected the author's intention and generated story with contextually smooth. In this paper, we describe the flow of pictures in the storyboard with image caption generation techniques, and the automatic generation of story-tailored scenarios through language models. Image caption using CNN and Attention Mechanism, we generate sentences describing pictures on the storyboard, and input the generated sentences into the artificial intelligence natural language processing model KoGPT-2 in order to automatically generate scenarios that meet the planning intention. Through this paper, the author's intention and story customized scenarios are created in large quantities to alleviate the pain of content creation, and artificial intelligence participates in the overall process of digital content production to activate media intelligence.

기술의 발전은 제작 기법, 편집 기술 등 미디어 산업 전반에 걸쳐 디지털 혁신을 이루어 왔고, OTT 서비스와 스트리밍 시대를 관통하며 소비자 관람 형태의 다양성을 가져왔다. 빅데이터와 딥러닝 네트워크의 융합으로 뉴스 기사, 소설, 대본 등 형식을 갖춘 글을 자동으로 생성하였으나 작가의 의도를 반영하고 문맥적으로 매끄러운 스토리를 생성한 연구는 부족하였다. 본 논문에서는 이미지 캡션 생성 기술로 스토리보드 속 사진의 흐름을 파악하고, 언어모델을 통해 이야기 흐름이 자연스러운 스토리를 자동 생성하는 것을 기술한다. 합성곱 신경망(CNN)과 주의 집중기법(Attention)을 활용한 이미지 캡션 생성 기술을 통해 스토리보드의 사진을 묘사하는 문장을 생성하고, 첫 번째 이미지 캡션을 KoGPT-2에 입력하여 생성된 새로운 글과 두 번째 이미지의 캡션을 다음 입력값으로 활용한 재귀적 접근 방안을 제안하여 전후 문맥이 자연스럽고 기획 의도에 맞는 스토리를 생성하는 연구를 진행한다. 본 논문으로 인공지능을 통해 작가의 의도를 반영한 스토리를 자동으로 대량 생성하여 콘텐츠 창작의 고통을 경감시키고, 인공지능이 디지털 콘텐츠 제작의 전반적인 과정에 참여하여 미디어 지능화를 활성화한다.

Keywords

Acknowledgement

본 논문은 2022년도 동서대학교 "Dongseo Cluster Project" 지원을 받아 수행된 것임 (DSU-20220002)

References

  1. Kim, D. E, "Management System of Invasive Alien Species Threating Biodiversity in Korea and Suggestions for the Improvement", Journal of Environmental Impact Assessment, 27(1), 33-55(2018). https://doi.org/10.14249/EIA.2018.27.1.33
  2. Ministry of Environment. 2014. 1st Management Plan of Alien Species (2014-2018).
  3. Da Bin Kim. Kyung Ah Koo. "A Study on the Current Status and Improvement of Ecosystem Disturbance Species", 29(4), 59-81(2021). https://doi.org/10.15301/jepa.2021.29.4.59
  4. Ikeda T, Asano M, Matoba Y, Abe G, "Present status of invasive alien raccoon and its impact in Japan", Global environmental research, 8(2), pp. 125-131, 2004.
  5. National Institute of Ecology, "Ecological studies of alien species (VI)", Seocheon National Institute of Ecology
  6. Jihae Kim et al, "Comparison of Fine Grained Classification of Pet Images Using Image Processing and CNN", Journal of Broadcast Engineering (JBE) Vol. 26, No. 2, pp. 175-183, 2021.
  7. Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le; "Learning Transferable Architectures for Scalable Image Recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 8697-8710
  8. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun; "Deep Residual Learning for Image Recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778
  9. Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, Zbigniew Wojna; "Rethinking the Inception Architecture for Computer Vision", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2818-2826
  10. Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alexander A Alemi; "Inception-v4, inception-resnet and the impact of residual connections on learning", Thirty-first AAAI conference on artificial intelligence. 2017.
  11. Simonyan, Karen, and Andrew Zisserman; "Very deep convolutional networks for large-scale image recognition", arXiv preprint arXiv:1409.1556 (2014).
  12. Kaiming He Ross Girshick Piotr Doll'ar, "Rethinking ImageNet Pre-training" arXiv:1811.08883v1 (2018).
  13. Shorten, C., Khoshgoftaar, T.M., "A survey on Image Data Augmentation for Deep Learning", J Big Data 6, 60 (2019). https://doi.org/10.1186/s40537-019-0197-0
  14. J. Deng, W. Dong, R. Socher, L. -J. Li, Kai Li and Li Fei-Fei, "ImageNet: A large-scale hierarchical image database", 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 2009, pp. 248-255, doi: 10.1109/CVPR.2009.5206848.