음악 가사와 배경 이미지 매칭 모델

Music Lyrics and Background Image Matching model

  • 서가연 (전남대학교 인공지능학부) ;
  • 박수연 (전남대학교 인공지능융합학과) ;
  • 신형환 (전남대학교 인공지능융합학과) ;
  • 조준수 (전남대학교 인공지능융합학과) ;
  • 강세이 (전남대학교 인공지능융합학과) ;
  • 정재준 (전남대학교 인공지능융합학과) ;
  • 서보경 (전남대학교 인공지능학부) ;
  • 김승원 (전남대학교 인공지능융합학과)
  • Gayun Suh (Dept. of Artificial Intelligence, Chonnam National University) ;
  • Su-Yeon Park (Dept. of Artificial Intelligence Convergence, Chonnam National University) ;
  • Hyeong-Hwan Shin (Dept. of Artificial Intelligence Convergence, Chonnam National University) ;
  • Jun-Su Cho (Dept. of Artificial Intelligence Convergence, Chonnam National University) ;
  • Sei Kang (Dept. of Artificial Intelligence Convergence, Chonnam National University) ;
  • Jae-Joon Jeong (Dept. of Artificial Intelligence Convergence, Chonnam National University) ;
  • Bo-Gyeong Seo (Dept. of Artificial Intelligence, Chonnam National University) ;
  • Seung-Won Kim (Dept. of Artificial Intelligence Convergence, Chonnam National University)
  • 발행 : 2024.10.31

초록

본 연구는 음악 가사와 배경 이미지를 매칭하는 시스템을 개발하는 데 초점을 맞추고 있다. GPT-4o를 활용하여 배경 이미지에 어울리는 음악 가사를 생성해 데이터셋을 구축하였으며, Long-CLIP 모델을 미세 조정하여 음악 가사와 배경 이미지의 임베딩 벡터를 비교함으로써 가장 적합한 배경 이미지를 추천하는 시스템을 구현하였다.

키워드

과제정보

이 논문은 광주정보문화산업진흥원의 재원으로 아시아 문화기술 실증센터 운영기관구축사업 내의 2023 실감 콘텐츠 데이터응용 서비스개발 지원사업의 지원을 받아 수행된 연구임. 본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업 연구 결과로 수행되었음(IITP-2023-RS-2023-00256629).

참고문헌

  1. Jacob Devlin, Wing-Wei Chang, Kenton Lee, Kristina Toutanova "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" Proceedings of the 2019Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2019, p.2.
  2. Alect Radford, Jong Wook Kim, Chris Hallacy et al. "Learning Transferable Visual Models From Natural Language Supervision" Proceedings of the 38th International Conference on Machine Learning, Virtual, 2021, pp. 8748-8763.
  3. Beichen Zhang, Pan Zhang, Xiaoyi Dong et al. "Long-CLIP:Unlocking the Long-Text Capability of CLIP" arXiv preprint, 2024, arXiv:2403.15378.