VLM(Vision-Language Model)의 구성적 추론 문제 해결 및 향상

Addressing and Improving Compositional Inference in Vision-Language Model(VLM)

  • 윤경윤 (전남대학교 인공지능융합학과) ;
  • 조영준 (전남대학교 인공지능융합학과)
  • Kyung-Yoon Yoon (Dept. of AI Convergence, Chonnam National University) ;
  • Yeong-Jun Cho (Dept. of AI Convergence, Chonnam National University)
  • 발행 : 2024.10.31

초록

본 논문은 Vision-Language Model(VLM)의 성능을 향상시키고, 구성적 추론 문제를 해결하는 새로운 접근을 제시한다. VLM 은 시각적 정보와 언어적 정보를 결합하여 다양한 다운스트림 작업에서 뛰어난 성능을 보였지만, 여전히 이미지와 텍스트 간의 복잡한 관계를 완전히 이해하지 못하는 문제를 안고 있다. 특히, VLM 이 텍스트와 이미지의 구조적 차이를 인식하고 올바르게 매칭하는 데 한계가 있으며, 이는 주로 학습 데이터의 불균형과 손실 함수의 한계로 인해 발생한다. 이 문제를 해결하기 위해 다양한 연구들이 데이터셋과 손실 함수의 개선에 집중해 왔다. 본 논문에서는 제안하는 아키텍처는 두 가지 주요 구성 요소를 통해 문제를 해결한다. 첫 번째는 노이즈가 많은 Raw 데이터를 전처리하는 모델로, 잘못된 이미지-텍스트 쌍이나 단일 데이터를 처리하여 정제된 데이터를 출력한다. 두 번째는 하드 네거티브 데이터를 생성하여 VLM 의 구성적 추론 능력을 향상시키는 모델이다. 이를 통해 이미지와 텍스트 간의 구조적 차이를 더욱 명확히 구별할 수 있으며, 대조 학습을 통해 모델의 성능을 최적화한다.

키워드

과제정보

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업 연구 결과로 수행되었으며(IITP-2023-RS-2023-00256629), 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. RS-2022-00165919).

참고문헌

  1. Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.
  2. Gao, Yuting, et al. "Pyramidclip: Hierarchical feature alignment for vision-language model pretraining." Advances in neural information processing systems 35 (2022): 35959-35970.
  3. Gao, Yuting, et al. "Softclip: Softer cross-modal alignment makes clip stronger." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 3. 2024.
  4. Huang, Yufeng, et al. "Structure-clip: Enhance multimodal language representations with structure knowledge." arXiv preprint arXiv:2305.06152 2.3 (2023).
  5. Thrush, Tristan, et al. "Winoground: Probing vision and language models for visio-linguistic compositionality." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
  6. Ma, Zixian, et al. "Crepe: Can vision-language foundation models reason compositionally?." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
  7. Peng, Wujian, et al. "Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.