Addressing and Improving Compositional Inference in Vision-Language Model(VLM)

Kyung-Yoon Yoon;Yeong-Jun Cho;

doi:10.3745/PKIPS.y2024m10a.649

Annual Conference of KIPS (한국정보처리학회:학술대회논문집)

2024.10a
/
Pages.649-652
/
2024
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Addressing and Improving Compositional Inference in Vision-Language Model(VLM)

VLM(Vision-Language Model)의 구성적 추론 문제 해결 및 향상

Kyung-Yoon Yoon (Dept. of AI Convergence, Chonnam National University) ;
Yeong-Jun Cho (Dept. of AI Convergence, Chonnam National University)

윤경윤 (전남대학교 인공지능융합학과) ;
조영준 (전남대학교 인공지능융합학과)

Published : 2024.10.31

https://doi.org/10.3745/PKIPS.y2024m10a.649 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문은 Vision-Language Model(VLM)의 성능을 향상시키고, 구성적 추론 문제를 해결하는 새로운 접근을 제시한다. VLM 은 시각적 정보와 언어적 정보를 결합하여 다양한 다운스트림 작업에서 뛰어난 성능을 보였지만, 여전히 이미지와 텍스트 간의 복잡한 관계를 완전히 이해하지 못하는 문제를 안고 있다. 특히, VLM 이 텍스트와 이미지의 구조적 차이를 인식하고 올바르게 매칭하는 데 한계가 있으며, 이는 주로 학습 데이터의 불균형과 손실 함수의 한계로 인해 발생한다. 이 문제를 해결하기 위해 다양한 연구들이 데이터셋과 손실 함수의 개선에 집중해 왔다. 본 논문에서는 제안하는 아키텍처는 두 가지 주요 구성 요소를 통해 문제를 해결한다. 첫 번째는 노이즈가 많은 Raw 데이터를 전처리하는 모델로, 잘못된 이미지-텍스트 쌍이나 단일 데이터를 처리하여 정제된 데이터를 출력한다. 두 번째는 하드 네거티브 데이터를 생성하여 VLM 의 구성적 추론 능력을 향상시키는 모델이다. 이를 통해 이미지와 텍스트 간의 구조적 차이를 더욱 명확히 구별할 수 있으며, 대조 학습을 통해 모델의 성능을 최적화한다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업 연구 결과로 수행되었으며(IITP-2023-RS-2023-00256629), 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. RS-2022-00165919).

References

Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.
Gao, Yuting, et al. "Pyramidclip: Hierarchical feature alignment for vision-language model pretraining." Advances in neural information processing systems 35 (2022): 35959-35970.
Gao, Yuting, et al. "Softclip: Softer cross-modal alignment makes clip stronger." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 3. 2024.
Huang, Yufeng, et al. "Structure-clip: Enhance multimodal language representations with structure knowledge." arXiv preprint arXiv:2305.06152 2.3 (2023).
Thrush, Tristan, et al. "Winoground: Probing vision and language models for visio-linguistic compositionality." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
Ma, Zixian, et al. "Crepe: Can vision-language foundation models reason compositionally?." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
Peng, Wujian, et al. "Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

Annual Conference of KIPS (한국정보처리학회:학술대회논문집)

Addressing and Improving Compositional Inference in Vision-Language Model(VLM)

VLM(Vision-Language Model)의 구성적 추론 문제 해결 및 향상

Abstract

Keywords

Acknowledgement

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)