Image captioning and video captioning using Transformer

Gi-Duk Kim;Geun-Hoo Lee;

한국컴퓨터정보학회:학술대회논문집 (Proceedings of the Korean Society of Computer Information Conference)

한국컴퓨터정보학회 (Korean Society of Computer Information)

Transformer를 사용한 이미지 캡셔닝 및 비디오 캡셔닝

Image captioning and video captioning using Transformer

김기덕 ((주)쓰리아이퓨처) ;
이근후 ((주)쓰리아이퓨처)

Gi-Duk Kim (3Ifuture) ;
Geun-Hoo Lee (3Ifuture)

발행 : 2023.01.11

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 트랜스포머를 사용한 이미지 캡셔닝 방법과 비디오 캡셔닝 방법을 제안한다. 트랜스포머의 입력으로 사전 학습된 이미지 클래스 분류모델을 거쳐 추출된 특징을 트랜스포머의 입력으로 넣고 인코더-디코더를 통해 이미지와 비디오의 캡션을 출력한다. 이미지 캡셔닝의 경우 한글 데이터 세트를 학습하여 한글 캡션을 출력하도록 학습하였으며 비디오 캡셔닝의 경우 MSVD 데이터 세트를 학습하여 학습 후 출력 캡션의 성능을 다른 비디오 캡셔닝 모델의 성능과 비교하였다. 비디오 캡셔닝에서 성능향상을 위해 트랜스포머의 디코더를 변형한 GPT-2를 사용하였을 때 BLEU-1 점수가 트랜스포머의 경우 0.62, GPT-2의 경우 0.80으로 성능이 향상됨을 확인하였다

한국컴퓨터정보학회:학술대회논문집 (Proceedings of the Korean Society of Computer Information Conference)

Transformer를 사용한 이미지 캡셔닝 및 비디오 캡셔닝

Image captioning and video captioning using Transformer

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)