DOI QR코드

DOI QR Code

Design of Clustering CoaT Vision Model Based on Transformer

Transformer 기반의 Clustering CoaT 모델 설계

  • Bang, Ji-Hyeon (Interdisciplinary Program in IT-Bio Convergence System, Sunchon National University, Sunchon National University) ;
  • Park, Jun (Interdisciplinary Program in IT-Bio Convergence System, Sunchon National University, Sunchon National University) ;
  • Jung, Se-Hoon (Dept. of Creative Convergence, Andong National University) ;
  • Sim, Chun-Bo (Interdisciplinary Program in IT-Bio Convergence System, Sunchon National University, Sunchon National University)
  • 방지현 (순천대학교 IT-Bio 융합시스템전공) ;
  • 박준 (순천대학교 IT-Bio 융합시스템전공) ;
  • 정세훈 (안동대학교 창의융합학부) ;
  • 심춘보 (순천대학교 IT-Bio 융합시스템전공)
  • Published : 2022.05.17

Abstract

최근 컴퓨터 비전 분야에서 Transformer를 도입한 연구가 활발히 연구되고 있다. 이 모델들은 Transformer의 구조를 거의 그대로 사용하기 때문에 확장성이 좋으며 large 스케일 학습에서 매우 우수한 성능을 보여주었다. 하지만 Transformer를 적용한 비전 모델은 inductive bias의 부족으로 학습 시 많은 데이터와 시간을 필요로 하였다. 그로 인하여 현재 많은 Vision Transformer 개선 모델들이 연구되고 있다. 본 논문에서도 Vision Transformer의 문제점을 개선한 Clustering CoaT 모델을 제안한다.

Keywords

Acknowledgement

This research was supported by the MSIT(Ministry of Science and ICT), Korea, under the Grand Information Technology Research Center support program(IITP-2021-2020-0-01489) supervised by the IITP(Institute for Information & communications Technology Planning & Evaluation). And this work was supported by the BK21 plus program through the National Research Foundation (NRF) funded by the Ministry of Education of Korea(5199990214660)