Deep Clustering Based on Vision Transformer(ViT) for Images

Hyesoo Shin;Sara Yu;Ki Yong Lee;

doi:10.3745/PKIPS.y2023m05a.363

Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)

2023.05a
/
Pages.363-365
/
2023
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

Deep Clustering Based on Vision Transformer(ViT) for Images

이미지에 대한 비전 트랜스포머(ViT) 기반 딥 클러스터링

Hyesoo Shin (Dept. of Computer Science, Sookmyung Women's University) ;
Sara Yu (Dept. of Computer Science, Sookmyung Women's University) ;
Ki Yong Lee (Dept. of Computer Science, Sookmyung Women's University)

신혜수 (숙명여자대학교 컴퓨터과학과) ;
유사라 (숙명여자대학교 컴퓨터과학과) ;
이기용 (숙명여자대학교 컴퓨터과학과)

Published : 2023.05.18

https://doi.org/10.3745/PKIPS.y2023m05a.363 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 어텐션(Attention) 메커니즘을 이미지 처리에 적용한 연구가 진행되면서 등장한 비전 트랜스포머 (Vision Transformer, ViT)의 한계를 극복하기 위해 ViT 기반의 딥 클러스터링(Deep Clustering) 기법을 제안한다. ViT는 완전히 트랜스포머(Transformer)만을 사용하여 입력 이미지의 패치(patch)들을 벡터로 변환하여 학습하는 모델로, 합성곱 신경망(Convolutional Neural Network, CNN)을 사용하지 않으므로 입력 이미지의 크기에 대한 제한이 없으며 높은 성능을 보인다. 그러나 작은 데이터셋에서는 학습이 어렵다는 단점이 있다. 제안하는 딥 클러스터링 기법은 처음에는 입력 이미지를 임베딩 모델에 통과시켜 임베딩 벡터를 추출하여 클러스터링을 수행한 뒤, 클러스터링 결과를 임베딩 벡터에 반영하도록 업데이트하여 클러스터링을 개선하고, 이를 반복하는 방식이다. 이를 통해 ViT 모델의 일반적인 패턴 파악 능력을 개선하고 더욱 정확한 클러스터링 결과를 얻을 수 있다는 것을 실험을 통해 확인하였다.

Keywords

Acknowledgement

이 성과는 2021년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. NRF-2021R1A2C1012543).