• 제목/요약/키워드: Vision Transformer

검색결과 55건 처리시간 0.031초

Lightening of Human Pose Estimation Algorithm Using MobileViT and Transfer Learning

  • Kunwoo Kim;Jonghyun Hong;Jonghyuk Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.17-25
    • /
    • 2023
  • 본 논문에서는 매개변수가 더 적고, 빠르게 추정 가능한 MobileViT 기반 모델을 통해 사람 자세 추정 과업을 수행할 수 있는 모델을 제안한다. 기반 모델은 합성곱 신경망의 특징과 Vision Transformer의 특징이 결합한 구조를 통해 경량화된 성능을 입증한다. 본 연구에서 주요 매커니즘이 되는 Transformer는 그 기반의 모델들이 컴퓨터 비전 분야에서도 합성곱 신경망 기반의 모델들 대비 더 나은 성능을 보이며, 영향력이 커지게 되었다. 이는 사람 자세 추정 과업에서도 동일한 상황이며, Vision Transformer기반의 ViTPose가 COCO, OCHuman, MPII 등 사람 자세 추정 벤치마크에서 모두 최고 성능을 지키고 있는 것이 그 적절한 예시이다. 하지만 Vision Transformer는 매개변수의 수가 많고 상대적으로 많은 연산량을 요구하는 무거운 모델 구조를 가지고 있기 때문에, 학습에 있어 사용자에게 많은 비용을 야기시킨다. 이에 기반 모델은 Vision Transformer가 많은 계산량을 요구하는 부족한 Inductive Bias 계산 문제를 합성곱 신경망 구조를 통한 Local Representation으로 극복하였다. 최종적으로, 제안 모델은 MS COCO 사람 자세 추정 벤치마크에서 제공하는 Validation Set으로 ViTPose 대비 각각 5분의 1과 9분의 1만큼의 3.28GFLOPs, 972만 매개변수를 나타내었고, 69.4 Mean Average Precision을 달성하여 상대적으로 우수한 성능을 보였다.

Transformer 기반의 Clustering CoaT 모델 설계 (Design of Clustering CoaT Vision Model Based on Transformer)

  • 방지현;박준;정세훈;심춘보
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.546-548
    • /
    • 2022
  • 최근 컴퓨터 비전 분야에서 Transformer를 도입한 연구가 활발히 연구되고 있다. 이 모델들은 Transformer의 구조를 거의 그대로 사용하기 때문에 확장성이 좋으며 large 스케일 학습에서 매우 우수한 성능을 보여주었다. 하지만 Transformer를 적용한 비전 모델은 inductive bias의 부족으로 학습 시 많은 데이터와 시간을 필요로 하였다. 그로 인하여 현재 많은 Vision Transformer 개선 모델들이 연구되고 있다. 본 논문에서도 Vision Transformer의 문제점을 개선한 Clustering CoaT 모델을 제안한다.

Vision Transformer를 활용한 비디오 분류 성능 향상을 위한 Fine-tuning 신경망 (Fine-tuning Neural Network for Improving Video Classification Performance Using Vision Transformer)

  • 이광엽;이지원;박태룡
    • 전기전자학회논문지
    • /
    • 제27권3호
    • /
    • pp.313-318
    • /
    • 2023
  • 본 논문은 Vision Transformer를 기반으로 하는 Video Classification의 성능을 개선하는 방법으로 fine-tuning를 적용한 신경망을 제안한다. 최근 딥러닝 기반 실시간 비디오 영상 분석의 필요성이 대두되고 있다. Image Classification에 사용되는 기존 CNN 모델의 특징상 연속된 Frame에 대한 연관성을 분석하기 어렵다는 단점이 있다. 이와 같은 문제를 Attention 메커니즘이 적용된 Vistion Transformer와 Non-local 신경망 모델을 비교 분석하여 최적의 모델을 찾아 해결하고자 한다. 또한, 전이 학습 방법으로 fine-tuning의 다양한 방법을 적용하여 최적의 fine-tuning 신경망 모델을 제안한다. 실험은 UCF101 데이터셋으로 모델을 학습시킨 후, UTA-RLDD 데이터셋에 전이 학습 방법을 적용하여 모델의 성능을 검증하였다.

Vision Transformer 기반 얼굴 연령 분류 기법의 성능 분석 (Performance Analysis of Human Facial Age Classification Method Based on Vision Transformer)

  • 박준휘;김남중;박창준;이재현;곽정환
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.343-345
    • /
    • 2024
  • 얼굴 연령 분류 기법은 신원 확인 시스템 고도화, 유동 인구 통계 자동화 시스템 구축, 연령 제한 콘텐츠 관리 시스템 고도화 등 다양한 분야에 적용할 수 있는 확장 가능성을 가진다. 넓은 확장 가능성을 가지는 만큼 적용된 시스템의 안정성을 위해서는 얼굴 연령 분류 기법의 높은 정확도는 필수적이다. 따라서, 본 논문에서는 Vision Transformer(ViT) 기반 분류 알고리즘의 얼굴 연령 분류 성능을 비교 분석한다. ViT 기반분류 알고리즘으로는 최근 널리 사용되고 있는 ViT, Swin Transformer(ST), Neighborhood Attention Transformer(NAT) 세 가지로 선정하였으며, ViT의 얼굴 연령 분류 정확도 65.19%의 성능을 확인하였다.

  • PDF

객체 탐지 과업에서의 트랜스포머 기반 모델의 특장점 분석 연구 (A Survey on Vision Transformers for Object Detection Task)

  • 하정민;이현종;엄정민;이재구
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.319-327
    • /
    • 2022
  • Transformers are the most famous deep learning models that has achieved great success in natural language processing and also showed good performance on computer vision. In this survey, we categorized transformer-based models for computer vision, particularly object detection tasks and perform comprehensive comparative experiments to understand the characteristics of each model. Next, we evaluated the models subdivided into standard transformer, with key point attention, and adding attention with coordinates by performance comparison in terms of object detection accuracy and real-time performance. For performance comparison, we used two metrics: frame per second (FPS) and mean average precision (mAP). Finally, we confirmed the trends and relationships related to the detection and real-time performance of objects in several transformer models using various experiments.

마스크된 복원에서 질병 진단까지: 안저 영상을 위한 비전 트랜스포머 접근법 (From Masked Reconstructions to Disease Diagnostics: A Vision Transformer Approach for Fundus Images)

  • ;변규린;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.557-560
    • /
    • 2023
  • In this paper, we introduce a pre-training method leveraging the capabilities of the Vision Transformer (ViT) for disease diagnosis in conventional Fundus images. Recognizing the need for effective representation learning in medical images, our method combines the Vision Transformer with a Masked Autoencoder to generate meaningful and pertinent image augmentations. During pre-training, the Masked Autoencoder produces an altered version of the original image, which serves as a positive pair. The Vision Transformer then employs contrastive learning techniques with this image pair to refine its weight parameters. Our experiments demonstrate that this dual-model approach harnesses the strengths of both the ViT and the Masked Autoencoder, resulting in robust and clinically relevant feature embeddings. Preliminary results suggest significant improvements in diagnostic accuracy, underscoring the potential of our methodology in enhancing automated disease diagnosis in fundus imaging.

딥러닝을 이용한 의류 이미지의 텍스타일 소재 분류 (Textile material classification in clothing images using deep learning)

  • 이소영;정혜선;최윤성;이충권
    • 스마트미디어저널
    • /
    • 제12권7호
    • /
    • pp.43-51
    • /
    • 2023
  • 온라인 거래가 증가하면서 의류 이미지는 소비자의 구매 결정에 큰 영향을 미치게 되었다. 의류 소재에 대한 이미지 정보의 중요성이 강조되고 있으며, 의류 이미지를 분석하여 사용된 소재를 파악하는 것은 패션 산업에 있어서 중요하다. 의류에 사용된 텍스타일의 소재는 육안으로 식별하기 어렵고, 분류 작업에도 많은 시간과 비용이 소모된다. 본 연구는 딥러닝 알고리즘을 기반으로 의류 이미지로부터 텍스타일의 소재를 분류하고자 하였다. 소재를 분류함으로써 의류 생산 비용을 절감하고, 제조공정의 효율성을 증대하는데 도움이 되며 소비자에게 특정 소재의 제품을 추천하는 AI 서비스에 기여할 수 있다. 의류 이미지를 분류하기 위해 머신비전 기반의 딥러닝 알고리즘 ResNet과 Vision Transformer를 이용하였다. 760,949장의 이미지를 수집하였고, 비정상 이미지를 검출하는 전처리 과정을 거쳤다. 최종적으로 총 167,299장의 의류 이미지와 섬유라벨 19개, 직물라벨 20개를 사용하였다. ResNet과 Vision Transformer를 사용해서 의류 텍스타일의 소재를 분류하였으며 알고리즘 성능을 Top-k Accuracy Score 지표를 통해 비교하였다. 성능을 비교한 결과, ResNet 보다 Vision Transformer 알고리즘이 더 우수하였다.

클래스분류 학습이 Self-Supervised Transformer의 saliency map에 미치는 영향 분석 (Analysis of the effect of class classification learning on the saliency map of Self-Supervised Transformer)

  • 김재욱;김현철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.67-70
    • /
    • 2022
  • NLP 분야에서 적극 활용되기 시작한 Transformer 모델을 Vision 분야에서 적용하기 시작하면서 object detection과 segmentation 등 각종 분야에서 기존 CNN 기반 모델의 정체된 성능을 극복하며 향상되고 있다. 또한, label 데이터 없이 이미지들로만 자기지도학습을 한 ViT(Vision Transformer) 모델을 통해 이미지에 포함된 여러 중요한 객체의 영역을 검출하는 saliency map을 추출할 수 있게 되었으며, 이로 인해 ViT의 자기지도학습을 통한 object detection과 semantic segmentation 연구가 활발히 진행되고 있다. 본 논문에서는 ViT 모델 뒤에 classifier를 붙인 모델에 일반 학습한 모델과 자기지도학습의 pretrained weight을 사용해서 전이학습한 모델의 시각화를 통해 각 saliency map들을 비교 분석하였다. 이를 통해, 클래스 분류 학습 기반 전이학습이 transformer의 saliency map에 미치는 영향을 확인할 수 있었다.

  • PDF

자동 뼈 연령 평가를 위한 비전 트랜스포머와 손 X 선 영상 분석 (Unleashing the Potential of Vision Transformer for Automated Bone Age Assessment in Hand X-rays)

  • 정경희;;;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.687-688
    • /
    • 2023
  • Bone age assessment is a crucial task in pediatric radiology for assessing growth and development in children. In this paper, we explore the potential of Vision Transformer, a state-of-the-art deep learning model, for bone age assessment using X-ray images. We generate heatmap outputs using a pre-trained Vision Transformer model on a publicly available dataset of hand X-ray images and show that the model tends to focus on the overall hand and only the bone part of the image, indicating its potential for accurately identifying the regions of interest for bone age assessment without the need for pre-processing to remove background noise. We also suggest two methods for extracting the region of interest from the heatmap output. Our study suggests that Vision Transformer holds great potential for bone age assessment using X-ray images, as it can provide accurate and interpretable output that may assist radiologists in identifying potential abnormalities or areas of interest in the X-ray image.

Vision Transformer를 이용한 UAV 영상의 벼 도복 영역 진단 (Diagnosis of the Rice Lodging for the UAV Image using Vision Transformer)

  • 명현정;김서정;최강인;김동훈;이광형;안형근;정성환;김병준
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.28-37
    • /
    • 2023
  • 쌀 수확량 감소에 크게 영향을 주는 것은 집중호우나 태풍에 의한 도복 피해이다. 도복 피해 면적 산정 방법은 직접 피해 지역을 방문하는 현장 조사를 기반으로 육안 검사 및 판단하여 객관적인 결과 획득이 어렵고 많은 시간과 비용이 요구된다. 본 논문에서는 무인 항공기로 촬영된 RGB 영상을 Vision Transformer 기반 Segformer을 활용한 벼 도복 영역 추정 및 진단을 제안한다. 제안된 방법은 도복, 정상, 그리고 배경 영역을 추정하고 종자관리요강 내 벼 포장 검사를 통해 도복률을 진단한다. 진단된 결과를 통해 벼 도복 피해 분포를 관찰할 수 있게 하며, 정부 보급종 포장 검사에 활용할 수 있다. 본 연구의 벼 도복 영역 추정 성능은 평균 정확도 98.33%와 mIoU 96.79%의 성능을 나타내었다.