• 제목/요약/키워드: Vision Transformer(ViT)

검색결과 16건 처리시간 0.022초

ViT 기반 모델의 강건성 연구동향 (A Research Trends on Robustness in ViT-based Models)

  • 신영재;홍윤영;김호원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.510-512
    • /
    • 2022
  • 컴퓨터 비전 분야에서 오랫동안 사용되었던 CNN(Convolution Neural Network)은 오분류를 일으키기 위해 악의적으로 추가된 섭동에 매우 취약하다. ViT(Vision Transformer)는 입력 이미지의 전체적인 특징을 탐색하는 어텐션 구조를 적용함으로 CNN의 국소적 특징 탐색보다 특성 픽셀에 섭동을 추가하는 적대적 공격에 강건한 특성을 보이지만 최근 어텐션 구조에 대한 강건성 분석과 다양한 공격 기법의 발달로 보안 취약성 문제가 제기되고 있다. 본 논문은 ViT가 CNN 대비 강건성을 가지는 구조적인 특징을 분석하는 연구와 어텐션 구조에 대한 최신 공격기법을 소개함으로 향후 등장할 ViT 파생 모델의 강건성을 유지하기 위해 중점적으로 다루어야 할 부분이 무엇인지 소개한다.

딥러닝기반 건축폐기물 이미지 분류 시스템 비교 (A Comparison of Image Classification System for Building Waste Data based on Deep Learning)

  • 성재경;양민철;문경남;김용국
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.199-206
    • /
    • 2023
  • 본 연구는 건축시 발생되는 폐기물의 자동분류를 위해 딥러닝 알고리즘을 활용해 건출 폐기물 데이터를 각각 목재 폐기물, 플라스틱 폐기물, 콘크리트 폐기물로 분류하는 두 모델들을 통해서 성능 비교를 한다. 건축 폐기물의 분류를 위해 사용된 딥러닝 알고리즘은 합성곱 신경망 이미지 분류 알고리즘 VGG-16과 NLP를 기반으로 이미지를 시퀀스화 시킨ViT, Vision Transformer 모델을 사용했다. 건축 폐기물 데이터 수집을 위해 이미지 데이터를 전 세계 검색엔진에서 크롤링 하였고, 육안으로도 명확히 구분하기 어렵거나, 중복되는 등 실험에 방해되는 이미지는 전부 제외하여 각 분류당 1천장씩 총 3천장의 이미지를 확보했다. 또한, 데이터 학습시에 모델의 정확도 향상에 도움을 주기 위해 데이터 확대 작업을 진행해 총 3만장의 이미지로 실험을 진행 하였다. 수집된 이미 데이터가 정형화 되어있지 않은 데이터 임에도 불구하고 실험 결과는 정확도가 VGG-16는 91.5%, ViT 는 92.7%의 결과가 나타났다. 이는 실제 건축폐기물 데이터 관리 작업에 실전 활용 가능성을 제시한 것으로 보인다. 본 연구를 바탕으로 추후에 객체 탐지 기법이나 의미론적 분할 기법까지 활용한다면, 하나의 이미지 안에서도 여러 세밀한 분류가 가능해 더욱 완벽한 분류가 가능할 것이다.

트랜스포머를 이용한 GVQA 모델의 성능 개선에 관한 연구 (A Study on Performance Improvement of GVQA Model Using Transformer)

  • 박성욱;김준영;박준;이한성;정세훈;심춘보
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.749-752
    • /
    • 2021
  • 오늘날 인공지능(Artificial Intelligence, AI) 분야에서 가장 구현하기 어려운 분야 중 하나는 추론이다. 근래 추론 분야에서 영상과 언어가 결합한 다중 모드(Multi-modal) 환경에서 영상 기반의 질의 응답(Visual Question Answering, VQA) 과업에 대한 AI 모델이 발표됐다. 얼마 지나지 않아 VQA 모델의 성능을 개선한 GVQA(Grounded Visual Question Answering) 모델도 발표됐다. 하지만 아직 GVQA 모델도 완벽한 성능을 내진 못한다. 본 논문에서는 GVQA 모델의 성능 개선을 위해 VCC(Visual Concept Classifier) 모델을 ViT-G(Vision Transformer-Giant)/14로 변경하고, ACP(Answer Cluster Predictor) 모델을 GPT(Generative Pretrained Transformer)-3으로 변경한다. 이와 같은 방법들은 성능을 개선하는 데 큰 도움이 될 수 있다고 사료된다.

Integration of Multi-scale CAM and Attention for Weakly Supervised Defects Localization on Surface Defective Apple

  • Nguyen Bui Ngoc Han;Ju Hwan Lee;Jin Young Kim
    • 스마트미디어저널
    • /
    • 제12권9호
    • /
    • pp.45-59
    • /
    • 2023
  • Weakly supervised object localization (WSOL) is a task of localizing an object in an image using only image-level labels. Previous studies have followed the conventional class activation mapping (CAM) pipeline. However, we reveal the current CAM approach suffers from problems which cause original CAM could not capture the complete defects features. This work utilizes a convolutional neural network (CNN) pretrained on image-level labels to generate class activation maps in a multi-scale manner to highlight discriminative regions. Additionally, a vision transformer (ViT) pretrained was treated to produce multi-head attention maps as an auxiliary detector. By integrating the CNN-based CAMs and attention maps, our approach localizes defective regions without requiring bounding box or pixel-level supervision during training. We evaluate our approach on a dataset of apple images with only image-level labels of defect categories. Experiments demonstrate our proposed method aligns with several Object Detection models performance, hold a promise for improving localization.

Corroded and loosened bolt detection of steel bolted joints based on improved you only look once network and line segment detector

  • Youhao Ni;Jianxiao Mao;Hao Wang;Yuguang Fu;Zhuo Xi
    • Smart Structures and Systems
    • /
    • 제32권1호
    • /
    • pp.23-35
    • /
    • 2023
  • Steel bolted joint is an important part of steel structure, and its damage directly affects the bearing capacity and durability of steel structure. Currently, the existing research mainly focuses on the identification of corroded bolts and corroded bolts respectively, and there are few studies on multiple states. A detection framework of corroded and loosened bolts is proposed in this study, and the innovations can be summarized as follows: (i) Vision Transformer (ViT) is introduced to replace the third and fourth C3 module of you-only-look-once version 5s (YOLOv5s) algorithm, which increases the attention weights of feature channels and the feature extraction capability. (ii) Three states of the steel bolts are considered, including corroded bolt, bolt missing and clean bolt. (iii) Line segment detector (LSD) is introduced for bolt rotation angle calculation, which realizes bolt looseness detection. The improved YOLOv5s model was validated on the dataset, and the mean average precision (mAP) was increased from 0.902 to 0.952. In terms of a lab-scale joint, the performance of the LSD algorithm and the Hough transform was compared from different perspective angles. The error value of bolt loosening angle of the LSD algorithm is controlled within 1.09%, less than 8.91% of the Hough transform. Furthermore, the proposed framework was applied to fullscale joints of a steel bridge in China. Synthetic images of loosened bolts were successfully identified and the multiple states were well detected. Therefore, the proposed framework can be alternative of monitoring steel bolted joints for management department.

A study on the effectiveness of intermediate features in deep learning on facial expression recognition

  • KyeongTeak Oh;Sun K. Yoo
    • International journal of advanced smart convergence
    • /
    • 제12권2호
    • /
    • pp.25-33
    • /
    • 2023
  • The purpose of this study is to evaluate the impact of intermediate features on FER performance. To achieve this objective, intermediate features were extracted from the input images at specific layers (FM1~FM4) of the pre-trained network (Resnet-18). These extracted intermediate features and original images were used as inputs to the vision transformer (ViT), and the FER performance was compared. As a result, when using a single image as input, using intermediate features extracted from FM2 yielded the best performance (training accuracy: 94.35%, testing accuracy: 75.51%). When using the original image as input, the training accuracy was 91.32% and the testing accuracy was 74.68%. However, when combining the original image with intermediate features as input, the best FER performance was achieved by combining the original image with FM2, FM3, and FM4 (training accuracy: 97.88%, testing accuracy: 79.21%). These results imply that incorporating intermediate features alongside the original image can lead to superior performance. The findings can be referenced and utilized when designing the preprocessing stages of a deep learning model in FER. By considering the effectiveness of using intermediate features, practitioners can make informed decisions to enhance the performance of FER systems.