• 제목/요약/키워드: Convolutional Channel Attention

검색결과 25건 처리시간 0.02초

A Framework for Facial Expression Recognition Combining Contextual Information and Attention Mechanism

  • Jianzeng Chen;Ningning Chen
    • Journal of Information Processing Systems
    • /
    • 제20권4호
    • /
    • pp.535-549
    • /
    • 2024
  • Facial expressions (FEs) serve as fundamental components for human emotion assessment and human-computer interaction. Traditional convolutional neural networks tend to overlook valuable information during the FE feature extraction, resulting in suboptimal recognition rates. To address this problem, we propose a deep learning framework that incorporates hierarchical feature fusion, contextual data, and an attention mechanism for precise FE recognition. In our approach, we leveraged an enhanced VGGNet16 as the backbone network and introduced an improved group convolutional channel attention (GCCA) module in each block to emphasize the crucial expression features. A partial decoder was added at the end of the backbone network to facilitate the fusion of multilevel features for a comprehensive feature map. A reverse attention mechanism guides the model to refine details layer-by-layer while introducing contextual information and extracting richer expression features. To enhance feature distinguishability, we employed islanding loss in combination with softmax loss, creating a joint loss function. Using two open datasets, our experimental results demonstrated the effectiveness of our framework. Our framework achieved an average accuracy rate of 74.08% on the FER2013 dataset and 98.66% on the CK+ dataset, outperforming advanced methods in both recognition accuracy and stability.

채널 강조와 공간 강조의 결합을 이용한 딥 러닝 기반의 초해상도 방법 (Deep Learning-based Super Resolution Method Using Combination of Channel Attention and Spatial Attention)

  • 이동우;이상훈;한현호
    • 한국융합학회논문지
    • /
    • 제11권12호
    • /
    • pp.15-22
    • /
    • 2020
  • 본 논문은 채널 강조(Channel Attentin)와 공간 강조(Spatial Attention) 방법을 결합한 딥 러닝 기반의 초해상도 방법을 제안하였다. 초해상도 과정에서 질감, 특징과 같은 주변 픽셀의 변화량이 큰 고주파 성분의 복원이 중요하다. 채널 강조와 공간 강조를 결합한 특징 강조를 이용한 초해상도 방법을 제안하였다. 기존의 CNN(Convolutional Neural Network) 기반의 초해상도 방법은 깊은 네트워크의 학습이 어려우며, 고주파 성분의 강조가 부족하여 윤곽선이 흐려지거나 왜곡이 발생한다. 문제를 해결하기 위해 스킵-커넥션(Skip Connection)을 적용한 채널 강조와 공간 강조를 결합한 강조 블록과 잔차 블록(Residual Block)을 사용하였다. 방법으로 추출한 강조된 특징 맵을 부-픽셀 컨볼루션(Sub-pixel Convolution)을 통해 특징맵을 확장하여 초해상도를 진행하였다. 이를 통해 기존의 SRCNN과 비교하여 약 PSNR는 5%, SSIM은 3% 향상되었으며 VDSR과 비교를 통해 약 PSNR는 2%, SSIM은 1% 향상된 결과를 보였다.

합성곱 신경망의 Channel Attention 모듈 및 제한적인 각도 다양성 조건에서의 SAR 표적영상 식별로의 적용 (Channel Attention Module in Convolutional Neural Network and Its Application to SAR Target Recognition Under Limited Angular Diversity Condition)

  • 박지훈;서승모;유지희
    • 한국군사과학기술학회지
    • /
    • 제24권2호
    • /
    • pp.175-186
    • /
    • 2021
  • In the field of automatic target recognition(ATR) with synthetic aperture radar(SAR) imagery, it is usually impractical to obtain SAR target images covering a full range of aspect views. When the database consists of SAR target images with limited angular diversity, it can lead to performance degradation of the SAR-ATR system. To address this problem, this paper proposes a deep learning-based method where channel attention modules(CAMs) are inserted to a convolutional neural network(CNN). Motivated by the idea of the squeeze-and-excitation(SE) network, the CAM is considered to help improve recognition performance by selectively emphasizing discriminative features and suppressing ones with less information. After testing various CAM types included in the ResNet18-type base network, the SE CAM and its modified forms are applied to SAR target recognition using MSTAR dataset with different reduction ratios in order to validate recognition performance improvement under the limited angular diversity condition.

Convolutional GRU and Attention based Fall Detection Integrating with Human Body Keypoints and DensePose

  • Yi Zheng;Cunyi Liao;Ruifeng Xiao;Qiang He
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권9호
    • /
    • pp.2782-2804
    • /
    • 2024
  • The integration of artificial intelligence technology with medicine has rapidly evolved, with increasing demands for quality of life. However, falls remain a significant risk leading to severe injuries and fatalities, especially among the elderly. Therefore, the development and application of computer vision-based fall detection technologies have become increasingly important. In this paper, firstly, the keypoint detection algorithm ViTPose++ is used to obtain the coordinates of human body keypoints from the camera images. Human skeletal feature maps are generated from this keypoint coordinate information. Meanwhile, human dense feature maps are produced based on the DensePose algorithm. Then, these two types of feature maps are confused as dual-channel inputs for the model. The convolutional gated recurrent unit is introduced to extract the frame-to-frame relevance in the process of falling. To further integrate features across three dimensions (spatio-temporal-channel), a dual-channel fall detection algorithm based on video streams is proposed by combining the Convolutional Block Attention Module (CBAM) with the ConvGRU. Finally, experiments on the public UR Fall Detection Dataset demonstrate that the improved ConvGRU-CBAM achieves an F1 score of 92.86% and an AUC of 95.34%.

Attention-based for Multiscale Fusion Underwater Image Enhancement

  • Huang, Zhixiong;Li, Jinjiang;Hua, Zhen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권2호
    • /
    • pp.544-564
    • /
    • 2022
  • Underwater images often suffer from color distortion, blurring and low contrast, which is caused by the propagation of light in the underwater environment being affected by the two processes: absorption and scattering. To cope with the poor quality of underwater images, this paper proposes a multiscale fusion underwater image enhancement method based on channel attention mechanism and local binary pattern (LBP). The network consists of three modules: feature aggregation, image reconstruction and LBP enhancement. The feature aggregation module aggregates feature information at different scales of the image, and the image reconstruction module restores the output features to high-quality underwater images. The network also introduces channel attention mechanism to make the network pay more attention to the channels containing important information. The detail information is protected by real-time superposition with feature information. Experimental results demonstrate that the method in this paper produces results with correct colors and complete details, and outperforms existing methods in quantitative metrics.

채널 어텐션을 이용한 AHDR 모델의 성능 평가 (Performance Evaluation of AHDR Model using Channel Attention)

  • 윤석준;이근택;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.335-338
    • /
    • 2021
  • 본 논문에서는 기존 AHDRNet에 channel attention 기법을 적용했을 때 성능에 어떠한 변화가 있는지를 평가하였다. 기존 모델의 병합 망에 존재하는 DRDB(Dilated Residual Dense Block) 사이, 그리고 DRDB 내의 확장된 합성곱 레이어 (dilated convolutional layer) 뒤에 또다른 합성곱 레이어를 추가하는 방식으로 channel attention 기법을 적용하였다. 데이터셋은 Kalantari의 데이터셋을 사용하였으며, PSNR(Peak Signal-to-Noise Ratio)로 비교해본 결과 기존의 AHDRNet의 PSNR은 42.1656이며, 제안된 모델의 PSNR은 42.8135로 더 높아진 것을 확인하였다.

  • PDF

얼굴 표정 인식을 위한 Densely Backward Attention 기반 컨볼루션 네트워크 (Convolutional Network with Densely Backward Attention for Facial Expression Recognition)

  • 서현석;;이승룡
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.958-961
    • /
    • 2019
  • Convolutional neural network(CNN)의 등장으로 얼굴 표현 인식 연구는 많은 발전을 이루었다. 그러나, 기존의 CNN 접근법은 미리 학습된 훈련모델에서 Multiple-level 의 의미적 맥락을 포함하지 않는 Attention-embedded 문제가 발생한다. 사람의 얼굴 감정은 다양한 근육의 움직임과 결합에 기초하여 관찰되며, CNN 에서 딥 레이어의 산출물로 나온 특징들의 결합은 많은 서브샘플링 단계를 통해서 class 구별와 같은 의미 정보의 손실이 일어나기 때문에 전이 학습을 통한 올바른 훈련 모델 생성이 어렵다는 단점이 있다. 따라서, 본 논문은 Backbone 네트워크의 Multi-level 특성에서 Channel-wise Attention 통합 및 의미 정보를 포함하여 높은 인식 성능을 달성하는 Densely Backwarnd Attention(DBA) CNN 방법을 제안한다. 제안하는 기법은 High-level 기능에서 채널 간 시멘틱 정보를 활용하여 세분화된 시멘틱 정보를 Low-level 버전에서 다시 재조정한다. 그런 다음, 중요한 얼굴 표정의 묘사를 분명하게 포함시키기 위해서 multi-level 데이터를 통합하는 단계를 추가로 실행한다. 실험을 통해, 제안된 접근방법이 정확도 79.37%를 달성 하여 제안 기술이 효율성이 있음을 증명하였다.

Multimode-fiber Speckle Image Reconstruction Based on Multiscale Convolution and a Multidimensional Attention Mechanism

  • Kai Liu;Leihong Zhang;Runchu Xu;Dawei Zhang;Haima Yang;Quan Sun
    • Current Optics and Photonics
    • /
    • 제8권5호
    • /
    • pp.463-471
    • /
    • 2024
  • Multimode fibers (MMFs) possess high information throughput and small core diameter, making them highly promising for applications such as endoscopy and communication. However, modal dispersion hinders the direct use of MMFs for image transmission. By training neural networks on time-series waveforms collected from MMFs it is possible to reconstruct images, transforming blurred speckle patterns into recognizable images. This paper proposes a fully convolutional neural-network model, MSMDFNet, for image restoration in MMFs. The network employs an encoder-decoder architecture, integrating multiscale convolutional modules in the decoding layers to enhance the receptive field for feature extraction. Additionally, attention mechanisms are incorporated from both spatial and channel dimensions, to improve the network's feature-perception capabilities. The algorithm demonstrates excellent performance on MNIST and Fashion-MNIST datasets collected through MMFs, showing significant improvements in various metrics such as SSIM.

영상 데이터를 이용한 딥러닝 기반 작물 건강 상태 분류 연구 (Deep Learning-Based Plant Health State Classification Using Image Data)

  • 세이드 알리 에스거;이재환;알바로 푸엔테스;윤숙;박동선
    • 사물인터넷융복합논문지
    • /
    • 제10권4호
    • /
    • pp.43-53
    • /
    • 2024
  • 토마토에는 리코펜, β-카로틴 및 비타민 C와 같은 영양소가 풍부하고 세계적으로 많이 소비되는 채소 중 하나이다. 그러나 종종 생물학적 및 환경적 스트레스 요인으로 인해 수확량 손실이 발생한다. 전통적인 작물 건강 평가는 오류가 발생하기 쉽고 대규모 생산에 비효율적이다. 이러한 문제를 해결하기 위해 건강 상태에 대해 1~5로 주석을 메긴 토마토 전체 생육기간을 다루는 포괄적인 데이터 세트를 수집하였다. 우리는 Channel-wise attention과 Grouped convolution을 사용한 Attention-Enhanced DS-ResNet 아키텍처와 새로운 학습 기법을 제안한다. 우리의 모델은 5-fold 교차 검증을 사용하여 전체 정확도 80.2%를 달성하여 작물의 건강 상태를 정확하게 분류하는데 있어 견고성을 보여주었다.

Split-Attention 백본 네트워크를 활용한 차선 인식에 관한 연구 (A Study on Lane Detection Based on Split-Attention Backbone Network)

  • 송인서;이선우;권장우;원종훈
    • 한국ITS학회 논문지
    • /
    • 제19권5호
    • /
    • pp.178-188
    • /
    • 2020
  • 본 논문에서는 split-attention 네트워크를 백본으로 특징을 추출하는 차선인식 CNN 네트워크를 제안한다. split-attention은 CNN의 특징 추출 과정에서 feature map의 각 channel에 가중치를 부여하는 방법으로, 빠르게 변화하는 자동차의 주행 환경에서 안정적으로 이미지의 특징을 추출할 수 있다. Tusimple 데이터 셋을 활용하여 본 논문에서 제안하는 네트워크를 학습·평가하였으며, 백본 네트워크의 레이어 수에 따른 성능 변화를 비교·분석 하였다. 평가 결과 최대 96.26%의 정확도로 최신 연구에 준하는 결과를 얻었으며, FP의 경우 0.0234(2.34%)로 비교 연구 중 가장 좋은 결과를 보여준다. 따라서, 실제 차량의 주행 환경 등에서도 본 연구에서 제안하는 모델을 사용하여 오인식 없이 안정적인 차선 인식이 가능하다.