• 제목/요약/키워드: Spatial attention mechanism

검색결과 40건 처리시간 0.02초

Crack detection based on ResNet with spatial attention

  • Yang, Qiaoning;Jiang, Si;Chen, Juan;Lin, Weiguo
    • Computers and Concrete
    • /
    • 제26권5호
    • /
    • pp.411-420
    • /
    • 2020
  • Deep Convolution neural network (DCNN) has been widely used in the healthy maintenance of civil infrastructure. Using DCNN to improve crack detection performance has attracted many researchers' attention. In this paper, a light-weight spatial attention network module is proposed to strengthen the representation capability of ResNet and improve the crack detection performance. It utilizes attention mechanism to strengthen the interested objects in global receptive field of ResNet convolution layers. Global average spatial information over all channels are used to construct an attention scalar. The scalar is combined with adaptive weighted sigmoid function to activate the output of each channel's feature maps. Salient objects in feature maps are refined by the attention scalar. The proposed spatial attention module is stacked in ResNet50 to detect crack. Experiments results show that the proposed module can got significant performance improvement in crack detection.

CNN과 Attention을 통한 깊이 화면 내 예측 방법 (Intra Prediction Method for Depth Picture Using CNN and Attention Mechanism)

  • 윤재혁;이동석;윤병주;권순각
    • 한국산업정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.35-45
    • /
    • 2024
  • 본 논문에서는 CNN과 Attention 기법을 통한 깊이 영상의 화면 내 예측 방법을 제안한다. 제안하는 방법을 통해 예측하고자 하는 블록 내 화소마다 참조 화소를 선택할 수 있도록 한다. CNN을 통해 예측 블록의 상단과 좌단에서 각각 수직방향과 수평 방향의 공간적 특징을 검출한다. 두 공간적 특징은 예측블록과 참조 화소들에 대한 특징을 예측하기 위해 각각 특징차원과 공간적 차원으로 병합된다. Attention을 통해 예측 블록과 참조 화소간의 상관성을 입력된 공간적 특징을 통해 예측한다. Attention을 통해 예측된 상관성은 CNN 레이어를 통해 화소 도메인으로 복원되어 블록 내 화소 값이 예측된다. 제안된 방법이 VVC의 인트라 모드에 추가되었을 때 화면 예측 오차가 평균 5.8% 감소하였다.

MSaGAN: Improved SaGAN using Guide Mask and Multitask Learning Approach for Facial Attribute Editing

  • Yang, Hyeon Seok;Han, Jeong Hoon;Moon, Young Shik
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.37-46
    • /
    • 2020
  • 최근 얼굴 속성 편집(facial attribute editing)의 연구는 GAN(Generative Adversarial Net)과 인코더-디코더(encoder-decoder) 구조를 활용하여 사실적인 결과를 얻고 있다. 최신 연구 중 하나인 SaGAN(Spatial attention GAN)은 공간적 주의 기제(spatial attention mechanism)를 활용하여 얼굴 영상에서 원하는 속성만을 변경할 방법을 제안하였다. 그러나 불충분한 얼굴 영역 정보로 인하여 때로 부자연스러운 결과를 얻는 경우가 발생한다. 본 논문에서는 기존 연구의 한계점을 개선하기 위하여 유도 마스크(guide mask)를 학습에 활용하고, 다중작업 학습(multitask learning) 접근을 적용한 개선된 SaGAN(MSaGAN)을 제안한다. 폭넓은 실험을 통해 마스크 손실 함수와 신경망 구조에 따른 얼굴 속성 편집의 결과를 비교하여 제안하는 방법이 기존보다 더 자연스러운 결과를 효율적으로 얻을 수 있음을 보인다.

Semi-Supervised Spatial Attention Method for Facial Attribute Editing

  • Yang, Hyeon Seok;Han, Jeong Hoon;Moon, Young Shik
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권10호
    • /
    • pp.3685-3707
    • /
    • 2021
  • In recent years, facial attribute editing has been successfully used to effectively change face images of various attributes based on generative adversarial networks and encoder-decoder models. However, existing models have a limitation in that they may change an unintended part in the process of changing an attribute or may generate an unnatural result. In this paper, we propose a model that improves the learning of the attention mask by adding a spatial attention mechanism based on the unified selective transfer network (referred to as STGAN) using semi-supervised learning. The proposed model can edit multiple attributes while preserving details independent of the attributes being edited. This study makes two main contributions to the literature. First, we propose an encoder-decoder model structure that learns and edits multiple facial attributes and suppresses distortion using an attention mask. Second, we define guide masks and propose a method and an objective function that use the guide masks for multiple facial attribute editing through semi-supervised learning. Through qualitative and quantitative evaluations of the experimental results, the proposed method was proven to yield improved results that preserve the image details by suppressing unintended changes than existing methods.

한글 단어 재인에서 시각적 요인에 따른 공간주의의 영향 (The Effect of Spatial Attention in Hangul Word Recognition: Depending on Visual Factors)

  • 이고은;이혜원
    • 인지과학
    • /
    • 제34권1호
    • /
    • pp.1-20
    • /
    • 2023
  • 본 연구에서는 시각적 요인에 따라 한글 단어 재인에 미치는 공간주의의 영향을 살펴보았다. 시각적 요인에 따라 공간주의의 영향이 다르게 나타나는지 살펴보기 위해 단어의 시각적 복잡성(실험 1)과 단어의 밝기 대비(실험 2)를 조작하였다. 단어의 복잡성에 따라 받침이 있는 조건과 받침이 없는 조건으로 나뉘었고, 단어의 대비에 따라 대비가 높은 조건과 대비가 낮은 조건으로 나뉘었다. 어휘판단과제를 사용하여 공간단서가 표적 위치에 주어지는 경우(타당 시행)와 표적 위치에 주어지지 않는 경우(비타당 시행) 간의 수행 차이를 단서효과로 계산하여 주의의 영향을 살펴보았다. 실험 결과, 단어의 복잡성에 따라서는 단서효과가 유사하게 나타났으므로, 공간주의의 영향은 복잡성에 의해 달라지지 않는 것으로 해석되었다. 단어의 대비에 따라서는 고대비 조건에 비해 저대비 조건에서 단서효과가 크게 나타났다. 대비가 낮을 때 공간주의의 영향이 더 커지는 것은 자극의 신호를 강화시키는 공간주의의 기제로 설명되었다.

Image Captioning with Synergy-Gated Attention and Recurrent Fusion LSTM

  • Yang, You;Chen, Lizhi;Pan, Longyue;Hu, Juntao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권10호
    • /
    • pp.3390-3405
    • /
    • 2022
  • Long Short-Term Memory (LSTM) combined with attention mechanism is extensively used to generate semantic sentences of images in image captioning models. However, features of salient regions and spatial information are not utilized sufficiently in most related works. Meanwhile, the LSTM also suffers from the problem of underutilized information in a single time step. In the paper, two innovative approaches are proposed to solve these problems. First, the Synergy-Gated Attention (SGA) method is proposed, which can process the spatial features and the salient region features of given images simultaneously. SGA establishes a gated mechanism through the global features to guide the interaction of information between these two features. Then, the Recurrent Fusion LSTM (RF-LSTM) mechanism is proposed, which can predict the next hidden vectors in one time step and improve linguistic coherence by fusing future information. Experimental results on the benchmark dataset of MSCOCO show that compared with the state-of-the-art methods, the proposed method can improve the performance of image captioning model, and achieve competitive performance on multiple evaluation indicators.

시각적 선택에 대한 신경 망 모형FeatureGate 모형의 하향식 기제 (A Neural Network Model for Visual Selection: Top-down mechanism of Feature Gate model)

  • 김민식
    • 인지과학
    • /
    • 제10권3호
    • /
    • pp.1-15
    • /
    • 1999
  • 시각적 선택에 대한 과거 정신물리학적, 신경 생리학적 연구결과를 토대로 Feature Gate 라는 신경 망 모형을 제안하였다. 이 모형에는 공간 배치도가 위계 적으로 구성되어 있으며, 정보의 흐름이 위계의 각 수준으로부터 그 다음 수준으로 넘어갈 때 주의 게이트에 의해 조절되도록 되어 있다. 주의 게이트들은 독특한 세부 특징을 가진 위치에 반응하는 상향식 시스템과 표적 세부 특징이 있는 위치에 반응하는 하향식 기제 모두에 의해 조절된다. 본 연구는 Feature Gate 모형의 하향식 기제에 초점을 맞추어 모형을 설명하고, 현재 다른 모형들이 설명하지 못하는 Moran & Desimone(1985)의 연구결과를 이 모형이 어떻게 설명하는지를 제시하고자 한다. Feature Gate 모형은 병렬 적인 세부특징 검색, 계열 적 접합표적 검색, 단서에 의한 주의의 점진적 감소 모형, 세부특징-주도적인 공간적 선택, 주의의 분할, 방해자극 위치의 억제, 주변 억제 등을 포함한 시각적 주의 연구의 여러 가지 많은 현상들을 설명하는데 하나의 일관적인 해석을 제공해 준다. 앞으로 이 모형을 더욱 확장, 발전 시켜 세부특징의 조합된 배열에 반응하는 상위 수준의 유닛을 사용한다면 시각적 선택과정이 포함된 형태 재인 모형으로 개발될 수 있다.

  • PDF

몰입형 대형 사이니지 콘텐츠를 위한 STAGCN 기반 인간 행동 인식 시스템 (STAGCN-based Human Action Recognition System for Immersive Large-Scale Signage Content)

  • 김정호;황병선;김진욱;선준호;선영규;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.89-95
    • /
    • 2023
  • 인간 행동 인식 (Human action recognition, HAR) 기술은 스포츠 분석, 인간과 로봇 간의 상호작용, 대형 사이니지 콘텐츠 등의 애플리케이션에 활용되는 핵심 기술 중 하나이다. 본 논문에서는 몰입형 대형 사이니지 콘텐츠를 위한 STAGCN (Spatial temporal attention graph convolutional network) 기반 인간 행동 인식 시스템을 제안한다. STAGCN은 attention mechanism을 통해 스켈레톤 시퀀스의 시공간적 특징에 서로 다른 가중치를 부과하여, 동작 인식에 중요한 관절 및 시점을 고려할 수 있다. NTU RGB+D 데이터셋을 사용한 실험 결과, 제안된 시스템은 기존 딥러닝 모델들에 비해 높은 분류 정확도를 달성한 것을 확인했다.

EDMFEN: Edge detection-based multi-scale feature enhancement Network for low-light image enhancement

  • Canlin Li;Shun Song;Pengcheng Gao;Wei Huang;Lihua Bi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권4호
    • /
    • pp.980-997
    • /
    • 2024
  • To improve the brightness of images and reveal hidden information in dark areas is the main objective of low-light image enhancement (LLIE). LLIE methods based on deep learning show good performance. However, there are some limitations to these methods, such as the complex network model requires highly configurable environments, and deficient enhancement of edge details leads to blurring of the target content. Single-scale feature extraction results in the insufficient recovery of the hidden content of the enhanced images. This paper proposed an edge detection-based multi-scale feature enhancement network for LLIE (EDMFEN). To reduce the loss of edge details in the enhanced images, an edge extraction module consisting of a Sobel operator is introduced to obtain edge information by computing gradients of images. In addition, a multi-scale feature enhancement module (MSFEM) consisting of multi-scale feature extraction block (MSFEB) and a spatial attention mechanism is proposed to thoroughly recover the hidden content of the enhanced images and obtain richer features. Since the fused features may contain some useless information, the MSFEB is introduced so as to obtain the image features with different perceptual fields. To use the multi-scale features more effectively, a spatial attention mechanism module is used to retain the key features and improve the model performance after fusing multi-scale features. Experimental results on two datasets and five baseline datasets show that EDMFEN has good performance when compared with the stateof-the-art LLIE methods.

공간 주파수 합성곱 게이트 트랜스포머를 이용한 시청각 자극에 따른 뇌전도 기반 감정적 스트레스 인식 (Electroencephalogram-based emotional stress recognition according to audiovisual stimulation using spatial frequency convolutional gated transformer)

  • 김형국;정동기;김진영
    • 한국음향학회지
    • /
    • 제41권5호
    • /
    • pp.518-524
    • /
    • 2022
  • 본 논문에서는 합성곱 신경망과 주의집중 메커니즘을 결합하여 뇌파 신호로부터 감정적 스트레스 인식 성능을 향상시키는 방식을 제안한다. 제안하는 방식에서는 뇌파 신호를 5개의 주파수 영역으로 분해하고, 각 주파수 영역에 합성곱 신경망 계층을 사용하여 뇌파 특징의 공간정보를 획득한 후에 게이트 트랜스포머를 이용한 주의집중 메커니즘을 사용하여 각 주파수 대역에서 두드러진 주파수 정보를 학습하고, 주파수 간 대역 매핑을 통해 보완 주파수 정보를 학습하여 최종 주의집중 표현에 반영한다. DEAP 데이터세트와 6명의 피 실험자가 참여한 뇌파 스트레스 인식 실험을 통해, 제안된 방식이 기존 방식과 비교하여 뇌파 기반 스트레스 인식 성능 향상에 효과가 있음을 보여준다.