• 제목/요약/키워드: Deep Feature Reconstruction

검색결과 15건 처리시간 0.021초

개선된 Deep Feature Reconstruction : 다중 스케일 특징의 보존을 통한 텍스쳐 결함 감지 및 분할 (Enhanced Deep Feature Reconstruction : Texture Defect Detection and Segmentation through Preservation of Multi-scale Features)

  • 시종욱;김성영
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권6호
    • /
    • pp.369-377
    • /
    • 2023
  • 산업 제조 분야에서 품질 관리는 불량률을 최소화하는 핵심 요소로, 미흡한 관리는 추가적인 비용 발생과 생산 지연을 야기할 수 있다. 본 연구는 제조품의 텍스쳐 결함 감지의 중요성을 중심으로, 보다 정밀한 결함 감지 방법을 제시한다. DFR(Deep Feature Reconstruction) 모델은 특징맵의 조합 및 재구성을 통한 접근법을 채택하였지만, 그 방식에는 한계가 있었다. 이에 따라, 우리는 제한점을 극복하기 위해 통계적 방법론을 활용한 새로운 손실 함수와 스킵 연결구조를 통합하고 파라미터 튜닝을 진행하였다. 이 개선된 모델을 MVTec-AD 데이터세트의 텍스쳐 카테고리에 적용한 결과, 기존 방식보다 2.3% 높은 결함 분할 AUC를 기록하였고, 전체적인 결함 감지 성능도 향상되었다. 이 결과는 제안하는 방법이 특징맵 조합의 재건축을 통한 결함 탐지에 있어서 중요한 기여함을 입증한다.

Rank-weighted reconstruction feature for a robust deep neural network-based acoustic model

  • Chung, Hoon;Park, Jeon Gue;Jung, Ho-Young
    • ETRI Journal
    • /
    • 제41권2호
    • /
    • pp.235-241
    • /
    • 2019
  • In this paper, we propose a rank-weighted reconstruction feature to improve the robustness of a feed-forward deep neural network (FFDNN)-based acoustic model. In the FFDNN-based acoustic model, an input feature is constructed by vectorizing a submatrix that is created by slicing the feature vectors of frames within a context window. In this type of feature construction, the appropriate context window size is important because it determines the amount of trivial or discriminative information, such as redundancy, or temporal context of the input features. However, we ascertained whether a single parameter is sufficiently able to control the quantity of information. Therefore, we investigated the input feature construction from the perspectives of rank and nullity, and proposed a rank-weighted reconstruction feature herein, that allows for the retention of speech information components and the reduction in trivial components. The proposed method was evaluated in the TIMIT phone recognition and Wall Street Journal (WSJ) domains. The proposed method reduced the phone error rate of the TIMIT domain from 18.4% to 18.0%, and the word error rate of the WSJ domain from 4.70% to 4.43%.

계층 간 특징 복원-예측 네트워크를 통한 피라미드 특징 압축 (Pyramid Feature Compression with Inter-Level Feature Restoration-Prediction Network)

  • 김민섭;심동규
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.283-294
    • /
    • 2022
  • 딥 러닝 네트워크에서 사용되는 특징 맵은 일반적으로 영상보다 데이터가 크며 특징 맵을 전송하기 위해서는 영상의 압축률보다 더 높은 압축률이 요구된다. 본 논문은 딥러닝 기반의 영상처리에서 객체의 크기에 대한 강인성을 가지는 FPN 구조의 네트워크에서 사용되는 피라미드 특징 맵을 높은 압축률로 전송하기 위해 제안한 복원-예측 네트워크를 통해 전송된 일부 계층의 피라미드 특징 맵으로 전송하지 않은 계층의 피라미드 특징 맵을 예측하며, 압축으로 인한 손상을 복원하는 구조를 제안한다. 제안한 방법의 COCO 데이터셋 2017 Train images에 대한 객체 탐지의 성능은 rate-precision 그래프에서 VTM12.0을 통해 특징 맵을 압축한 결과 대비 BD-rate 31.25%의 성능향상을 보였고, PCA와 DeepCABAC을 통한 압축을 수행한 방법 대비 BD-rate 57.79%의 성능향상을 보였다.

효율적인 feature map 추출 네트워크를 이용한 2D 이미지에서의 3D 포인트 클라우드 재구축 기법 (3D Point Cloud Reconstruction Technique from 2D Image Using Efficient Feature Map Extraction Network)

  • 김정윤;이승호
    • 전기전자학회논문지
    • /
    • 제26권3호
    • /
    • pp.408-415
    • /
    • 2022
  • 본 논문에서는 효율적인 feature map 추출 네트워크를 이용한 2D 이미지에서의 3D 포인트 클라우드 재구축 기법을 제안한다. 본 논문에서 제안한 기법의 독창성은 다음과 같다. 첫 번째로, 메모리 측면에서 기존 기법보다 약 27% 더 효율적인 새로운 feature map 추출 네트워크를 사용한다. 제안하는 네트워크는 딥러닝 네트워크의 중간까지 크기 축소를 수행하지 않아, 3D 포인트 클라우드 재구축에 필요한 중요한 정보가 유실되지 않았다. 축소되지 않은 이미지 크기로 인해 발생하는 메모리 증가 문제는 채널의 개수를 줄이고 딥러닝 네트워크의 깊이를 얕게 효율적으로 구성하여 해결하였다. 두 번째로, 2D 이미지의 고해상도 feature를 보존하여 정확도를 기존 기법보다 향상시킬 수 있도록 하였다. 축소되지 않은 이미지로부터 추출한 feature map은 기존의 방법보다 자세한 정보가 담겨있어 3D 포인트 클라우드의 재구축 정확도를 향상시킬 수 있다. 세 번째로, 촬영 정보를 필요로 하지 않는 divergence loss를 사용한다. 2D 이미지뿐만 아니라 촬영 각도가 학습에 필요하다는 사항은 그만큼 데이터셋이 자세한 정보를 담고 있어야 하며 데이터셋의 구축을 어렵게 만드는 단점이다. 본 논문에서는 추가적인 촬영 정보 없이 무작위성을 통해 정보의 다양성을 늘려 3D 포인트 클라우드의 재구축 정확도가 높아질 수 있도록 하였다. 제안하는 기법의 성능을 객관적으로 평가하기 위해 ShapeNet 데이터셋을 이용하여 비교 논문들과 같은 방법으로 실험한 결과, 본 논문에서 제안하는 기법의 CD 값이 5.87, EMD 값이 5.81 FLOPs 값이 2.9G로 산출되었다. 한편, CD, EMD 수치가 낮을수록, 재구축한 3D 포인트 클라우드가 원본에 근접하는 정확도가 향상된 결과를 나타낸다. 또한, FLOPs 수치가 낮을수록 딥러닝 네트워크에 필요한 메모리가 적게 소요되는 결과를 나타낸다. 따라서, 제안하는 기법의 CD, EMD, FLOPs 성능평가 결과가 다른 논문의 기법들보다 메모리 측면에서 약 27%, 정확도 측면에서 약 6.3% 향상된 결과를 나타내어 객관적인 성능이 입증되었다.

Anomaly-based Alzheimer's disease detection using entropy-based probability Positron Emission Tomography images

  • Husnu Baris Baydargil;Jangsik Park;Ibrahim Furkan Ince
    • ETRI Journal
    • /
    • 제46권3호
    • /
    • pp.513-525
    • /
    • 2024
  • Deep neural networks trained on labeled medical data face major challenges owing to the economic costs of data acquisition through expensive medical imaging devices, expert labor for data annotation, and large datasets to achieve optimal model performance. The heterogeneity of diseases, such as Alzheimer's disease, further complicates deep learning because the test cases may substantially differ from the training data, possibly increasing the rate of false positives. We propose a reconstruction-based self-supervised anomaly detection model to overcome these challenges. It has a dual-subnetwork encoder that enhances feature encoding augmented by skip connections to the decoder for improving the gradient flow. The novel encoder captures local and global features to improve image reconstruction. In addition, we introduce an entropy-based image conversion method. Extensive evaluations show that the proposed model outperforms benchmark models in anomaly detection and classification using an encoder. The supervised and unsupervised models show improved performances when trained with data preprocessed using the proposed image conversion method.

ASPPMVSNet: A high-receptive-field multiview stereo network for dense three-dimensional reconstruction

  • Saleh Saeed;Sungjun Lee;Yongju Cho;Unsang Park
    • ETRI Journal
    • /
    • 제44권6호
    • /
    • pp.1034-1046
    • /
    • 2022
  • The learning-based multiview stereo (MVS) methods for three-dimensional (3D) reconstruction generally use 3D volumes for depth inference. The quality of the reconstructed depth maps and the corresponding point clouds is directly influenced by the spatial resolution of the 3D volume. Consequently, these methods produce point clouds with sparse local regions because of the lack of the memory required to encode a high volume of information. Here, we apply the atrous spatial pyramid pooling (ASPP) module in MVS methods to obtain dense feature maps with multiscale, long-range, contextual information using high receptive fields. For a given 3D volume with the same spatial resolution as that in the MVS methods, the dense feature maps from the ASPP module encoded with superior information can produce dense point clouds without a high memory footprint. Furthermore, we propose a 3D loss for training the MVS networks, which improves the predicted depth values by 24.44%. The ASPP module provides state-of-the-art qualitative results by constructing relatively dense point clouds, which improves the DTU MVS dataset benchmarks by 2.25% compared with those achieved in the previous MVS methods.

Color-Image Guided Depth Map Super-Resolution Based on Iterative Depth Feature Enhancement

  • Lijun Zhao;Ke Wang;Jinjing, Zhang;Jialong Zhang;Anhong Wang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권8호
    • /
    • pp.2068-2082
    • /
    • 2023
  • With the rapid development of deep learning, Depth Map Super-Resolution (DMSR) method has achieved more advanced performances. However, when the upsampling rate is very large, it is difficult to capture the structural consistency between color features and depth features by these DMSR methods. Therefore, we propose a color-image guided DMSR method based on iterative depth feature enhancement. Considering the feature difference between high-quality color features and low-quality depth features, we propose to decompose the depth features into High-Frequency (HF) and Low-Frequency (LF) components. Due to structural homogeneity of depth HF components and HF color features, only HF color features are used to enhance the depth HF features without using the LF color features. Before the HF and LF depth feature decomposition, the LF component of the previous depth decomposition and the updated HF component are combined together. After decomposing and reorganizing recursively-updated features, we combine all the depth LF features with the final updated depth HF features to obtain the enhanced-depth features. Next, the enhanced-depth features are input into the multistage depth map fusion reconstruction block, in which the cross enhancement module is introduced into the reconstruction block to fully mine the spatial correlation of depth map by interleaving various features between different convolution groups. Experimental results can show that the two objective assessments of root mean square error and mean absolute deviation of the proposed method are superior to those of many latest DMSR methods.

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

범용 데이터 셋과 얼굴 데이터 셋에 대한 초해상도 융합 기법 (Super Resolution Fusion Scheme for General- and Face Dataset)

  • 문준원;김재석
    • 한국멀티미디어학회논문지
    • /
    • 제22권11호
    • /
    • pp.1242-1250
    • /
    • 2019
  • Super resolution technique aims to convert a low-resolution image with coarse details to a corresponding high-resolution image with refined details. In the past decades, the performance is greatly improved due to progress of deep learning models. However, universal solution for various objects is a still challenging issue. We observe that learning super resolution with a general dataset has poor performance on faces. In this paper, we propose a super resolution fusion scheme that works well for both general- and face datasets to achieve more universal solution. In addition, object-specific feature extractor is employed for better reconstruction performance. In our experiments, we compare our fusion image and super-resolved images from one- of the state-of-the-art deep learning models trained with DIV2K and FFHQ datasets. Quantitative and qualitative evaluates show that our fusion scheme successfully works well for both datasets. We expect our fusion scheme to be effective on other objects with poor performance and this will lead to universal solutions.

3차원 형상 복원을 위한 점진적 점유 예측 네트워크 (Progressive occupancy network for 3D reconstruction)

  • 김용규;김덕수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권3호
    • /
    • pp.65-74
    • /
    • 2021
  • 3차원 형상 복원(3D reconstruction)은 이미지 또는 영상 속 물체를 3차원 형상으로 복원하는 것을 말한다. 본 연구는 물체의 전반적 형상을 넘어 세부적인 모습까지 복원할 수 있는 표현력을 가진 3차원 형상 복원 네트워크인, 점진적 점유 네트워크를 제안한다. 본 연구가 제안하는 네트워크는 이미지 전체의 정보를 담고 있는 특징(feature)을 사용하는 기존 점유 네트워크와 달리, 수용 영역(receptive field)의 크기에 따라 다양한 수준의 이미지 특징을 추출해서 사용한다. 그리고, 다양한 수준의 이미지 특징을 디코더(decoder) 내 디코더 블록(decoder block)들에 순차적으로 반영하여, 형상 복원의 품질이 단계적으로 개선하는 네트워크 구조를 제안한다. 본 연구는 또한, 다양한 수준의 이미지 특징을 적절히 조합하여 사용하는 디코더 블록구조를 제안한다. 본 연구는 제안하는 네트워크의 성능 검증을 위해 ShapeNet 데이터 세트를 사용하였으며, 기존의 점유 네트워크(ONet) 및 다양한 수준의 이미지 특징을 사용하는 최신 연구(DISN)와 성능 비교하였다. 그 결과, 기존 점유 네트워크 대비 세 가지 검증 지표 모두에서 높은 성능을 달성하였으며, DISN과는 대등한 수준의 성능을 보여주었다. 그리고 복원 형상의 시각적 비교 결과, 본 연구의 점진적 점유 네트워크가 기존 점유 네트워크 대비, 물체의 세부 모습을 잘 복원하는 것을 확인하였다. 또한, DISN이 복원 실패한 물체의 얇은 부분 또는 이미지에서 가려진 부분을 본 연구의 네트워크는 잘 잡아내는 결과를 확인할 수 있었다. 이러한 결과는 본 연구가 제안하는 점진적 점유 네트워크의 유용성을 검증하는 결과다.