• 제목/요약/키워드: robust feature extraction

검색결과 220건 처리시간 0.027초

저전력 장치를 위한 자원 효율적 객체 검출기 (Resource-Efficient Object Detector for Low-Power Devices)

  • 악세이 쿠마 샤마;김경기
    • 반도체공학회 논문지
    • /
    • 제2권1호
    • /
    • pp.17-20
    • /
    • 2024
  • 본 논문은 전통적인 자원 집약적인 컴퓨터 비전 모델의 한계를 해결하기 위해 저전력 엣지 장치에 최적화된 새로운 경량 객체 검출 모델을 제안합니다. 제안된 검출기는 Single Shot Detector (SSD)에 기반하여 소형이면서도 견고한 네트워크를 설계하였고, 작은 객체를 효율적으로 감지하는 데 있어 효율성을 크게 향상시키도록 모델을 구성하였다. 이 모델은 주로 두 가지 구성요소로 구성되어 있습니다: Depthwise 와 Pointwise Convolution 레이어를 사용하여 효율적인 특징 추출을 위한 Light_Block, 그리고 작은 객체의 향상된 감지를 위한 Enhancer_Block 으로 나누었다. 우리의 모델은 300x480 의 이미지 크기를 가진 Udacity 주석이 달린 데이터셋에서 처음부터 훈련되었으며, 사전 훈련된 분류 가중치의 필요성을 제거하였다. 약 0.43M 의 파라미터로 5.5MB 만의 무게를 가진 우리의 검출기는 평균 정밀도 (mAP) 27.7%와 140 FPS 의 처리 속도를 달성하여, 정밀도와 효율성 모두에서 기존 모델을 능가하였다. 따라서, 본 논문은 추론의 정확성을 손상시키지 않으면서 엣지 장치를 위한 객체 검출에서의 효과적인 경량화를 보여주고 있다.

스테레오 영상에서 폐색에 강인하고 축소된 파라미터를 갖는 신경망 (Neural network with occlusion-resistant and reduced parameters in stereo images)

  • 이광엽;전영민;정준모
    • 전기전자학회논문지
    • /
    • 제28권1호
    • /
    • pp.65-71
    • /
    • 2024
  • 본 논문은 스테레오 매칭에서 깊이 맵의 정확도를 높이기 위해 폐색 영역의 매칭 오류를 줄이면서 파라메터의 수를 줄일 수 있는 신경망을 제안한다. 이미지를 이용한 상황인식을 보다 정확하게 하기 위해 많은 분야에서 스테레오 매칭기반 객체인식이 활용된다. 복잡한 이미지에 많은 객체가 있을 때 객체간의 겹침과 배경에 의한 가림으로 폐색영역이 발생하여 깊이 맵의 정확도를 낮추게 된다. 이를 해결하기 위해 context 정보를 만들어 cost volume에 결합하거나 폐색영역에 RoI를 만들어 선택하는 기존 연구 방법은 신경망의 복잡도를 높여서 학습의 어려움과 구현에 비용이 많이 들게 된다. 본 논문에서는 cost volume 생성전에 지역적인 특징추출을 보다 강화하는 depthwise seperable 신경망을 만들어 파라메터의 수를 줄이고 폐색 오류에 강인한 신경망을 제안한다. 제안한 신경망은 PSMNet에 비하여 파라메터 수를 30% 줄이면서 페색오류에서 5.3%, 테스트 손실에서 3.6% 개선하였다.

전화망에서의 음성인식을 위한 전처리 연구 (Front-End Processing for Speech Recognition in the Telephone Network)

  • 전원석;신원호;양태영;김원구;윤대희
    • 한국음향학회지
    • /
    • 제16권4호
    • /
    • pp.57-63
    • /
    • 1997
  • 본 논문에서는 다양한 전화선 채널에서 수집된 한국통신(KT)의 데이터베이스를 이용하여 인식 시스템의 성능을 향상시키기 위한 효율적인 특징벡터 및 전처리방법을 연구하였다. 먼저 잡음 및 주변 환경 변화에 강인한 갓으로 알려져 있는 특징벡터들을 이용한 인식 성능을 비교하고, 가중 켑스트랄 거리측정 방법을 이용하여 인식시스템의 성능 향상을 검증하였다. 실험 결과, KT의 인식 시스템에서 이용하는 LPC 켑스트럼의 경우에 비하여 PLP(Perceptual Linear Prediction)과 MFCC)Mel Frequency Cepstral Coefficient)등에 대하여 인식률이 향상되었다. 켑스트럼간의 거리측정에 있어서는 RPS(Root Power Sums)와 BPL(Band Pass Lifter)과 같은 가중 켑스트랄 거리측정 함수들이 인식성능 향상에 도움을 주었다. 스펙트럼 차감법(Spectral Subtraction)의 적용은 왜곡에 의한 효과가 커서 인식률이 저하되었지만, RASTA(RelAtive SpecTrAl) 처리방법, CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)의 적용시에는 인식 성능 향상을 보였다. 특히, CMS 방법은 간편하면서도 높은 인식 성능 향상을 보였다. 마지막으로, CMS의 실시간 구현을 위한 방법들의 인식 성능을 비교하고, 인식 성능 저하를 막기 위한 개선책을 제시하였다.

  • PDF

A modified U-net for crack segmentation by Self-Attention-Self-Adaption neuron and random elastic deformation

  • Zhao, Jin;Hu, Fangqiao;Qiao, Weidong;Zhai, Weida;Xu, Yang;Bao, Yuequan;Li, Hui
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.1-16
    • /
    • 2022
  • Despite recent breakthroughs in deep learning and computer vision fields, the pixel-wise identification of tiny objects in high-resolution images with complex disturbances remains challenging. This study proposes a modified U-net for tiny crack segmentation in real-world steel-box-girder bridges. The modified U-net adopts the common U-net framework and a novel Self-Attention-Self-Adaption (SASA) neuron as the fundamental computing element. The Self-Attention module applies softmax and gate operations to obtain the attention vector. It enables the neuron to focus on the most significant receptive fields when processing large-scale feature maps. The Self-Adaption module consists of a multiplayer perceptron subnet and achieves deeper feature extraction inside a single neuron. For data augmentation, a grid-based crack random elastic deformation (CRED) algorithm is designed to enrich the diversities and irregular shapes of distributed cracks. Grid-based uniform control nodes are first set on both input images and binary labels, random offsets are then employed on these control nodes, and bilinear interpolation is performed for the rest pixels. The proposed SASA neuron and CRED algorithm are simultaneously deployed to train the modified U-net. 200 raw images with a high resolution of 4928 × 3264 are collected, 160 for training and the rest 40 for the test. 512 × 512 patches are generated from the original images by a sliding window with an overlap of 256 as inputs. Results show that the average IoU between the recognized and ground-truth cracks reaches 0.409, which is 29.8% higher than the regular U-net. A five-fold cross-validation study is performed to verify that the proposed method is robust to different training and test images. Ablation experiments further demonstrate the effectiveness of the proposed SASA neuron and CRED algorithm. Promotions of the average IoU individually utilizing the SASA and CRED module add up to the final promotion of the full model, indicating that the SASA and CRED modules contribute to the different stages of model and data in the training process.

X-ray 영상에서 VHS와 콥 각도 자동 추출을 위한 흉추 분할 기법 (A Thoracic Spine Segmentation Technique for Automatic Extraction of VHS and Cobb Angle from X-ray Images)

  • 이예은;한승화;이동규;김호준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권1호
    • /
    • pp.51-58
    • /
    • 2023
  • 본 논문에서는 X-ray 영상에서 의료 진단지표를 자동으로 추출하기 위한 조직분할 기법을 제안한다. 척추질환이나 심장질환에 대한 진단지표로서, 흉추-심장 비율이나 콥 각도 등의 지표를 산출하기 위해서는 흉부 X-ray 영상으로부터 흉추, 용골 및 심장의 영역을 정확하게 분할하는 과정이 필요하다. 본 연구에서는 이를 위하여 계층별로 영상의 고해상도의 표현과 저해상도의 특징지도로 변환되는 구조가 병렬적으로 연결되는 형태의 심층신경망 모델을 채택하였다. 이러한 구조는 영상에서 세부 조직의 상대적인 위치정보가 분할 과정에 효과적으로 반영될 수 있게 한다. 또한 픽셀 정보와 객체 정보가 다단계의 과정으로 상호 작용되는 OCR 모듈과, 네트워크의 각 채널이 서로 다른 가중치 값으로 반영되도록 하는 채널 어텐션 모듈을 결합하여 학습 성능을 개선할 수 있음을 보인다. 부수적으로 X-ray 영상에서 피사체의 위치 변화, 형태의 변형 및 크기 변이 등에도 강인한 성능을 제공하기 위하여 학습데이터를 증강하는 방법을 제시하였다. 총 145개의 인체 흉부 X-ray 영상과, 총 118개의 동물 X-ray 영상을 사용한 실험을 통하여 제안된 이론의 타당성을 평가하였다.

인공 신경망 기반의 지문 영상 복원 알고리즘 (An Algorithm of Fingerprint Image Restoration Based on an Artificial Neural Network)

  • 장석우;이사무엘;김계영
    • 한국산학기술학회논문지
    • /
    • 제21권8호
    • /
    • pp.530-536
    • /
    • 2020
  • 일반적인 지문 인식기에서 이용되는 미뉴셔 특징은 표현 공격에는 강건하지만 오 정합률이 상대적으로 높다는 약점이 있다. 따라서 미뉴셔 특징은 스켈리톤 영상과 함께 이용되는 경향이 있다. 보통 지문의 미뉴셔 특징에 대한 보안 취약성 연구는 많이 진행되어 있으나 스켈리톤에 대한 취약성 연구는 미약한 형편이므로 본 연구에서는 스켈리톤에 대한 표현 공격의 취약성을 분석하고자 한다. 이를 위해, 본 연구에서는 지문의 스켈리톤으로부터 학습 알고리즘을 사용해 원래의 지문을 복구하는 방법을 제시한다. 본 논문에서 제시된 방법은 기존의 Pix2Pix 모델에 잠재 벡터를 추가한 새로운 학습 모델인 Pix2Pix을 제안하여, 보다 자연스러운 지문을 생성한다. 본 논문의 실험 결과에서는 제시된 학습 알고리즘을 이용해 원래의 지문을 복원한 다음, 복원된 지문을 지문 인식기에 입력시켜 높은 인식률을 달성하였다. 그러므로 본 연구는 스켈리톤을 함께 이용하는 지문 인식기는 표현 공격에 취약함을 검증하였다. 본 논문에서 제시된 접근방법은 지문 인식 및 복원, 비디오 보안, 생체 인식 등과 연관된 많은 실제적인 응용 분야에서 유용하게 사용될 것으로 기대된다.

스테레오 영상에서 임베디드 데이터를 이용한 거리에 따른 얼굴인식률 비교 (Face recognition rate comparison with distance change using embedded data in stereo images)

  • 박장한;남궁재찬
    • 전자공학회논문지CI
    • /
    • 제41권6호
    • /
    • pp.81-89
    • /
    • 2004
  • 본 논문에서는 스테레오 영상에서 좌·우측 영상을 입력 받아 거리변화와 임베디드 데이터를 이용해 얼굴인식률을 PCA알고리듬으로 비교한다. 제안된 방법에서는 RGB컬러공간에서 YCbCr컬러공간으로 변환하여 얼굴영역을 검출한다. 또한 거리변화에 따라 추출된 얼굴영상의 확대 및 축소하여 보다 강건한 얼굴영역을 추출한다. 실험을 통하여 제안된 방법은 30cm∼200cm 정도의 거리에서 기준 거리(100cm)를 설정하고, 스케일 변화에 따른 평균적인 인식결과로 99.05%(100cm)의 인식률을 얻을 수 있었다. 정규화된 크기(92×112)에서 특정영역인 슈퍼 상태를 정의하고, 각각 정의된 슈퍼 상태의 내부요소인 임베디드 데이터만을 추출하여 PCA 알고리듬을 통하여 얼굴인식을 수행하였다. 원본영상을 모두 학습하는 것이 아니라 임베디드 데이터만을 학습시키기 때문에 제한된 영상의 크기(92×112)에서 특정 데이터를 받아들일 수 있으며, 평균적으로 92×112크기의 영상에서는 99.05%, 실험1은 99.05%, 실험2는 98.93%, 실험3은 98.54%, 실험4는 97.85%의 얼굴인식률을 보였다. 따라서 실험을 통하여 제안된 방법은 거리변화율을 적용하면 높은 인식률을 얻을 수 있음을 보였으며, 얼굴정보를 축소할 뿐만 아니라 처리속도도 향상되었다.

ASM기반 (2D)2 하이브리드 전처리 알고리즘을 이용한 얼굴인식 시스템 설계 (Design of ASM-based Face Recognition System Using (2D)2 Hybird Preprocessing Algorithm)

  • 김현기;진용탁;오성권
    • 한국지능시스템학회논문지
    • /
    • 제24권2호
    • /
    • pp.173-178
    • /
    • 2014
  • 본 연구에서는 ASM기반 $(2D)^2$ 하이브리드 전처리 알고리즘을 이용한 얼굴인식 분류기와 그것의 설계방법론을 소개한다. 얼굴인식을 위한 이미지는 외부 환경에 쉽게 영향을 받기 때문에, 전처리 단계로 이러한 문제를 해결하기 위해서 ASM을 사용하였다. 특히 사람 얼굴의 특징 추출을 목적으로 널리 이용되고 있다. ASM을 이용해 얼굴영역을 추출 한 뒤 PCA와 LDA를 이용한 $(2D)^2$ 하이브리드 전처리 알고리즘을 이용하여 차원을 축소한다. 전처리 알고리즘을 통한 얼굴데이터는 제안된 다항식 기반 방사형 기저함수 신경회로망의 입력으로 사용된다. 기존의 신경회로망과는 달리 제안된 지능형 패턴 분류기는 강인한 네트워크 특성을 가지며, 예측능력이 우수할 뿐만 아니라 다차원 입출력에 대한 문제도 해결했다. 분류기의 중요한 필수 설계 파라미터(행의 고유벡터의 수, 열의 고유벡터의 수, 클러스터의 수, 퍼지화 계수)는 ABC알고리즘에 의해 최적화 되어진다. 얼굴인식에 많이 사용되는 Yale과 AT&T를 사용하여 인식률을 평가하였다.

강인한 움직임 영역 검출과 화재의 효과적인 텍스처 특징을 이용한 화재 감지 방법 (Fire Detection Approach using Robust Moving-Region Detection and Effective Texture Features of Fire)

  • 트룩 뉘엔;강명수;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권6호
    • /
    • pp.21-28
    • /
    • 2013
  • 본 논문은 그레이레벨히스토그램을 이용한 움직임 영역검출, 퍼지 클러스터링을 이용한 칼라 분할, 그레이 레벨 동시발생 행렬을 이용한 특징 추출 및 서포터 벡터 머신을 이용한 화재 분류 등과 같은 다중 이종 알고리즘을 포함하고 있는 효과적인 화재 감지 방법을 제안한다. 제안한 방법은 움직임 영역을 검출하기 위해그레이레벨히스토그램에 기초한 최적의 임계값을 결정하고 난 후, CIE LAB 칼라 공간에서 퍼지 클러스터링을 적용하여 칼라 분할을 수행한다. 이러한 두 단계는 화재의 후보 영역을 기술하는데 도움이 된다. 다음으로 그레이 레벨 동시발생 행렬을 이용하여 화재의 특징을 추출하고, 이러한 특징들은 화재인지 아닌지를 분류하기 위해 서포터 벡터 머신의 입력으로 사용된다. 제안한 방법을 평가하기위해 기존의 두 알고리즘과 화재 검출율 및 오류 화재 검출율에서 비교하였다. 모의실험결과, 제안한 방법은 97.94%의 화재 검출율 및 4.63%의 오류 화재 검출율을 보임으로써 기존의 화재 감지 알고리즘보다 우수성을 보였다.

정밀한 다중센서 영상정합을 위한 통계적 상관성의 증대기법 (Enhancement of Inter-Image Statistical Correlation for Accurate Multi-Sensor Image Registration)

  • 김경수;이진학;나종범
    • 대한전자공학회논문지SP
    • /
    • 제42권4호
    • /
    • pp.1-12
    • /
    • 2005
  • 영상정합은 동일한 장면에 대해서 서로 다른 시간 혹은 서로 다른 특성의 센서로부터 서로 다른 위치에서 얻은 영상들의 위치적 대응관계를 찾는 기법이다. 이 논문에서는 특성이 다른 적외선 센서와 광학 센서로부터 얻은 영상의 정합을 위한 새로운 알고리즘을 제안한다. 지금까지 제안된 서로 다른 특성의 영상을 위한 정합기법은 크게 특징점 기반 영상정합기법과 밝기값 기반 영상정합기법으로 구분될 수 있다. 특징점 기반의 영상정합기법은 정확하게 대응하는 특징점을 선택하는 것이 성능에 결정적인 영향을 준다 그러나 적외선 영상과 가시광선 영상에서는 특징점이 서로 같지 않은 경우가 많기 때문에 강인하지 못하다 그리고 밝기 값 기반의 정합기법에서는 정규상호정보를 유사성 척도로 사용한 영상정합기법이 가장 좋은 성능을 제공하는 것으로 알려져 있다. 그러나 정규상호정보 기반의 영상정합기법은 두 영상의 통계적 상관성이 전역적이어야 한다는 가정을 전제하는데, 적외선 영상과 가시광선 영상에서는 이를 보장하지 못하는 경우가 많아 정규상호정보를 유사성 척도로 사용하는 영상정합기법에서도 좋은 성능을 기대하기 힐들다. 따라서 이 논문에서는 적외선 영상과 가시광선 영상의 통계적 상관성의 해석에 기반한 두 단계 영상정합기법을 제안한다. 정확하고 강인한 정합을 위해서 첫 단계에서는 두 영상에서 통계적 상관성이 높은 부분을 추출하는 ESCR기법과 두 영상을 통계적 상관성이 높도록 필터링하는 ESCF기법을 수행한다. 그리고 두 번째 단계에서는 첫 단계에서의 결과 영상에 대해서 정규상호정보를 유사성 척도로 한 영상정합을 수행한다. 다양한 적외선 영상과 가시광선 영상을 이용한 실험으로부터 제안하는 두 단계 영상정합기법이 기존의 정규상호정보 기반의 영상정합기법에 비해 정확도와 강인함, 그리고 실행 속도의 측면에서 더욱 향상된 성능을 제공함을 확인하였다.