• 제목/요약/키워드: Deep Auto Encoder

검색결과 55건 처리시간 0.019초

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

Cluster-based Deep One-Class Classification Model for Anomaly Detection

  • Younghwan Kim;Huy Kang Kim
    • Journal of Internet Technology
    • /
    • 제22권4호
    • /
    • pp.903-911
    • /
    • 2021
  • As cyber-attacks on Cyber-Physical System (CPS) become more diverse and sophisticated, it is important to quickly detect malicious behaviors occurring in CPS. Since CPS can collect sensor data in near real time throughout the process, there have been many attempts to detect anomaly behavior through normal behavior learning from the perspective of data-driven security. However, since the CPS datasets are big data and most of the data are normal data, it has always been a great challenge to analyze the data and implement the anomaly detection model. In this paper, we propose and evaluate the Clustered Deep One-Class Classification (CD-OCC) model that combines the clustering algorithm and deep learning (DL) model using only a normal dataset for anomaly detection. We use auto-encoder to reduce the dimensions of the dataset and the K-means clustering algorithm to classify the normal data into the optimal cluster size. The DL model trains to predict clusters of normal data, and we can obtain logit values as outputs. The derived logit values are datasets that can better represent normal data in terms of knowledge distillation and are used as inputs to the OCC model. As a result of the experiment, the F1 score of the proposed model shows 0.93 and 0.83 in the SWaT and HAI dataset, respectively, and shows a significant performance improvement over other recent detectors such as Com-AE and SVM-RBF.

Medical Image Denoising using Wavelet Transform-Based CNN Model

  • Seoyun Jang;Dong Hoon Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권10호
    • /
    • pp.21-34
    • /
    • 2024
  • MRI(Magnetic Resonance Imaging) 영상과 CT(Computed Tomography) 영상과 같은 의료영상에서 잡음제거는 의료영상 시스템의 성능에 중요한 영향을 미친다. 최근 영상처리 기술에 딥러닝(Deep Learning)의 도입으로 잡음제거 방법들의 성능이 향상되고 있다. 그러나 영상영역에서 디테일을 보존하면서 잡음만을 제거하는 것은 한계가 있다. 본 논문에서는 웨이블렛 변환 기반 CNN(Convolutional Neural Network) 모형, 즉 WT-DnCNN(Wavelet Transform-Denoising Convolutional Neural Network) 모형을 통해 잡음제거 성능을 높이고자 한다. 이는 잡음 영상에 웨이블렛 변환을 사용하여 주파수 대역별로 구분하여 일차적으로 잡음을 제거하고, 해당 주파수 대역에서 기존 DnCNN 모형을 적용하여 최종적으로 잡음을 제거하고자 한다. 본 논문에서 제안된 WT-DnCNN 모형의 성능평가를 위해 다양한 잡음, 즉, 가우시안 잡음(Gaussian Noise), 포아송 잡음(Poisson Noise) 그리고 스펙클 잡음(Speckle Noise)에 의해 훼손된 MRI 영상과 CT 영상을 대상으로 실험하였다. 성능 실험 결과, WT-DnCNN 모형은 정성적 비교에서 전통적인 필터 즉, BM3D(Block-Matching and 3D Filtering) 필터뿐만 아니라 기존의 딥러닝 모형인 DnCNN, CDAE(Convolution Denoising AutoEncoder) 모형보다 우수하고, 정량적 비교에서 PSNR(Peak Signal-to-Noise Ratio) 과 SSIM(Structural Similarity Index Measure) 수치는 MRI 영상에서 각각 36~43과 0.93~0.98, CT 영상에서 각각 38~43과 0.95~0.98 정도로 우수한 결과를 보였다. 또한, 모형의 실행 속도 비교에서 DnCNN 모형은 BM3D 모형보다는 훨씬 적게 결렸으나 DnCNN 모형과의 비교에서는 웨이블렛 변환 추가로 인해 오래 걸림을 알 수 있었다.

Development of a Hybrid Deep-Learning Model for the Human Activity Recognition based on the Wristband Accelerometer Signals

  • Jeong, Seungmin;Oh, Dongik
    • 인터넷정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.9-16
    • /
    • 2021
  • This study aims to develop a human activity recognition (HAR) system as a Deep-Learning (DL) classification model, distinguishing various human activities. We solely rely on the signals from a wristband accelerometer worn by a person for the user's convenience. 3-axis sequential acceleration signal data are gathered within a predefined time-window-slice, and they are used as input to the classification system. We are particularly interested in developing a Deep-Learning model that can outperform conventional machine learning classification performance. A total of 13 activities based on the laboratory experiments' data are used for the initial performance comparison. We have improved classification performance using the Convolutional Neural Network (CNN) combined with an auto-encoder feature reduction and parameter tuning. With various publically available HAR datasets, we could also achieve significant improvement in HAR classification. Our CNN model is also compared against Recurrent-Neural-Network(RNN) with Long Short-Term Memory(LSTM) to demonstrate its superiority. Noticeably, our model could distinguish both general activities and near-identical activities such as sitting down on the chair and floor, with almost perfect classification accuracy.

모바일환경에서 위조서명에 강건한 딥러닝 기반의 핑거서명검증 연구 (Mobile Finger Signature Verification Robust to Skilled Forgery)

  • 남승수;서창호;최대선
    • 정보보호학회논문지
    • /
    • 제26권5호
    • /
    • pp.1161-1170
    • /
    • 2016
  • 본 논문에서는 스마트폰에서 손가락으로 서명하는 동적서명에서 위조서명에 강건한 검증 방법을 제안한다. 본 논문에서는 위조서명을 효과적으로 구분할 수 있도록 재생산 신경망의 일종인 1 class Auto-Encoder 모델을 사용한다. 핑거서명에서는 지원되지 않는 펜 압력 등 기존의 특징 정보 대신 대부분의 스마트폰에서 지원하는 가속도센서를 추가로 활용하여 서명이 이루어지고 있는 동안 스마트폰의 동적인 움직임의 특징정보를 추출한다. 서명 데이터는 리샘플링을 통해 길이를 맞추고, 일정한 크기로 정규화하여 사용한다. 제안 방법의 성능을 평가하기 위해 테스트셋을 구축하여 단일세션검증, 시간차 검증, 위조서명 검증의 3가지 실험을 실시하였다. 실험결과 위조서명 구분에 있어서 제안방법은 기존 방법보다 EER이 최대 6.9% 더 낮았다. 또한, 서명의 모양과 속도만 사용한 기존의 방식보다 가속도센서를 추가한 방식이 1.5% 나은 성능을 보였고, 최고 3.5%의 에러율을 얻었다.

Development of a driver's emotion detection model using auto-encoder on driving behavior and psychological data

  • Eun-Seo, Jung;Seo-Hee, Kim;Yun-Jung, Hong;In-Beom, Yang;Jiyoung, Woo
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권3호
    • /
    • pp.35-43
    • /
    • 2023
  • 운전 중 감정 인식은 사고를 예방하기 위해 꼭 필요한 과제이다. 더 나아가 자율 주행 시대에서 자동차는 모빌리티의 주체로 운전자와의 감정적인 소통이 더욱 요구되고 있으며 감정 인식 시장은 점점 확산되고 있다. 이에 따라 본 연구 방안에서는 수집하기 비교적 용이한 데이터인 심리데이터와 행동 데이터를 이용해 운전자의 감정을 분류하는 인공지능 모델을 개발하고자 한다. 오토인코더 모델을 통해 잠재 변수를 추출하고, 이를 본 분류 모델의 변수로 사용하였으며, 이는 성능 향상에 영향을 미침을 확인하였다. 또한 기존 뇌파 데이터를 포함했을 때 보다 본 논문이 제시하는 프레임워크를 사용하였을 때 성능이 향상됨도 확인하였다. 최종적으로 심리 및 개인정보데이터, 행동 데이터만을 통해 운전자의 감정 분류 정확도 81%와 F1-Score 80%를 달성하였다.

넷플로우-타임윈도우 기반 봇넷 검출을 위한 오토엔코더 실험적 재고찰 (An Experimental Study on AutoEncoder to Detect Botnet Traffic Using NetFlow-Timewindow Scheme: Revisited)

  • 강구홍
    • 정보보호학회논문지
    • /
    • 제33권4호
    • /
    • pp.687-697
    • /
    • 2023
  • 공격 양상이 더욱 지능화되고 다양해진 봇넷은 오늘날 가장 심각한 사이버 보안 위협 중 하나로 인식된다. 본 논문은 UGR과 CTU-13 데이터 셋을 대상으로 반지도 학습 딥러닝 모델인 오토엔코더를 활용한 봇넷 검출 실험결과를 재검토한다. 오토엔코더의 입력벡터를 준비하기 위해, 발신지 IP 주소를 기준으로 넷플로우 레코드를 슬라이딩 윈도우 기반으로 그룹화하고 이들을 중첩하여 트래픽 속성을 추출한 데이터 포인트를 생성하였다. 특히, 본 논문에서는 동일한 흐름-차수(flow-degree)를 가진 데이터 포인트 수가 이들 데이터 포인트에 중첩된 넷플로우 레코드 수에 비례하는 멱법칙(power-law) 특징을 발견하고 실제 데이터 셋을 대상으로 97% 이상의 상관계수를 제공하는 것으로 조사되었다. 또한 이러한 멱법칙 성질은 오토엔코더의 학습에 중요한 영향을 미치고 결과적으로 봇넷 검출 성능에 영향을 주게 된다. 한편 수신자조작특성(ROC)의 곡선아래면적(AUC) 값을 사용해 오토엔코더의 성능을 검증하였다.

생성 모델과 검색 모델을 이용한 한국어 멀티턴 응답 생성 연구 (A study on Korean multi-turn response generation using generative and retrieval model)

  • 이호동;이종민;서재형;장윤나;임희석
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.13-21
    • /
    • 2022
  • 최근 딥러닝 기반의 자연어처리 연구는 사전 훈련된 언어 모델을 통해 대부분의 자연어처리 분야에서 우수한 성능을 보인다. 특히 오토인코더 (auto-encoder) 기반의 언어 모델은 다양한 한국어 이해 분야에서 뛰어난 성능과 쓰임을 증명하고 있다. 그러나 여전히 디코더 (decoder) 기반의 한국어 생성 모델은 간단한 문장 생성 과제에도 어려움을 겪고 있으며, 생성 모델이 가장 일반적으로 쓰이는 대화 분야에서의 세부 연구와 학습 가능한 데이터가 부족한 상황이다. 따라서 본 논문은 한국어 생성 모델을 위한 멀티턴 대화 데이터를 구축하고 전이 학습을 통해 생성 모델의 대화 능력을 개선하여 성능을 비교 분석한다. 또한, 검색 모델을 통해 외부 지식 정보에서 추천 응답 후보군을 추출하여 모델의 부족한 대화 생성 능력을 보완하는 방법을 제안한다.

U-Net을 이용한 무인항공기 비정상 비행 탐지 기법 연구 (Abnormal Flight Detection Technique of UAV based on U-Net)

  • 송명재;최은주;김병수;문용호
    • 항공우주시스템공학회지
    • /
    • 제18권3호
    • /
    • pp.41-47
    • /
    • 2024
  • 최근에 무인항공기의 실용화 및 사업화가 추진됨에 따라 무인항공기의 안전성 확보에 관한 관심이 증가하고 있다. 무인항공기의 사고는 재산 및 인명 피해를 발생시키기 때문에 사고를 예방할 수 있는 기술의 개발은 중요하다. 이러한 이유로 AutoEncoder 모델을 이용한 비정상 비행 상태 탐지 기법이 개발되었다. 그러나 기존 탐지 기법은 성능과 실시간 처리 측면에서 한계를 지닌다. 본 논문에서는 U-Net 기반 비정상 비행 탐지 기법을 제안한다. 제안하는 기법에서는 U-Net 모델에서 얻어지는 재구성 오차에 대한 마할라노비스 거리 증가량에 기반하여 비정상 비행이 탐지된다. 모의실험을 통해 제안 탐지 기법이 기존 탐지 기법에 비해 탐지 성능이 우수하며 온보드 환경에서 실시간으로 구동될 수 있음을 알 수 있다.

벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구 (A study on the application of residual vector quantization for vector quantized-variational autoencoder-based foley sound generation model)

  • 이석진
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.243-252
    • /
    • 2024
  • 최근에 연구되기 시작한 폴리(Foley) 음향 생성 모델 중 벡터 양자화 변분 오토인코더(Vector Quantized-Variational AutoEncoder, VQ-VAE) 구조와 Pixelsnail 등 생성모델을 활용한 생성 기법은 중요한 연구대상 중 하나이다. 한편, 딥러닝 기반의 음향 신호의 압축/복원 분야에서는 기존의 VQ-VAE 구조에 비해 잔여 벡터 양자화 기술이 더 적합한 것으로 보고되고 있으며, 따라서 본 논문에서는 폴리 음향 생성 분야에서도 잔여 벡터 양자화 기술이 효과적으로 적용될 수 있을지 연구하고자 한다. 이를 위하여 본 논문에서는 기존의 VQ-VAE 기반의 폴리 음향 생성 모델에 잔여 벡터 양자화 기술을 적용하되, Pixelsnail 등 기존의 다른 모델과 호환이 가능하고 연산 자원의 소모를 늘리지 않는 모델을 고안하여 그 효과를 확인하고자 하였다. 효과를 검증하기 위하여 DCASE2023 Task7의 데이터를 활용하여 실험을 진행하였으며, 그 결과 평균적으로 0.3 가량의 Fréchet audio distance 의 향상을 보이는 것을 확인하였다. 다만 그 성능 향상의 정도가 제한적이었으며, 이는 연산 자원의 소모를 유지하기 위하여 시간-주파수축의 분해능이 저하된 영향으로 판단된다.