• 제목/요약/키워드: deep learning encoder

검색결과 140건 처리시간 0.021초

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

딥러닝을 이용한 부채널 데이터 압축 프레임 워크 (Side-Channel Archive Framework Using Deep Learning-Based Leakage Compression)

  • 정상윤;진성현;김희석
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.379-392
    • /
    • 2024
  • 데이터의 급속한 증가와 함께 저장 공간 절약과 데이터 전송의 효율성이 중요한 문제로 대두되면서, 데이터 압축기술의 효율성 연구가 중요해졌다. 무손실 알고리즘은 원본 데이터를 정확히 복원할 수 있지만, 압축 비율이 제한적이며, 손실 알고리즘은 높은 압축률을 제공하지만 데이터의 일부 손실을 수반한다. 이에 딥러닝 기반 압축 알고리즘, 특히 오토인코더 모델이 데이터 압축 분야에서 활발한 연구가 진행됐다. 본 연구에서는 오토인코더를 활용한 새로운 부채널 분석 데이터 압축기를 제안한다. 제안하는 부채널 데이터 대상 압축기는 부채널데이터 특성을 잘 유지할 뿐만 아니라, 기존의 널리 사용되는 Delfate 압축방식 대비 높은 압축률을 보인다. 로컬 연결 레이어를 사용한 인코더는 부채널 데이터의 시점별 특성을 효과적으로 보존하고, 디코더는 멀티 레이어 퍼셉트론을 사용하여 빠른 압축해제 시간을 유지한다. 상관 전력 분석을 통해 제안된 압축기가 부채널 데이터의 특성을 손실 없이 데이터 압축이 가능을 증명하였다.

딥러닝을 이용한 소외계층 아동의 스포츠 재활치료를 통한 정신 건강에 대한 변화 (Variation for Mental Health of Children of Marginalized Classes through Exercise Therapy using Deep Learning)

  • 김명미
    • 한국전자통신학회논문지
    • /
    • 제15권4호
    • /
    • pp.725-732
    • /
    • 2020
  • 본 논문은 소외계층 아동의 운동학습프로그램에서 체력 활동 중 나를 잘 따른다(0-9), 마음의 결정을 내리는데 많은 시간이 걸린다(0-9), 맥빠진(0-9) 등을 변수로 사용하여 '성별', '체육교실', 나이의 '상중하'를 분류하고 스포츠 재활치료를 통한 자아 탄력(ego-resiliency)과 자아 통제(self-control)의 변화를 관찰하여 정신 건강 변화를 알아본다. 이를 위해 취득한 데이터를 병합하고 Label encoder와 One-hot encoding을 사용하여 숫자의 크고 작음의 특성을 제거한 후 MLP, SVM, Dicesion tree, RNN, LSTM의 각각의 알고리즘을 적용하여 성능을 평가하기 위해 Train, Test 데이터를 75%, 25% 스플릿 한 뒤 Train 데이터로 알고리즘을 학습하고 Test 데이터로 알고리즘의 정확성을 측정한다. 측정 결과 성별에서는 LSTM, 체육 교실은 MLP와 LSTM, 나이는 SVM이 가장 우수한 결과를 보임을 확인하였다.

Efficient CT Image Denoising Using Deformable Convolutional AutoEncoder Model

  • Eon Seung, Seong;Seong Hyun, Han;Ji Hye, Heo;Dong Hoon, Lim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권3호
    • /
    • pp.25-33
    • /
    • 2023
  • CT 영상의 획득 및 전송 등의 과정에서 발생하는 잡음은 영상의 질을 저하시키는 요소로 작용한다. 따라서 이를 해결하기 위한 잡음제거는 영상처리에서 중요한 전처리 과정이다. 본 논문에서는 딥러닝의 convolutional autoencoder (CAE) 모형에서 기존 컨볼루션 연산 대신 deformable 컨볼루션 연산을 적용한 deformable convolutional autoencoder (DeCAE) 모형을 이용하여 잡음을 제거하고자 한다. 여기서 deformable 컨볼루션 연산은 기존 컨볼루션 연산보다 유연한 영역에서 영상의 특징들을 추출할 수 있다. 제안된 DeCAE 모형은 기존 CAE 모형과 같은 인코더-디코더 구조로 되어있으나 효율적인 잡음제거를 위해 인코더는 deformable 컨볼루션 층으로 구성하고, 디코더는 기존 컨볼루션 층으로 구성하였다. 본 논문에서 제안된 DeCAE 모형의 성능 평가를 위해 다양한 잡음, 즉, 가우시안 잡음, 임펄스 잡음 그리고 포아송 잡음에 의해 훼손된 CT 영상을 대상으로 실험하였다. 성능 실험 결과, DeCAE 모형은 전통적인 필터 즉, Mean 필터, Median 필터와 이를 개선한 Bilateral 필터, NL-means 방법 뿐만 아니라 기존의 CAE 모형보다 정성적이고, 정량적인 척도 즉, MAE (Mean Absolute Error), PSNR (Peak Signal-to-Noise Ratio) 그리고 SSIM (Structural Similarity Index Measure) 면에서 우수한 결과를 보였다.

딥 러닝 기반의 무손실 영상압축 방법 (Lossless Image Compression Based on Deep Learning)

  • 이호창;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.67-70
    • /
    • 2022
  • 최근 딥러닝 방법의 발전하면서 영상처리 및 컴퓨터 비전의 다양한 분야에서 딥러닝 기반의 알고리즘들이 그 이전의 방법들에 비하여 큰 성능 향상을 보이고 있다. 손실 영상 압축의 경우 최근 encoder-decoder 형태의 네트웍이 영상 압축에서 사용되는 transform을 대체하고 있고, transform 결과들의 엔트로피 코딩을 위한 추가적인 encoder-decoder 네트웍을 사용하여 HEVC 수준에 버금가는 성능을 내고 있다. 무손실 압축의 경우에도 매 픽셀 예측을 CNN으로 수행하는 경우, 기존의 예측방법들에 비하여 예측성능이 크게 향상되어 JPEG-2000 Lossless, FLIF, JEPG-XL 등의 딥러닝을 사용하지 않는 방법들에 비하여 우수한 성능을 내는 것으로 보고되고 있다. 그러나 모든 픽셀에 대하여 예측값을 CNN을 통하여 계산하는 방법은, 영상의 픽셀 수 만큼 CNN을 수행해야 하므로 HD 크기 영상에 대하여 지금까지 알려진 가장 빠른 방법이 한 시간 이상 소요되는 등 비현실적인 것으로 알려져 있다. 따라서 최근에는 성능은 이보다 떨어지지만 속도를 현실적으로 줄인 방법들이 제안되고 있다. 이러한 방법들은 초기에는 FLIF나 JPEG-XL에 비하여 성능이 떨어져서, GPU를 사용하면서도 기존의 방법보다 좋지 않은 성능을 보인다는 면에서 여전히 비현실적이었다. 최근에는 신호의 특성을 더 잘 활용하는 방법들이 제안되면서 매 픽셀마다 CNN을 수행하는 방법보다는 성능이 떨어지지만, 짧은 시간 내에 FLIF나 JPEG-XL보다는 좋은 성능을 내는 현실적인 방법들이 제안되었다. 본 연구에서는 이러한 최근의 몇 가지 방법들을 살펴보고 이들보다 성능을 더 좋게 할 수 있는 보조적인 방법들과 raw image에 대한 성능을 평가한다.

  • PDF

딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구 (Deep Learning Based Semantic Similarity for Korean Legal Field)

  • 김성원;박광렬
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.93-100
    • /
    • 2022
  • 기존의 데이터 검색 방법으로는 키워드 중심의 검색 방법이 주로 사용되나, 이는 전문적인 용어가 많이 쓰이는 법률 분야의 검색 방법으로는 적합하지 않다. 이에 대해 본 논문에서는 법률 분야의 효과적인 데이터 검색 방안을 제안한다. 법률 도메인의 자연어처리 분야에서 문장 간의 유사성을 판단하는 데 최적화된 임베딩 방법에 관하여 서술한다. 법률문장을 TF-IDF를 이용하여 키워드 기반으로 임베딩하거나 Universal Sentence Encoder를 이용하여 의미 기반으로 임베딩을 한 후, BERT모델을 결합하여 법률 분야에서 문장 간 유사성을 검사하여 데이터를 검색하는 최적의 방안을 제안한다.

A dual path encoder-decoder network for placental vessel segmentation in fetoscopic surgery

  • Yunbo Rao;Tian Tan;Shaoning Zeng;Zhanglin Chen;Jihong Sun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권1호
    • /
    • pp.15-29
    • /
    • 2024
  • A fetoscope is an optical endoscope, which is often applied in fetoscopic laser photocoagulation to treat twin-to-twin transfusion syndrome. In an operation, the clinician needs to observe the abnormal placental vessels through the endoscope, so as to guide the operation. However, low-quality imaging and narrow field of view of the fetoscope increase the difficulty of the operation. Introducing an accurate placental vessel segmentation of fetoscopic images can assist the fetoscopic laser photocoagulation and help identify the abnormal vessels. This study proposes a method to solve the above problems. A novel encoder-decoder network with a dual-path structure is proposed to segment the placental vessels in fetoscopic images. In particular, we introduce a channel attention mechanism and a continuous convolution structure to obtain multi-scale features with their weights. Moreover, a switching connection is inserted between the corresponding blocks of the two paths to strengthen their relationship. According to the results of a set of blood vessel segmentation experiments conducted on a public fetoscopic image dataset, our method has achieved higher scores than the current mainstream segmentation methods, raising the dice similarity coefficient, intersection over union, and pixel accuracy by 5.80%, 8.39% and 0.62%, respectively.

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.

사용자 참여형 웨어러블 디바이스 데이터 전송 연계 및 딥러닝 대사증후군 예측 모델 (Deep Learning Algorithm and Prediction Model Associated with Data Transmission of User-Participating Wearable Devices)

  • 이현식;이웅재;정태경
    • 한국산업정보학회논문지
    • /
    • 제25권6호
    • /
    • pp.33-45
    • /
    • 2020
  • 본 논문은 최근 다양한 종류의 웨어러블 디바이스가 헬스케어 도메인에 급증하여 사용되고 있는 상황에서 최신 첨단 기술이 실제 메디컬 환경에서 개인의 질병예측이라는 관점을 바라본다. 사용자 참여형 웨어러블 디바이스를 통하여 임상 데이터와 유전자 데이터, 라이프 로그 데이터를 병합하여 데이터를 수집, 처리, 전송하는 과정을 걸쳐 딥뉴럴 네트워크의 환경에서 학습모델의 제시와 피드백 모델을 연결하는 과정을 제시한다. 이러한 첨단 의료 현장에서 일어나는 메디컬 IT의 임상시험 절차를 걸친 실제 현장의 경우 대사 증후군에 의한 특정 유전자가 질병에 미치는 영향을 측정과 더불어 임상 정보와 라이프 로그 데이터를 병합하여 서로 각기 다른 이종 데이터를 처리하면서 질병의 특이점을 확인하게 된다. 즉, 이종 데이터의 딥뉴럴 네트워크의 객관적 적합성과 확실성을 증빙하게 되고 이를 통한 실제 딥러닝 환경에서의 노이즈에 따른 성능 평가를 실시한다. 이를 통해 자동 인코더의 경우의 1,000 EPOCH당 변화하는 정확도와 예측치가 변수의 증가 값에 수차례 선형적으로 변화하는 현상을 증명하였다.

심층 자동 인코더를 이용한 시맨틱 세그멘테이션용 위성 이미지 향상 방법 (Semantic Segmentation Intended Satellite Image Enhancement Method Using Deep Auto Encoders)

  • ;이효종
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권8호
    • /
    • pp.243-252
    • /
    • 2023
  • 위성 이미지는 토지 표면 조사에서 매우 중요하다. 따라서 위성에서 지상국으로 이미지를 전송하기 위해 다양한 방법을 사용하고 있다. 그러나 전송 시스템의 품질 저하로 인해 이미지는 왜곡에 취약하고 올바른 데이터를 제공하지 못하고 있다. 그러한 이미지의 세그먼트 결과는 토지 표면 데이터를 올바르게 분류할 수 없다. 본 논문에서는 위성영상에 대한 자동인코더 기반의 영상 전처리 방법을 제안한다. 실험결과 사전 향상 기술을 사용하여 세그멘테이션 결과도 크게 향상될 수 있음을 보여주었다. 또한 본 논문에서 적용한 항공 이미지 향상기법은 토지 자원의 정확한 평가에 이바지할 수 있음을 확인하였다.