• 제목/요약/키워드: 딥러닝 인코더

검색결과 80건 처리시간 0.022초

화자 인식을 위한 적대학습 기반 음성 분리 프레임워크에 대한 연구 (A study on speech disentanglement framework based on adversarial learning for speaker recognition)

  • 권유환;정수환;강홍구
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.447-453
    • /
    • 2020
  • 본 논문은 딥러닝 기법을 활용하여 음성신호로부터 효율적인 화자 벡터를 추출하는 시스템을 제안한다. 음성신호에는 발화내용, 감정, 배경잡음 등과 같이 화자의 특징과는 관련이 없는 정보들이 포함되어 있다는 점에 착안하여 제안 방법에서는 추출된 화자 벡터에 화자의 특징과 관련된 정보는 가능한 많이 포함되고, 그렇지 않은 비화자 정보는 최소화될 수 있도록 학습을 진행한다. 특히, 오토-인코더 구조의 부호화 기가 두 개의 임베딩 벡터를 추정하도록 하고, 효과적인 손실 함수 조건을 두어 각 임베딩이 화자 및 비화자 특징만 각각 포함할 수 있도록 하는 효과적인 화자 정보 분리(disentanglement)방법을 제안한다. 또한, 화자 정보를 유지하는데 도움이 되는 생성적 적대 신경망(Generative Adversarial Network, GAN)에서 활용되는 판별기 구조를 도입함으로써, 디코더의 성능을 향상시킴으로써 화자 인식 성능을 보다 향상시킨다. 제안된 방법에 대한 적절성과 효율성은 벤치마크 데이터로 사용되고 있는 Voxceleb1에 대한 동일오류율(Equal Error Rate, EER) 개선 실험을 통하여 규명하였다.

생성 모델과 검색 모델을 이용한 한국어 멀티턴 응답 생성 연구 (A study on Korean multi-turn response generation using generative and retrieval model)

  • 이호동;이종민;서재형;장윤나;임희석
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.13-21
    • /
    • 2022
  • 최근 딥러닝 기반의 자연어처리 연구는 사전 훈련된 언어 모델을 통해 대부분의 자연어처리 분야에서 우수한 성능을 보인다. 특히 오토인코더 (auto-encoder) 기반의 언어 모델은 다양한 한국어 이해 분야에서 뛰어난 성능과 쓰임을 증명하고 있다. 그러나 여전히 디코더 (decoder) 기반의 한국어 생성 모델은 간단한 문장 생성 과제에도 어려움을 겪고 있으며, 생성 모델이 가장 일반적으로 쓰이는 대화 분야에서의 세부 연구와 학습 가능한 데이터가 부족한 상황이다. 따라서 본 논문은 한국어 생성 모델을 위한 멀티턴 대화 데이터를 구축하고 전이 학습을 통해 생성 모델의 대화 능력을 개선하여 성능을 비교 분석한다. 또한, 검색 모델을 통해 외부 지식 정보에서 추천 응답 후보군을 추출하여 모델의 부족한 대화 생성 능력을 보완하는 방법을 제안한다.

대규모 외생 변수 및 Deep Neural Network 기반 금융 시장 예측 및 성능 향상 (Financial Market Prediction and Improving the Performance Based on Large-scale Exogenous Variables and Deep Neural Networks)

  • 천성길;이주홍;최범기;송재원
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.26-35
    • /
    • 2020
  • 미래의 주가를 예측하기 위한 시도는 과거부터 꾸준히 연구되어왔다. 그러나 일반적인 시계열 데이터와 달리 금융 시계열 비정상성(non-stationarity)과 장기 의존성(long-term dependency), 비선형성(non-linearity) 등 예측을 하는 것에 있어서 여러 가지 방해 요인이 존재한다. 또한, 광범위한 데이터의 변수는 기존에 사람이 직접 선택하는 것에 한계가 있으며 모델이 변수를 자동으로 잘 추출할 수 있도록 하여야 한다. 본 논문에서는 비정상성 데이터를 정규화할 수 있는 슬라이딩 타임스텝 정규화(sliding time step normalization) 방법과 LSTM 형태의 오토인코더(AutoEncoder)를 사용하여 모든 변수로부터 압축된 변수로 미래 주가를 예측하는 방법, 기간을 나누어 전이 학습을 하는 이동 전이 학습(moving transfer learning)을 제안한다. 또한, 실험을 통하여 100개의 주요 금융 변수들만을 사용하는 것보다 뉴럴 네트워크를 통해서 가능한 많은 변수를 사용하였을 때 성능이 우수함을 보이며, 슬라이딩 타임스텝 정규화 방법을 사용하여 모든 구간에서 데이터의 비정상성에 대해 정규화를 수행함으로써 성능 향상에 효과적임을 보인다. 이동 전이 학습 방법은 스텝 별 테스트 구간에서 모델의 성능을 평가하고 전이학습을 함으로써 긴 테스트 구간에서 성능 향상에 효과적임을 보인다.

Comparative Analysis of Anomaly Detection Models using AE and Suggestion of Criteria for Determining Outliers

  • Kang, Gun-Ha;Sohn, Jung-Mo;Sim, Gun-Wu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.23-30
    • /
    • 2021
  • 본 연구에선 제조 공정에서의 양/불량 판정을 위한 오토인코더(AE) 기반의 이상 탐지 방법들의 비교 분석과 우수한 성능을 보인 이상치 판별 기준을 제시한다. 제조 현장의 특성상 불량 데이터의 수는 적고, 불량의 형태가 다양하다. 이러한 특성은 정상과 비정상 데이터를 모두 활용하는 인공지능 기반 양/불량 판정 모델의 성능을 저하시키고, 성능 향상을 위한 비정상 데이터의 추가 확보에 시간과 비용을 발생시킨다. 이러한 문제를 해결하기 위해서 정상 데이터만을 이용해 이상 탐지를 수행하는 AE, VAE 등 AE 기반의 모델에 관한 연구들이 진행되고 있다. 본 연구에서는 Convolutional AE, VAE, Dilated VAE 모델을 기반으로 잔차 이미지에 대한 통계치와 MSE, 정보 엔트로피를 이상치 판별 기준으로 선정하여 각 모델의 성능을 비교 분석했다. 특히 Convolutional AE 모델에 대해서 범위 값을 적용했을 때, AUC PRC 0.9570, F1 Score 0.8812, AUC ROC 0.9548, 정확도 87.60%의 가장 우수한 성능을 보였다. 이는 기존의 이상치 판별 기준으로 자주 사용되었던 MSE에 비해 정확도 기준 약 20%P(Percentage Point)의 성능 향상을 보이며, 이상치 판별 기준에 따른 모델 성능 향상이 가능함을 확인하였다.

ICT 인프라 이상탐지를 위한 조건부 멀티모달 오토인코더에 관한 연구 (A Study of Anomaly Detection for ICT Infrastructure using Conditional Multimodal Autoencoder)

  • 신병진;이종훈;한상진;박충식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.57-73
    • /
    • 2021
  • ICT 인프라의 이상탐지를 통한 유지보수와 장애 예방이 중요해지고 있다. 장애 예방을 위해서 이상탐지에 대한 관심이 높아지고 있으며, 지금까지의 다양한 이상탐지 기법 중 최근 연구들에서는 딥러닝을 활용하고 있으며 오토인코더를 활용한 모델을 제안하고 있다. 이는 오토인코더가 다차원 다변량에 대해서도 효과적으로 처리가 가능하다는 것이다. 한편 학습 시에는 많은 컴퓨터 자원이 소모되지만 추론과정에서는 연산을 빠르게 수행할 수 있어 실시간 스트리밍 서비스가 가능하다. 본 연구에서는 기존 연구들과 달리 오토인코더에 2가지 요소를 가미하여 이상탐지의 성능을 높이고자 하였다. 먼저 다차원 데이터가 가지고 있는 속성별 특징을 최대한 부각하여 활용하기 위해 멀티모달 개념을 적용한 멀티모달 오토인코더를 적용하였다. CPU, Memory, network 등 서로 연관이 있는 지표들을 묶어 5개의 모달로 구성하여 학습 성능을 높이고자 하였다. 또한, 시계열 데이터의 특징을 데이터의 차원을 늘리지 않고 효과적으로 학습하기 위하여 조건부 오토인코더(conditional autoencoder) 구조를 활용하는 조건부 멀티모달 오토인코더(Conditional Multimodal Autoencoder, CMAE)를 제안하였다. 제안한 CAME 모델은 비교 실험을 통해 검증했으며, 기존 연구들에서 많이 활용된 오토인코더와 비교하여 AUC, Accuracy, Precision, Recall, F1-score의 성능 평가를 진행한 결과 유니모달 오토인코더(UAE)와 멀티모달 오토인코더(Multimodal Autoencoder, MAE)의 성능을 상회하는 결과를 얻어 이상탐지에 있어 효과적이라는 것을 확인하였다.

GEase-K: 부가 정보를 활용한 선형 및 비선형 오토인코더 기반의 추천시스템 (GEase-K: Linear and Nonlinear Autoencoder-based Recommender System with Side Information)

  • 이태범;이승학;마민정;조윤호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.167-183
    • /
    • 2023
  • 최근 추천시스템 분야에서는 희소한 데이터를 효과적으로 모델링하기 위한 다양한 연구가 진행되고 있다. GLocal-K(Global and Local Kernels for Recommender Systems)는 그중 하나의 연구로 전역 커널과 지역 커널을 결합하여 데이터의 전역적인 패턴과 개별 사용자의 특성을 모두 고려해 사용자 맞춤형 추천을 제공하는 모델이다. 하지만 GLocal-K는 커널 트릭을 사용하기 때문에 매우 희소한 데이터에서 성능이 떨어지고 부가 정보를 사용하지 않아 새로운 사용자나 아이템에 대한 추천을 제공하는 데 어려움이 있다. 본 논문에서는 이러한 GLocal-K의 단점을 극복하기 위해 EASE(Embarrassingly Shallow Autoencoders for Sparse Data) 모델과 부가 정보를 활용한 GEase-K(Global and EASE kernels for Recommender Systems) 모델을 제안한다. 우선 GLocal-K의 지역 커널 대신 EASE를 활용하여 매우 희소한 데이터에서 추천 성능을 높이고자 하였다. EASE는 단순한 선형 연산 구조로 이루어져 있지만, 규제화와 아이템 간 유사도 학습을 통해 매우 희소한 데이터에서 높은 성능을 내는 오토인코더이다. 다음으로 Cold Start 완화를 위해 부가 정보를 활용하였다. 학습 과정에서 부가 정보를 추가하기 위해 조건부 오토인코더 구조를 적용하였으며 이를 통해 사용자-아이템 간의 유사성을 더 잘 파악할 수 있도록 하였다. 결론적으로 GEase-K는 선형 구조와 비선형 구조의 결합, 부가 정보의 활용을 통해 매우 희소한 데이터와 Cold Start 상황에서 강건한 모습을 보인다. 실험 결과, GEase-K는 매우 희소한 GoodReads, ModCloth 데이터 세트에서 RMSE, MAE 평가 지표 기준 GLocal-K 보다 높은 성능을 보였다. 또한 GoodReads, ModCloth 데이터 세트를 4개의 집단으로 나누어 실험한 Cold Start 실험에서도 GLocal-K 대비 Cold Start 상황에서 좋은 성능을 보였다.

실데이터 기반 능동 소나 신호 합성 방법론 (Real data-based active sonar signal synthesis method)

  • 김윤수;김주호;석종원;홍정표
    • 한국음향학회지
    • /
    • 제43권1호
    • /
    • pp.9-18
    • /
    • 2024
  • 최근 수중표적의 저소음화와 해상교통량의 증가로 인한 주변 소음의 증가로 능동 소나 시스템의 중요성이 증대되고 있다. 하지만 신호의 다중 경로를 통한 전파, 다양한 클러터와 주변 소음 및 잔향 등으로 인한 반향신호의 낮은 신호대잡음비는 능동 소나를 통한 수중 표적 식별을 어렵게 만든다. 최근 수중 표적 식별 시스템의 성능을 향상 시키기 위해 머신러닝 혹은 딥러닝과 같은 데이터 기반의 방법을 적용시키려는 시도가 있지만, 소나 데이터셋의 특성 상 훈련에 충분한 데이터를 모으는 것이 어렵다. 부족한 능동 소나 데이터를 보완하기 위해 수학적 모델링에 기반한 방법이 주로 활용되어오고 있다. 그러나 수학적 모델링에 기반한 방법론은 복잡한 수중 현상을 정확하게 모의하는 데에는 한계가 있다. 따라서 본 논문에서는 심층 신경망 기반의 소나 신호 합성 기법을 제안한다. 제안하는 방법은 인공지능 모델을 소나 신호 합성 분야에 적용하기 위해, 음성 합성 분야에서 주로 사용되는 타코트론 모델의 주요 모듈인 주의도 기반의 인코더 및 디코더를 소나 신호에 적절하게 수정하였다. 실제 해상 환경에 모의 표적기를 배치해 수집한 데이터셋을 사용하여 제안하는 모델을 훈련시킴으로써 보다 실제 신호와 유사한 신호를 합성해낼 수 있게 된다. 제안된 방법의 성능을 검증하기 위해, 합성된 음파 신호의 스펙트럼을 직접 분석을 진행하여 비교하였으며, 이를 바탕으로 오디오 품질 인지적 평가(Perceptual Quality of Audio Quality, PEAQ)인지적 성능 검사를 실시하여 총 4개의 서로 다른 환경에서 생성된 반사 신호들에 대해 원본과 비교해 그 차이가 최소 -2.3이내의 높은 성적을 보여주었다. 이는 본 논문에서 제안한 방법으로 생성한 능동 소나 신호가 보다 실제 신호에 근사한다는 것을 입증한다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

CAE 알고리즘을 이용한 레이더 강우 보정 평가 (Application of convolutional autoencoder for spatiotemporal bias-correction of radar precipitation)

  • 정성호;오성렬;이대업;레수안히엔;이기하
    • 한국수자원학회논문집
    • /
    • 제54권7호
    • /
    • pp.453-462
    • /
    • 2021
  • 최근 몇 년 동안 국지성 집중호우의 빈도가 증가함에 따라 고해상도 레이더 자료의 중요성 및 활용성이 증가하고 있다. 하지만 여전히 레이더 자료의 경우 시·공간적 편의가 존재하고 이를 보정하는 것이 매우 중요하며 많은 연구에서 레이더 강우의 편의 보정을 위해 다양한 통계적 기법이 시도되었다. 본 연구에서는 시·공간적으로 강우를 추정할 수 있는 이중편파레이더의 편의를 지점 강우와 비교하여 보정하는 것을 목표로 한다. 환경부의 수자원관리 및 홍수 예측에 사용되는 S-밴드 이중편파레이더의 편의 보정을 위하여 합성곱신경망(Convolutional Neural Network, CNN)기반의 Convolutional Autoencoder (CAE) 알고리즘을 구축하여 편의 보정을 수행하였다. CAE 모델의 입력자료는 환경부의 10분 단위 레이더 합성 강우자료와 같은 공간해상도로 보간된 지점 관측 강우자료를 사용하였으며, 자료의 기간은 미호천 유역에 홍수 경보가 발령된 2017년 7월 16일 00시부터 13시까지의 10분 단위 자료를 사용하였다. 그 결과로 지점 강우 대비 원시 레이더 강우의 편의가 줄어듦을 확인할 수 있으며 시·공간적으로 개선된 결과를 보여주고 있다. 따라서 각 인접한 격자 간의 공간 관계를 학습하는 CAE 모델은 레이더 및 위성에서 추정되는 격자형 기후 자료의 실시간 편의 보정에 사용할 수 있을 것으로 분석되었다.

Real-time Segmentation of Black Ice Region in Infrared Road Images

  • Li, Yu-Jie;Kang, Sun-Kyoung;Jung, Sung-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.33-42
    • /
    • 2022
  • 본 논문에서는 운전자한테 실시간으로 블랙 아이스 경고를 보내기 위해서 도로 영상에서 블랙 아이스 영역 분할을 위한 다중 척도 팽창 컨볼루션 특징 융합에 기반한 딥러닝 모델을 제안한다. 제안한 다중척도 팽창 컨볼루션 특징 융합 네트워크는 인코더 블록에 서로 다른 팽창 비율 컨볼루션을 병렬로 추가하고, 서로 다른 해상도 특징 맵에서 서로 다른 팽창 비율을 설정하고, 다중 단계 특징 정보가 함께 융합된다. 다중 척도 팽창 컨볼루션 특징 융합은 수용 영역을 확장함과 동시에 공간의 세부 정보를 잘 보존하고 팽창 컨볼루션의 효과성을 높임으로써 기존 모델보다 성능을 향상시킨다. 실험 결과를 통해 본 논문 제안한 네트워크 모델은 병렬 평창 컨볼루션 수가 증가함에 따라 성능이 향상되는 것을 알 수 있었다. 제안한 방법의 mIoU 값은 96.46%로 U-Net, FCN, PSPNet, ENet, LinkNet 등 기존 네트워크보다 높았다. 그리고 파라미터는 1,858K개로, 기존 LinkNet모델보다 6배로 축소하였다. Jetson Nano에서 실험 결과 보면, 제안한 방법의 FPS는 3.63로 실시간으로 블랙 아이스 영역을 실시간으로 분할 할 수 있었다.