• 제목/요약/키워드: speaker embedding

검색결과 15건 처리시간 0.019초

화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법 (I-vector similarity based speech segmentation for interested speaker to speaker diarization system)

  • 배아라;윤기무;정재희;정보경;김우일
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.461-467
    • /
    • 2020
  • 잡음이 많고 여러 사람이 있는 공간에서 음성인식의 성능은 깨끗한 환경보다 저하될 수밖에 없다. 이러한 문제점을 해결하기 위해 본 논문에서는 여러 신호가 섞인 혼합 음성에서 관심 있는 화자의 음성만 추출한다. 중첩된 구간에서도 효과적으로 분리해내기 위해 VoiceFilter 모델을 사용하였으며, VoiceFilter 모델은 여러 화자의 발화로 이루어진 음성과 관심 있는 화자의 발화로만 이루어진 참조 음성이 입력으로 필요하다. 따라서 본 논문에서는 Probabilistic Linear Discriminant Analysis(PLDA) 유사도 점수로 군집화하여 혼합 음성만으로도 참조 음성을 대체해 사용하였다. 군집화로 생성한 음성에서 추출한 화자 특징과 혼합 음성을 VoiceFilter 모델에 넣어 관심 있는 화자의 음성만 분리함으로써 혼합 음성만으로 화자 구분 시스템을 구축하였다. 2명의 화자로 이루어진 전화 상담 데이터로 화자 구분 시스템의 성능을 평가하였으며, 분리 전 상담사(Rx)와 고객(Tx)의 음성 Source to Distortion Ratio(SDR)은 각각 5.22 dB와 -5.22 dB에서 분리 후 각각 11.26 dB와 8.53 dB로 향상된 성능을 보였다.

가변 길이 입력 발성에서의 화자 인증 성능 향상을 위한 통합된 수용 영역 다양화 기법 (Integrated receptive field diversification method for improving speaker verification performance for variable-length utterances)

  • 신현서;김주호;허정우;심혜진;유하진
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.319-325
    • /
    • 2022
  • 화자 인증 시스템에서 입력 발성 길이의 변화는 성능을 하락시킬 수 있는 대표적인 요인이다. 이러한 문제점을 개선하기 위해, 몇몇 연구에서는 시스템 내부의 특징 가공 과정을 여러가지 서로 다른 경로에서 수행하거나 서로 다른 수용 영역(Receptive Field)을 가진 합성곱 계층을 활용하여 다양한 화자 특징을 추출하였다. 이러한 연구에 착안하여, 본 연구에서는 가변 길이 입력 발성을 처리하기 위해 보다 다양한 수용 영역에서 화자 정보를 추출하고 이를 선택적으로 통합하는 통합된 수용 영역 다양화 기법을 제안한다. 제안한 통합 기법은 입력된 특징을 여러가지 서로 다른 경로에서 다른 수용 영역을 가진 합성곱 계층으로 가공하며, 가공된 특징을 입력 발성의 길이에 따라 동적으로 통합하여 화자 특징을 추출한다. 본 연구의 심층신경망은 VoxCeleb2 데이터세트로 학습되었으며, 가변 길이 입력 발성에 대한 성능을 확인하기 위해 VoxCeleb1 평가 데이터 세트를 1 s, 2 s, 5 s 길이로 자른 발성과 전체 길이 발성에 대해 각각 평가를 수행하였다. 실험 결과, 통합된 수용 영역 다양화 기법이 베이스라인 대비 동일 오류율을 평균적으로 19.7 % 감소시켜, 제안한 기법이 가변 길이 입력 발성에 의한 성능 저하를 개선할 수 있음을 확인하였다.

딥러닝 기반의 다범주 감성분석 모델 개발 (Development of Deep Learning Models for Multi-class Sentiment Analysis)

  • 알렉스 샤이코니;서상현;권영식
    • 한국IT서비스학회지
    • /
    • 제16권4호
    • /
    • pp.149-160
    • /
    • 2017
  • Sentiment analysis is the process of determining whether a piece of document, text or conversation is positive, negative, neural or other emotion. Sentiment analysis has been applied for several real-world applications, such as chatbot. In the last five years, the practical use of the chatbot has been prevailing in many field of industry. In the chatbot applications, to recognize the user emotion, sentiment analysis must be performed in advance in order to understand the intent of speakers. The specific emotion is more than describing positive or negative sentences. In light of this context, we propose deep learning models for conducting multi-class sentiment analysis for identifying speaker's emotion which is categorized to be joy, fear, guilt, sad, shame, disgust, and anger. Thus, we develop convolutional neural network (CNN), long short term memory (LSTM), and multi-layer neural network models, as deep neural networks models, for detecting emotion in a sentence. In addition, word embedding process was also applied in our research. In our experiments, we have found that long short term memory (LSTM) model performs best compared to convolutional neural networks and multi-layer neural networks. Moreover, we also show the practical applicability of the deep learning models to the sentiment analysis for chatbot.

음성로고 삽입을 위한 디지털 영상 워터마킹에 관한 연구 (A Study on Digital Image Watermarking for Embedding Audio Logo)

  • 조강석;고성식
    • 대한전자공학회논문지TE
    • /
    • 제39권3호
    • /
    • pp.21-27
    • /
    • 2002
  • 디지털 워터마킹 기술은 멀티미디어 데이터에 적용하여 소유물에 대한 불법 복제나 소유자의 저작권 보호 문제를 해결할 수 있는 방법 중의 하나이다. 그렇지만 디지털 영상, 비디오, 그리고 오디오와 같은 멀티미디어 보호 문제를 해결하기 위해서는 여전히 소유권 주장 방법에 대해서 극복해야할 문제점을 가지고 있다. 본 논문에서는 저작물 소유자의 음성신호(Audio signal)를 음성로고(Audio Logo)의 워터마크로 변환하고, 원 영상 내 픽셀 농도 값의 비선형적 특성를 이용하여 음성로고를 공간 영역에서 삽입한다. 그리고 추출된 음성로고를 음성신호로 변환하여 청각적으로 소유자의 음성신호를 스피커로 출력하여 소유권을 주장하는 방법을 제안한다. 실험 결과를 통해, 본 논문에서 제시하는 알고리즘이 일반적인 영상 처리나, 특히 손실 JPEG 등과 같은 다양한 공격에 대해서 강인성을 유지시킬 수 있어 음성로고를 이용해 저작물 보호를 확인할 수 있음을 검증하였다.

브래그 격자 센서 시스템을 이용한 복합재 평판 진동의 실험적 해석 (Experimental Analysis on Vibration of Composite Plate by Using FBG Sensor System)

  • 김대현
    • 비파괴검사학회지
    • /
    • 제29권5호
    • /
    • pp.436-441
    • /
    • 2009
  • 광섬유 센서는 구조 건전성 감시 분야에 적용되는 유망한 센서 시스템이다. 특히 광섬유 브래그 격자(FBG) 센서는 본 분야에 있어 가장 각광받는 센서들 중에 하나이다. 이러한 FBG 센서는 브래그 파장의 이 동량을 알아내는 방법에 따라 다양한 시스템 구성이 가능하다. 또한 센서 시스템의 동특성은 이러한 시스템에 의해 결정된다. 본 논문에서는 FBG 센서의 브래그 파장 스팩트럼 최대 경사부에 단일 파장 레이저의 중심 파장을 맞춰 놓을 경우, 센서의 경사도가 센서 감도로 작용할 수 있다는 측정 원리를 이용하였다. 이러한 원리는 전체 측정 범위의 한계는 있지만 높은 민감도를 보장한다. 본 측정 원리의 적용 예로서, FBG 센서를 삽입한 복합재 평판을 오토클래이브를 이용해 제작하고 앞서 설명한 측정 원리를 적용하였다. 첫째로 삽입된 FBG 센서를 이용해 충격 망치로 가격된 복합재 평판의 고유 진동수를 성공적으로 측정하였다. 둘째로 고출력 스피커를 이용해 앞서 측정된 고유진동수 중 하나의 특정 주파수로 복합재 평판을 강제 가진 시켰다. 이때 발생하는 구조 진동을 FBG 센서로 측정하였고 동시에 ESPI 측정 시스템을 이용해 진동 모드 형상 역시 성공적으로 측정하여 복합재 구조물의 동특성을 파악하였다. 따라서, 이러한 두 실험을 통해 FBG 센서 시스템과 ESPI 측정 시스템이 복합재 구조물의 동특성 측정에 매우 유용한 기술임을 증명하였다.