• 제목/요약/키워드: speech separation

검색결과 88건 처리시간 0.028초

시간 연속성을 갖는 비음수 행렬 분해를 이용한 음질 개선 (Speech Enhancement Using Nonnegative Matrix Factorization with Temporal Continuity)

  • 남승현
    • 한국음향학회지
    • /
    • 제34권3호
    • /
    • pp.240-246
    • /
    • 2015
  • 본 논문은 시간 연속성을 갖는 비음수 행렬 분해(Nonnegative Matrix Factorization, NMF)를 이용하여 잡음에 열화된 음성 신호의 음질을 개선하는 문제를 다룬다. 음성과 잡음 신호는 포아송 분포로 모델되며, NMF의 기본 벡터와 이득 벡터는 감마 분포로 모델된다. 이득 벡터의 시간 연속성은 음질 개선에 중요한 영향을 미치는 것으로 알려져 있다. 본 논문에서 시간의 연속성은 이득 벡터를 감마-마르코프 연쇄(Gamma-Markov chain, GMC) 사전 분포로 모델함으로써 이루어진다. 실험 결과는 제안된 알고리즘이 잡음 신호의 시간 연속성을 효과적으로 모델하는 것을 보여준다.

원거리 음성인식 시스템의 잡음 제거 기법에 대한 연구 (Noise removal algorithm for intelligent service robots in the high noise level environment)

  • 우성민;이상훈;정홍
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.413-414
    • /
    • 2007
  • Successful speech recognition in noisy environments for intelligent robots depends on the performance of preprocessing elements employed. We propose an architecture that effectively combines adaptive beamforming (ABF) and blind source separation (BSS) algorithms in the spatial domain to avoid permutation ambiguity and heavy computational complexity. We evaluated the structure and assessed its performance with a DSP module. The experimental results of speech recognition test shows that the proposed combined system guarantees high speech recognition rate in the noisy environment and better performance than the ABF and BSS system.

  • PDF

신경망에 의한 초성자음(ㄱ, ㄷ, ㅂ)의 인식방법 (The methods of recognition of consonants(voiced stops) by Neural Network)

  • 김석동
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1991년도 학술발표회 논문집
    • /
    • pp.73-77
    • /
    • 1991
  • As the basic analysis to solve the stop consonants in phoneme based speech recognition using Back Propagation learning algorithm, changes in hidden units, training set and iteration. Also we propose an efficient processing method of separation between consonants and vowels.

  • PDF

만성 흡인에 대한 후두기관 분리술의 유용성 (Laryngotracheal Separation for Chronic Intractable Aspiration)

  • 이강진;성명훈;박범정;성원진;노종렬;민양기;이철희;이재서;김광현
    • 대한기관식도과학회지
    • /
    • 제7권2호
    • /
    • pp.140-145
    • /
    • 2001
  • Background and Objectives: Intractable aspiration in patients with impaired protective function of the larynx often results in multiple episode of aspiration pneumonia, repeated hospitalizations and expensive nursing care. The purpose of this study was to review the authors’experience and Patient outcome with the laryngotracheal separation (LTS) procedure. Materials and Methods A retrospective review of 9 patients who underwent LTS between 1996 and 2001 was conducted. Ages ranged from 3 to 72 years. Results : Seven patients were expected to have morbid aspiration as a consequence of acquired neurologic injuries and two were congenital neurologic injuries. Two patients had a postoperative fistula, which was well controlled with local wound care and minor procedure. Following LTS, aspiration was effectively controlled in all patients and four were able to tolerate a regular diet. Conclusion : LTS is a low-risk, successful. definitive procedure which decreases the potential for aspiration, pulmonary complication, hospitalizations and increases quality of life, especially in patent with irreversible upper airway dysfunction and Poor speech potential.

  • PDF

3D 캐릭터에서의 자동 립싱크 MAYA 플러그인 개발 (Development of Automatic Lip-sync MAYA Plug-in for 3D Characters)

  • 이상우;신성욱;정성택
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.127-134
    • /
    • 2018
  • 본 논문에서는 한국어를 기반으로 음성 데이터와 텍스트 정보에서 한국어 음소를 추출하고 분할된 음소들을 사용하여 정확하고 자연스러운 3D 립싱크 애니메이션을 제작하기 위한 오토 립싱크 Maya 플러그인을 개발하였다. 여기서 개발된 시스템에서는 음소 분할은 Microsoft Speech API 엔진 SAPI에서 제공하는 49개의 음소를 참조하여 한글에 사용되는 음소들을 모음 8개, 자음 13개로 분류하였다. 또한 모음과 자음의 발음들은 다양한 입모양을 가지지만 일부 동일한 입모양에 대하여 같은 Viseme을 적용할 수 있도록 구현하였다. 이를 바탕으로 파이썬(Python) 기반의 오토 립싱크 Maya 플러그인을 개발하여 립싱크 애니메이션이 한 번에 자동으로 구현할 수 있게 하였다.

잡음 데이터를 활용한 음성 기저 행렬과 NMF 기반 음성 향상 기법 (Speech Basis Matrix Using Noise Data and NMF-Based Speech Enhancement Scheme)

  • 권기수;김형용;김남수
    • 한국통신학회논문지
    • /
    • 제40권4호
    • /
    • pp.619-627
    • /
    • 2015
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 그 중에서도 음성향상의 성능은 사용하게 되는 기저 행렬에 따라 크게 달라짐을 보인다. 기존의 독립적으로 구한 음성 기저 행렬에 비해서, 잡음 데이터를 복원하는데 부적합한 방향으로 최적화시킨 음성 기저 행렬을 사용하였을 때 더 높은 음성향상 성능을 보임을 실험으로 확인하였다. 이 때 잡음 데이터의 복원 오차 자체를 크게 해주는 방향과 해당 인코딩 행렬(encoding matrix) 원소의 값을 작게 해주는 두 가지 방법을 적용하여 비교하였다. 좀 더 음성 복원에만 특화된 기저 행렬을 구함으로서 음성 기저 행렬이 잡음 데이터 복원에 사용되는 것을 최소화 하였다. 실험 결과에서는 perceptual evaluation speech quality값과 signal to distortion ratio를 지표로 사용하였고, 기존 기법에서 사용하는 기저 행렬 보다 더 높은 성능을 보임을 확인 하였다.

청크 기반 시계열 음성의 감정 인식 연구 (A Study on Emotion Recognition of Chunk-Based Time Series Speech)

  • 신현삼;홍준기;홍성찬
    • 인터넷정보학회논문지
    • /
    • 제24권2호
    • /
    • pp.11-18
    • /
    • 2023
  • 최근 음성 감정 인식(Speech Emotion Recognition, SER)분야는 음성 특징과 모델링을 활용하여 인식률을 개선하기 위한 많은 연구가 진행되고 있다. 기존 음성 감정 인식의 정확도를 높이기 위한 모델링 연구 이외에도 음성 특징을 다양한 방법으로 활용하는 연구들이 진행되고 있다. 본 논문에서는 음성 감정이 시간 흐름과 연관이 있음을 착안하여 시계열 방식으로 음성파일을 시간 구간별로 분리한다. 파일 분리 이후, 음성 특징인 Mel, Chroma, zero-crossing rate (ZCR), root mean square (RMS), mel-frequency cepastral coefficients (MFCC)를 추출하여서 순차적 데이터 처리에 사용하는 순환형 신경망 모델에 적용하여 음성 데이터에서 감정을 분류하는 모델을 제안한다. 제안한 모델은 librosa를 사용하여 음성 특징들을 모든 파일에서 추출하여, 신경망 모델에 적용하였다. 시뮬레이션은 영어 데이터 셋인 Interactive Emotional Dyadic Motion Capture (IEMOCAP)을 이용하여 recurrent neural network (RNN), long short-term memory (LSTM) and gated recurrent unit(GRU)의 모델들의 성능을 비교 및 분석하였다.

암묵신호분리를 이용한 동시통화 음향반향제거기 (An Acoustic Echo Canceller for Double-talk by Blind Signal Separation)

  • 이행우;윤현민
    • 한국정보통신학회논문지
    • /
    • 제16권2호
    • /
    • pp.237-245
    • /
    • 2012
  • 본 논문은 암묵신호분리방법을 이용하여 동시통화를 가능하게 하는 음향반향제거기에 관한 것이다. 음향반향 제거기는 동시통화 구간에서 성능이 저하되거나 발산하게 된다. 그래서 근단화자신호를 추정해서 잔차신호로부터 차감하기 위하여 암묵신호분리방법을 사용한다. 암묵신호분리방법은 이중 마이크를 가지고 2차 통계적 성질을 이용한 반복적인 계산에 의해 근단화자신호를 추정해낸다. 그런데 폐쇄된 반향환경에서 암묵신호분리의 혼합모델은 다채널이기 때문에 분리계수를 직접 계산하지 않고 반향제거기의 계수를 복사하여 그대로 사용한다. 많은 시뮬레이션을 통하여 제안한 음향반향제거기의 성능을 검증하였다. 시뮬레이션 결과, 이 방법을 사용한 음향반향제거기는 동시통화의 유무에 상관없이 안전하게 동작하고, 일반적인 LMS 알고리즘에 비해 ERLE가 평균 20dB 향상되는 것으로 나타났다.

Convolutive 암묵신호분리방법에 기반한 음향반향 제거 (Acoustic Echo Cancellation Based on Convolutive Blind Signal Separation Method)

  • 이행우
    • 한국전자통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.979-986
    • /
    • 2018
  • 본 논문은 암묵신호분리방법을 이용한 음향반향 제거에 관한 것이다. 이 방법은 동시통화 중에도 반향제거 성능이 저하되지 않는다. 폐쇄된 반향환경에서 음향신호의 혼합모델은 다채널이기 때문에 convolutive 암묵신호분리방법을 적용하며 신호분리를 위해 분리계수를 직접 계산하지 않고 역방향 모델을 이용하여 혼합계수를 산출하는 방식으로 이루어진다. 계수 갱신은 2차 통계적 성질을 기반으로 반복적인 계산에 의해 수행됨으로서 근단화자 신호를 추정해낸다. 제안한 암묵신호분리의 성능을 검증하기 위해 많은 시뮬레이션을 수행하였다. 시뮬레이션 결과, 이 방법을 사용한 음향반향제거기는 동시통화의 유무에 상관없이 안전하게 동작하고, 일반적인 적응 FIR 필터구조에 비해 PESQ가 0.6점 향상되는 것으로 나타났다.

광대역 음성신호의 분할모델 분석기법에 관한 연구 (On a Split Model for Analysis Techniques of Wideband Speech Signal)

  • Park, Young-Ho;Ham, Myung-Kyu;You, Kwang-Bock;Bae, Myung-Jin
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.80-84
    • /
    • 1999
  • 본 논문에서는, 협대역 음성신호의 정보로부터 광대역 음성신호를 예측하는 분할모델 분석알고리즘을 제안한다. 분할모델 분석알고리즘에서는 10차 LPC모델을 5개의 종속적으로 연결된 2차 모델로 분리하였다. 복잡성을 감소한 2차계수모델의 이용은 모델 파라미터와 LPC모델의 모든 극점사이의 복잡한 비선형 관계를 단순화시킨다. 모델 파라미터와 동일한 아날로그 극점사이의 관계를 본 논문에서 증명하였고, 각각의 2차 계수의 모델에 적용하였다. 그로 인해 광대역 음성신호는 단순한 샘플링 변경에 의해서 얻어졌다.

  • PDF