• Title/Summary/Keyword: 음성신호

Search Result 1,512, Processing Time 0.028 seconds

Noise filtering method based on voice frequency correlation to increase STT efficiency (STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안)

  • Lim, Jiwon;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

Implementation of Environmental Noise Remover for Speech Signals (배경 잡음을 제거하는 음성 신호 잡음 제거기의 구현)

  • Kim, Seon-Il;Yang, Seong-Ryong
    • 전자공학회논문지 IE
    • /
    • v.49 no.2
    • /
    • pp.24-29
    • /
    • 2012
  • The sounds of exhaust emissions of automobiles are independent sound sources which are nothing to do with voices. We have no information for the sources of voices and exhaust sounds. Accordingly, Independent Component Analysis which is one of the Blind Source Separaton methods was used to segregate two source signals from each mixed signals. Maximum Likelyhood Estimation was applied to the signals came through the stereo microphone to segregate the two source signals toward the maximization of independence. Since there is no clue to find whether it is speech signal or not, the coefficients of the slope was calculated by the autocovariances of the signals in frequcency domain. Noise remover for speech signals was implemented by coupling the two algorithms.

Analysis of Eigenvalues of Covariance Matrices of Speech Signals in Frequency Domain for Various Bands (음성 신호의 주파수 영역에서의 주파수 대역별 공분산 행렬의 고유값 분석)

  • Kim, Seonil
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.05a
    • /
    • pp.293-296
    • /
    • 2016
  • Speech Signals consist of signals of consonants and vowels, but the lasting time of vowels is much longer than that of consonants. It can be assumed that the correlations between signal blocks in speech signal is very high. But the correlations between signal blocks in various frequency bands can be quite different. Each speech signal is divided into blocks which have 128 speech data. FFT is applied to each block. Various frequency areas of the results of FFT are taken and Covariance matrix between blocks in a speech signal is extracted and finally eigenvalues of those matrix are obtained. It is studied that in the eigenvalues of various frequency bands which band can be used to get more reliable result.

  • PDF

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance (STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습)

  • Kim, Bokyoung;Yang, Youngjun;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.851-853
    • /
    • 2022
  • 인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

  • PDF

Pitch Determination and Voiced/Unvoiced Decision of Noisy Speech Based on the Higher-Order Statistics (고차 통계를 이용한 잡음 환경에서의 음성신호의 피치 추출과, 유, 무성음 판별)

  • 신태영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.55-60
    • /
    • 1995
  • 고차 통계 방법을 이용하여 잡음이 섞인 음성 신호에서 피치를 구하는 방법과 이를 이용하여 유성음 및 무성음 구간을 구분하는 방법을 구현하고 그 결과를 기술하였다. 고차 통계의 일종인 3차 cumulant 함수의 경우 Gaussian 또는 대칭적인 분포를 갖는 잡음 신호를 음성신호로부터 효과적으로 분리하여 제거시키는 특징을 가지고 있으며, 이러한 특징을 이용하면 잡음 환경에서 여러 가지 음성 특징 파라메터들을 보다 신뢰도 높게 추정할 수 있다. 본 논문에서는 dam성 신호의 3차 cumulant 함수의 자기상관함수로부터 음성의 피치 주기를 추정하였으며, 피치 위치에서의 normalized peak 크기에 의해 유성음과 무성음을 구분하였다. 또한 성능 비교를 위해 음성 신호 자체의 자기 상관 함수로부터 역시 피치 주기 및 유성음/무성음 구분을 수행하였다. 백색 및 유색 Gaussian 잡음 환경에서의 음성의 피치 주기 추정 실험 결과 SNR가 낮은 경우에 3차 cumulant를 이용한 방법이 2차 통계에 비해 우수한 성능을 나타내었다. 또한 동일한 잡음 환경에서의 유성음/무성음 판별 시험에서도 3차 cumulant를 이용한 방법이 기존의 2차 통계를 이용한 방법에 비해 성능이 크게 향상된 결과를 얻었다.

  • PDF

On a Pitch Point Detection by Preserving the Phase Component of the Autocorrelation Function (자기상관함수에서 위상 성분의 보존에 의한 피치 시점 검출에 관한 연구)

  • 함명규;최성영;박종철;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.799-802
    • /
    • 2000
  • 음성신호처리 분야에서 음성신호의 기본 주파수를 정확히 검출 할 수 있다면 음성인식을 할 때 화자에 따른 영향을 줄일 수 있으므로 인식의 정확도를 높일 수 있고, 음성합성을 할 때 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 분석을 할 때 피치에 동기시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다. 위와 같은 피치검출의 중요성 때문에 피치검출에 대하여 다양한 방법 이 제안되었다〔1〕. 본 논문에서는 음성신호의 분석 시 불안정한 구간에 대해 피치 시점을 검출하는 방법을 연구하였다. 음성신호의 분석에 있어서 기존의 자기상관함수법(Autocorrelation Function)은 주기성을 강조할 수 있다는 장점을 가지고 있다. 그러나 자기상관함수는 위상성분을 보존하지 못한다는 단점을 가지고 있다. 따라서, 자기상관함수를 사용하면서 위상성분을 보존할 수 있는 알고리즘을 제안하고자 한다. 실험결과 피치시점을 수동으로 찾은 경우와 비교하였을 때 약 98% 정도의 정확도를 얻을 수 있었다. 위의 결과와 같이 위상 성분이 보존된 자기상관함수를 사용할 경우 음성합성, 코딩, 인식에서 유용하게 쓰일 수 있다.

  • PDF

Speech Enhancement System by Discrete Fourier Transform Using Back-propagation Algorithm (오차역전파알고리즘을 사용한 이산푸리에변환에 의한 음성강조 시스템)

  • Choi, Jae-Seung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.254-257
    • /
    • 2010
  • 본 논문에서는 신경회로망을 사용하여 이산푸리에변환에 의한 진폭성분과 위상성분을 복원하는 음성강조 시스템을 제안한다. 본 시스템은 신경회로망이 잡음이 부가된 음성신호의 이산푸리에변환의 진폭성분과 위상성분을 사용하여 학습된 후, 제안한 시스템은 배경잡음에 의하여 열화된 잡음이 부가된 음성신호를 강조한다. 배경잡음에 의하여 열화된 음성신호는 신경회로망을 사용하여 제안된 시스템에 의하여 강조되는 것을 실험결과로 증명하며, 제안한 시스템이 스펙트럼 왜곡율의 평가법을 사용하여 배경잡음에 의하여 열화된 음성신호에 대하여 효과적인 것을 실험으로 확인한다.

  • PDF

Distribution of the Slopes of Autocovariances of Speech Signals in Frequency Bands (음성 신호의 주파수 대역별 자기 공분산 기울기 분포)

  • Kim, Seonil
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.17 no.5
    • /
    • pp.1076-1082
    • /
    • 2013
  • The frequency bands were discovered which maximize the slopes of autocovariances of speech signals in frequency domain to increase the possibility of segregation between speech signals and background noise signal. A speech signal is divided into blocks which include multiples of sampled data, then those blocks are transformed to frequency domain using Fast Fourier Transform(FFT). To find linear equation by Linear Regression, the coefficients of autocovariance within blocks of some frequency band are used. The slope of the linear equation which is called the slope of autocovariance is varied from band to band according to the characteristics of the speech signal. Using speech signals of a man which consist of 200 files, the coefficients of the slopes of autocovariances are analyzed and compared from band to band.

Classification of Signals Segregated using ICA (ICA로 분리한 신호의 분류)

  • Kim, Seon-Il
    • 전자공학회논문지 IE
    • /
    • v.47 no.4
    • /
    • pp.10-17
    • /
    • 2010
  • There is no general method to find out from signals of the channel outputs of ICA(Independent Component Analysis) which is what you want. Assuming speech signals contaminated with the sound from the muffler of a car, this paper presents the method which shows what you want, It is anticipated that speech signals will show larger correlation coefficients for speech signals than others. Batch, maximum and average method were proposed using 'ah', 'oh', 'woo' vowels whose signals were spoken by the same person who spoke the speech signals and using the same vowels whose signals are by another person. With the correlation coefficients which were calculated for each vowel, voting and summation methods were added. This paper shows what the best is among several methods tried.

한국어 문자음성 변환시스템 : 가라사대

  • 권철홍;정원국;구준모;김형순
    • Information and Communications Magazine
    • /
    • v.11 no.9
    • /
    • pp.17-25
    • /
    • 1994
  • 본 논문에서는 국내 최초의 상용 한국어 무제한 음성합성 시스템인 가라사대에 관하여 기술한다. 우선, 음성합성 과정의 각 단계에 이용된 알고리즘을 설명한다. 즉, 문장의 분석을 위해서는 문장 전처리, parsing 발음표기 변환 등의 규칙에 의하여 순차적으로 수행된다. 문장 분석후에는 강세, 억양과 지속시간 등의 운율을 제어하는 요소가 계산되고 음성신호는 확장된 diphone 단위의 음성신호를 연결하여 생성된다. 다음으로 가라사대 하드웨어 및 소프트웨어의 구성에 관하여 서술한다. 범용의 디지탈 신호처리 IC를 이용하여 구현한 하드웨어와 가라사대의 소프트웨어뿐만 아니라 PC내의 소프트웨어의 구성과 역할에 관하여 살펴본다.

  • PDF