• Title/Summary/Keyword: 음성개선

Search Result 1,017, Processing Time 0.033 seconds

A Study on the Post-processing for Speech Recognition (음성 인식을 위한 후처리에 관한 연구)

  • Kim, Won-Gu
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2008.04a
    • /
    • pp.421-424
    • /
    • 2008
  • 음성 다이얼링 시스템은 화자의 음성을 인식하여 원하는 전화번호로 자동으로 전화를 걸어주는 시스템으로 주로 이동 전화나 휴대형 통신 장비에 유용하게 사용된다. 개인 음성 다이얼링 시스템의 경우, 다이얼링에 사용되는 모든 구문은 사용자가 선택하고 사용자의 음성을 사용하여 학습되어 음성 인식을 위한 HMM을 생성한다. 이러한 시스템은 화자독립 시스템보다 매우 적은 메모리 공간과 계산량으로 구현이 가능하다. 그러나 이러한 시스템은 학습시 각 단어랑 2-3개의 음성만을 사용하므로 음성인식 시스템의 성능을 개선하기 위한 각 상태에서의 상태지속분포을 추정하기는 매우 어렵다. 따라서 본 논문에서는 성능개선을 위한 후처리기를 제안하였다. 전화선을 통하여 구성된 데이터베이스를 이용한 실험에서 제안된 후처리기가 인식 시스템의 성능을 향상시킴을 확인하였다.

  • PDF

A Noise Robust Speech Recognition Method Using Model Compensation Based on Speech Enhancement (음성 개선 기반의 모델 보상 기법을 이용한 강인한 잡음 음성 인식)

  • Shen, Guang-Hu;Jung, Ho-Youl;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.27 no.4
    • /
    • pp.191-199
    • /
    • 2008
  • In this paper, we propose a MWF-PMC noise processing method which enhances the input speech by using Mel-warped Wiener Filtering (MWF) at pre-processing stage and compensates the recognition model by using PMC (Parallel Model Combination) at post-processing stage for speech recognition in noisy environments. The PMC uses the residual noise extracted from the silence region of enhanced speech at pre-processing stage to compensate the clean speech model and thus this method is considered to improve the performance of speech recognition in noisy environments. For recognition experiments we dew.-sampled KLE PBW (Phoneme Balanced Words) 452 word speech data to 8kHz and made 5 different SNR levels of noisy speech, i.e., 0dB. 5dB, 10dB, 15dB and 20dB, by adding Subway, Car and Exhibition noise to clean speech. From the recognition results, we could confirm the effectiveness of the proposed MWF-PMC method by obtaining the improved recognition performances over all compared with the existing combined methods.

Study on formant transition for improvement of speech synthesis (음성 합성의 개선을 위한 포만트 변경에 관한 연구)

  • Lee Sang-hyun;Yang Sung-il;Kwon Y.
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.41-44
    • /
    • 2001
  • 본 논문에서는 음성합성 과정에서 음성유닛을 연결할 때 모음의 결합부분에서 포만트의 불일치로 일어나는 부자연스러운 합성음이 발생되는 문제점을 개선하기 위해서 앞에 오는 음성 유닛과 뒤에 오는 합성 유닛의 포만트 변경에 관한 방법을 제안한다. 요즘에 연구되는 코퍼스 방식에선 에너지와 피치와 음순지속시간 등을 기준으로 유닛을 선택한 후 연결하지만, 스펙트럼의 불일치가 이루어진다. 이런 스펙트럼의 불일치는 음질의 저하를 유도한다. 그래서 앞 음성유닛의 연결부분의 일정부분과 뒤 음성 유닛의 연결부분의 일정부분의 포만트를 천이시켜 일치시켜줌으로써 음질을 향상시켰다. 음성신호를 FFT한 후 magnitude와 phase를 분리한 후 앞 음성의 연결부분의 magnitude와 뒷 음성의 연결부분의 magnitude를 기준으로 linear interpolation한 값을 목표치로 이동하고 다시 합하여 원 신호를 복원하는 방식으로 포만트를 변경시켰다.

  • PDF

A Study on Improved Method of Voice Recognition Rate (음성 인식률 개선방법에 관한 연구)

  • Kim, Young-Po;Lee, Han-Young
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.8 no.1
    • /
    • pp.77-83
    • /
    • 2013
  • In this paper, we suggested a method about the improvement of the voice recognition rate and carried out a study on it. In general, voices were detected by applying the most widely-used method, HMM (Hidden Markov Model) algorithm. Regarding the method of detecting voices, the zero crossing ratio was calculated based on the units of voices before the existence of data was identified. Regarding the method of recognizing voices, the patterns shown by the forms of voices were analyzed before they were compared to the patterns which had already been learned. According to the results of the experiment, in comparison with the recognition rate of 80% shown by the existing HMM algorithm, the suggested algorithm based on the recognition of the patterns shown by the forms of voices showed the recognition rate of 92%, reflecting the recognition rate improved by about 12% compared to the existing one.

Speech Quality Improvement by Speech Quality Evaluation (한국어 음성합성기 성능평가에 의한 합성 음질개선)

  • Yang Hee-Sik;Hahn Minsoo;Kim Jong-Jin
    • Proceedings of the KSPS conference
    • /
    • 2002.11a
    • /
    • pp.37-40
    • /
    • 2002
  • 본 논문에서는 한국어 합성기의 명료도 및 자연성 평가방안에 대한 개략적인 설명과 이 방안을 실제로 2종류의 서로 다른 한국어 합성기에 적용한 결과를 요약하였다. 한편, 이러한 평가결과를 바탕으로 실제로 이루어진 음질 개선 실 예를 소개하는 한편 향후 한국어 합성기의 성능 개선 방향을 제안하였다.

  • PDF

Enhancement of Noisy Speech by FORWARD/BACKWARD Adaptive Digital Filtering (FORWARD/BACKWARD 적응필터를 이용한 음질향상에 관한 연구)

  • 김제우;은종관
    • The Journal of the Acoustical Society of Korea
    • /
    • v.5 no.1
    • /
    • pp.17-23
    • /
    • 1986
  • 본 논문에서는 FORWARD/BACKWARD 적응 디지털필터를 이용하여 잡음이 섞인 음성의 음질 을 향상하는 방법에 대해 고찰하였다. 이 알고리즘은 음성신호의상관성을 잘 이용하기 위한 현재의 sample을 예측하기 위해 음성신호의 과거 신호뿐만 아니라 미래의 신호도 사용하였다. 이 결과 이 방법 은 백색잡음뿐만 유색잡음의 제거에도 효과적임을 알 수 있었다. 또, 이 방법을 개선한 modified forward/backward 적응 디지털 필터링 방법을 제시하여 성능 향상을 꾀하엿다. 이 개선된 방법은 비교 적 구조가 간단하면서도 여러 종류의 additive noise 에 대해서 잘 동작하며 기존의 방법에 비하여 약 2 유 정도의 개선된 효과를 가져온다.

  • PDF

가산 잡음 또는 반향 환경에 강인한 음성인식을 위한 은닉 마르코프 모델 기반 특징 향상 방법

  • Jo, Ji-Won;Park, Hyeong-Min
    • Information and Communications Magazine
    • /
    • v.33 no.9
    • /
    • pp.17-23
    • /
    • 2016
  • 실세계 환경의 원거리에서 녹음된 음성은 가산 잡음이나 반향 성분으로 왜곡되기 때문에 음성인식 성능이 현저히 떨어진다. 따라서 음성 전처리 과정은 실세계 환경에서 강인한 음성인식을 위한 필수과정이다. 모델 기반 특징 향상 방법은 전처리 방법 중 하나로 특징 영역 데이터의 적절한 동적 범위(dynamic range)와 차원 수로 인하여 실시간 처리가 가능하고 깨끗한 음성의 선험적 정보를 모델링하기에 용이하다. 또, 인식을 위한 최종 특징 입력에 가까운 단계에서 데이터를 처리하므로 인식에 밀접한 영향을 준다는 장점이 있다. 그러나 대략적인 왜곡 요인 관련 파라미터 추정 때문에 음성인식 성능이 하락되는 단점이 있다. 최근에 기존 모델 기반 특징 향상의 단점을 개선하여 가산 잡음이나 반향 환경에 적합한 방법이 제안되었다. 이글에서는 특징 향상 방법을 소개하고 개선된 방법의 음성인식 강인성을 알아보고자 한다.

Improving Noise Performance of CS-ACELP Coder by Energy Matching Method (에너지정합방법을 이용한 CS-ACELP 음성부호화기의 잡음특성 개선)

  • 이행우;박기영;김종교
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.8B
    • /
    • pp.1070-1077
    • /
    • 2001
  • 본 논문은 여러 배경잡음에서 높은 성능을 나타내는 8 kbps CS-ACELP 부호화기의 음질개선방법에 관한 것이다. 파형정합방법을 이용하는 기존의 CELP 부호화기가 순수한 음성신호에 대해서는 우수한 음질을 제공하지만, 배경잡음에 대해서는 큰 음질저하를 가져온다. 따라서 본 논문에서는 음성신호뿐만 아니라 이러한 배경잡음에 대해서도 우수한 음질을 달성하는 에너지정합방법을 소개한다. 이 방법은 부가적인 비트를 요구하지 않으면서 효과적으로 음질을 개선한다. 실험 결과, 객관적 평가에서는 MSEGSNR이 0.01∼1.1dB 증가하였고, 주관적 평가에서는 MOS 점수가 평균 0.2, 최대 0.5점까지 증가하는 것으로 나타났다. 따라서 PPS 알고리즘을 적용한 부호화기의 음질이 최대 12%까지 향상되는 것으로 확인되었다.

  • PDF

comparison of Speech Enhancement Methods Using Multiresolutional Signal Analysis (다해상도 신호해석을 이용한 음성개선 방식 비교)

  • 한미경;석종원배건성
    • Proceedings of the IEEK Conference
    • /
    • 1998.10a
    • /
    • pp.1251-1254
    • /
    • 1998
  • 본 논문에서는 최근들어 널리 연구되고 있는 다해상도 신호해석 방법인 웨이브렛 변환, 웨이브렛 패킷, 그리고 코사인 패킷 알고리듬을 음성개선에 이용하여 각각의 성능을 비교하였으며, 또한 이를 기존의 스펙트럼차감법의 성능과 비교 분석 하였다. 성능비교의 척도로는 SNR과 ㅋ스트랄 거리를 이용하였다. 실험결과 SNR면에서는 코사인 패킷이 가장 좋은 결과를 보였다. 그리고 ㅋ스트랄 거리의 경우 코사인 패킷과 웨이브렛 패켓이 훨씬 나은 결과를 보였으며 주관적인 청취결과 역시 코사인 패킷이 가장 좋은 결과를 보였고, 기존의 스펙트럼 차감법은 musical noise의 영향으로 인해 상대적으로 다른 방식에 비해 합성음의 음질이 많이 떨어짐을 확인할 수 있었다.

  • PDF

Frequency-Weighting linear predictive analysis of speech (Frequency-Weighting을 이용한 음성의 선형상측)

  • 김상준;윤종관;조동활
    • The Journal of the Acoustical Society of Korea
    • /
    • v.4 no.1
    • /
    • pp.43-54
    • /
    • 1985
  • 이 논문에서는 Frequency weighting을 이용하여 선형예측 부호화기의 명료성을 개선하는 방법 을 연구한다. 잡음이 섞이지 않은 음성에 대해서는 음성을 분석하기전에 frequency weighting을 행한다. 또한 잡음이 섞인 음성인 경우에는 잡음성분을 spectral subtraction 방법에 의해서 제거한 다음에 frequency weighting을 준다. 이 때 frequency weighting을 주기 위해서 귀의 특성과 연관되어 잘 알려 진 C- message weighting 함수, flanagan weighting 함수 및 articulation index를 약간 수정한 weighting 함수를 사용했다. 여러 객관적인 distance measure를 사용하여 frequency weighting 방법의 성능을 측정하고 귀로 들어 본 결과, frequency weighting 방법을 사용하여 선형예측 방법에 의한 합성 음의 명료도를 효율적으로 개선할 수 있었다.

  • PDF