• 제목/요약/키워드: Speech Enhancement

검색결과 340건 처리시간 0.029초

음성향상을 위한 2차 조건 사후 최대 확률기법 기반 Global Soft Decision (Improved Global-Soft Decision Incorporating Second-Order Conditional MAP for Speech Enhancement)

  • 금종모;장준혁
    • 한국통신학회논문지
    • /
    • 제34권6C호
    • /
    • pp.588-592
    • /
    • 2009
  • 본 논문에서는 기존의 global soft decision 방법에서 음성부재확률의 고정 파라미터에 2차 조건 사후 최대 확률기법을 적용한 음성 향상 기법을 제안한다. 기존의 global soft decision 방법은 음성부재확률을 구하기 위해 가정한 가설에 따라 파라미터값을 고정하여 다양한 음성 환경 변화에 민감한 점을 고려하여 본 논문에서 제안한 알고리즘은 기존의 고정 파라미터 값에 직전 2 프레임에서의 음성 존재와 부재에 대한 조건을 부여해주어 음성과 음성사이의 상호 연관성을 고려해주고, 보다 유동적으로 현재 프레임의 음성부재확률을 추정하는 음성향상 기법이다. 제안된 방법의 성능평가를 위해 ITU-T P.862 perceptual evaluation of speech quality (PESQ)를 이용하여 평가하였고, 그 결과 제안된 2차 조건 사후 최대 확률기법을 적용한 global soft decision 방법은 기존의 Global soft decision 방법보다 향상된 결과를 나타내었다.

보청기에서 음성 대비 강조에 의해 발생할 수 있는 마스킹 현상 (Acoustic Masking Effect That Can Be Occurred by Speech Contrast Enhancement in Hearing Aids)

  • 전유용;양동권;방동혁;길세기;이상민
    • 재활복지공학회논문지
    • /
    • 제1권1호
    • /
    • pp.21-28
    • /
    • 2007
  • 대부분의 보청기에서는 난청인의 청력 손실을 보상하기 위해 음성 증폭 알고리즘과 잡음 및 피드백을 제거하기 위한 알고리즘 등을 사용하고 있고, 음성의 인지율을 높이기 위해서 음성의 대비를 강조하는 알고리즘을 사용한다. 음성 대비 강조 알고리즘 사용 시 과도한 대비증폭에 의해서 포먼트(formant) 사이에서 마스킹 현상이 발생할 수 있다. 마스킹 현상을 확인하기 위해서 6가지의 주관적인 평가와 1가지의 객관적인 평가를 수행하였다. 주관적인 평가로는 순음 검사, 어음 청취 역치 검사, 낱말 분별력 검사, 순음 마스킹 검사, 포먼트 순음 마스킹 검사, 어음 마스킹 검사로 이루어져있고 객관적인 평가를 위해서 LLR(log likelihood ratio)을 도입하였다. 정상 청각 피험자와 난청 피험자의 결과로 미루어 볼 때, 난청 피험자가 마스킹이 잘 일어난다는 것을 볼 수 있었고, 어음을 이용한 마스킹 검사에서는 마스킹에 의해서 난청 피험자에서 어음에 대한 인지율이 떨어지는 결과를 볼 수 있다. 이러한 현상은 포먼트 향상에 의한 왜곡 때문이 아닌 마스킹 때문이다. 그러므로 마스킹 효과의 특성을 조사하여, 보청기 적합 시, 이러한 마스킹 특성을 고려하는 것이 필요하다.

  • PDF

조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성향상 (Speech Enhancement Based on Minima Controlled Recursive Averaging Technique Incorporating Conditional MAP)

  • 금종모;박윤식;장준혁
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.256-261
    • /
    • 2008
  • 본 논문에서는 기존의 최소값 제어 재귀 평균기법(minima controlled recursive averaging, MCRA) 알고리즘에 조건 사후 최대 확률 (maximun a posteriori, MAP)을 적용한 음성향상을 제안한다. 기존의 MCRA는 파워스펙트럼에 평균을 취하고 각 서브밴드에서 음성 신호 존재 확률로 조절하는 스무딩 매개변수를 사용한다. 본 논문에서 제안된 알고리즘은 현재 프레임에 들어온 신호가 이전 프레임에서의 음성의 존재와 부재에 대한 조건을 부여해 주어 음성 신호 존재확률을 수정하여 음성향상에 적용한다. 제안된 음성 향상은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)와 주관적 음질평가를 이용하여 평가하였고 기존의 MCRA 방법보다 향상된 결과를 나타내었다.

Spectral subtraction based on speech state and masking effect

  • 김우일;강선미;고한석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.599-602
    • /
    • 1998
  • In this paper, a speech enhancement method based on phonemic properties and masking effect is propsoed. It is a modified type of spectral subtraction wherein the spectral sharpening process is exploited in unvoiced state considering the phonemic properties. The masking threshold is used to remove the residual noise. The proposed spectral subtraction shows similar performance as that of the classical spectral subtraction method in view of the SNR. But by the prposed scheme, the unvoiced sound region is shown to exhibit relatively less signal distortion in the enhanced speech.

  • PDF

한국어 음성인식을 위한 효율적인 사전 구성에 관한 연구 (Study on Efficient Generation of Dictionary for Korean Vocabulary Recognition)

  • 이상복;최대림;김종교
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.41-44
    • /
    • 2002
  • This paper is related to the enhancement of speech recognition rate using enhanced pronunciation dictionary. Modern large vocabulary, continuous speech recognition systems have pronunciation dictionaries. A pronunciation dictionary provides pronunciation information for each word in the vocabulary in phonemic units, which are modeled in detail by the acoustic models. But in most speech recognition system based on Hidden Markov Model, actual pronunciation variations are disregarded. Without the pronunciation variations in the speech recognition system, the phonetic transcriptions in the dictionary do not match the actual occurrences in the database. In this paper, we proposed the unvoiced rule of semivowel in allophone rules to pronunciation dictionary. Experimental results on speech recognition system give higher performance than existing pronunciation dictionaries.

  • PDF

음질 개선을 위한 돌발잡음 제거와 음성복원 (Abrupt Noise Cancellation and Speech Restoration for Speech Enhancement)

  • 손백권;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 10월 학술대회지
    • /
    • pp.101-104
    • /
    • 2003
  • In this paper, speech quality is improved by removing abrupt noise intervals and then substituting the gaps with estimates of the previous speech waveform. An abrupt noise detection signal has been proposed as a prediction error signal by utilizing LP coefficients of the previous frame. Abrupt noise intervals are estimated by using spectral energy. After removing estimated noise intervals, we applied several waveform substitution techniques such as zero substitution, previous frame repetition, pattern matching, and pitch waveform replication. To prove the validity of our algorithm, the LPC spectral distortion test and the recognition test are executed and, the results show that the speech quality is fairly well improved.

  • PDF

강인한 음성인식을 위한 SPLICE 기반 잡음 보상의 성능향상 (Performance Improvement of SPLICE-based Noise Compensation for Robust Speech Recognition)

  • 김형순;김두희
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.263-277
    • /
    • 2003
  • One of major problems in speech recognition is performance degradation due to the mismatch between the training and test environments. Recently, Stereo-based Piecewise LInear Compensation for Environments (SPLICE), which is frame-based bias removal algorithm for cepstral enhancement using stereo training data and noisy speech model as a mixture of Gaussians, was proposed and showed good performance in noisy environments. In this paper, we propose several methods to improve the conventional SPLICE. First we apply Cepstral Mean Subtraction (CMS) as a preprocessor to SPLICE, instead of applying it as a postprocessor. Secondly, to compensate residual distortion after SPLICE processing, two-stage SPLICE is proposed. Thirdly we employ phonetic information for training SPLICE model. According to experiments on the Aurora 2 database, proposed method outperformed the conventional SPLICE and we achieved a 50% decrease in word error rate over the Aurora baseline system.

  • PDF

자동 대소문자 식별을 이용한 영어 음성인식 결과의 가독성 향상 (Readability Enhancement of English Speech Recognition Output Using Automatic Capitalisation Classification)

  • 김지환
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.101-111
    • /
    • 2007
  • A modified speech recogniser have been proposed for automatic capitalisation generation to improve the readability of English speech recognition output. In this modified speech recogniser, every word in its vocabulary is duplicated: once in a de-caplitalised form and again in the capitalised forms. In addition its language model is re-trained on mixed case texts. In order to evaluate the performance of the proposed system, experiments of automatic capitalisation generation were performed for 3 hours of Broadcast News(BN) test data using the modified HTK BN transcription system. The proposed system produced an F-measure of 0.7317 for automatic capitalisation generation with an SER of 48.55, a precision of 0.7736 and a recall of 0.6942.

  • PDF

스펙트럼 성형기법을 이용한 멀티미디어 콘텐츠의 명료도 향상 (Intelligibility Enhancement of Multimedia Contents Using Spectral Shaping)

  • 지유나;박영철;황영수
    • 전자공학회논문지
    • /
    • 제53권11호
    • /
    • pp.82-88
    • /
    • 2016
  • 본 논문에서는 스펙트럼 성형기법을 이용한 멀티미디어 콘텐츠 명료도 향상 알고리즘을 제안한다. 영화, 동영상과 같은 오디오-비주얼 미디어 콘텐츠에서 다이얼로그는 영상의 내용을 이해하기 위한 중요한 요소이다. 하지만 종종 영상내의 효과음, 배경음악 등과 같이 함께 믹싱 된 오디오 성분에 의해 중요한 정보를 지닌 다이얼로그의 명료도가 떨어지는 문제점이 제기되어왔다. 뿐만 아니라 멀티미디어 콘텐츠의 이용 환경이 다양해지면서 청자의 주변 환경 또한 오디오 볼륨에 영향을 미치는 요소가 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 영상의 중요 단서를 담고 있는 사운드트랙의 음성 성분 명료도를 높이고자 한다. 제안된 알고리즘은 먼저 영상의 스테레오 오디오 신호에서 음성 존재 확률(Speech Presence Probability)을 이용한 소프트 마스커를 통해 다이얼로그 성분을 검출한다. 추출된 다이얼로그 성분은 스펙트럼 성형 기법을 적용하여 명료도에 중요한 영향을 미치는 고주파대역의 성분을 증폭시키는 등 음성 신호 스펙트럼의 에너지를 재분배하여 신호의 명료도를 향상 시켰다. 마지막으로 크기 정규화 과정을 통해 프로세스 전과 후의 전체 오디오의 파워를 동일하게 유지함으로써 증폭으로 인한 스피커의 오디오 포화(saturation)를 방지하였다. 실험을 통해 본 알고리즘이 동일한 오디오 볼륨에서 영상의 명료도를 향상시킴을 확인 할 수 있었다.

위상 모델 기반의 소프트 마스크를 이용한 단일 채널 음성분리 (Single-Channel Speech Separation Using Phase Model-Based Soft Mask)

  • 이윤경;권오욱
    • 한국음향학회지
    • /
    • 제29권2호
    • /
    • pp.141-147
    • /
    • 2010
  • 본 논문은 혼합 음성 신호로부터 크기와 위상 정보를 모두 고려하여 목표 음성 신호를 추출하고 향상하는 음성 분리 알고리듬을 제안한다.기존 연구에서는 혼합된 음성 신호의 로그 전력 스펙트럼 값이 시간-주파수 영역에서 서로 독립이라고 가정한 통계적 모델을 적용하기 때문에 음성 분리 결과 파형에 불연속을 야기한다. 본 논문에서는 이러한 불연속을 감소시키기 위하여 시간-주파수 영역에서의 스무딩 필터를 적용한다. 음성 분리 성능을 더욱 향상시키기 위하여 음성 신호의 크기와 함께 위상 정보를 고려하는 통계적 모델을 제안한다. 실혐 결과, 제안된 알고리즘이 기존의 크기 정보만을 사용한 알고리즘에 비하여 1.5 dB의 화자대간섭비 (SIR)를 개선하는 것으로 나타난다.