• 제목/요약/키워드: speech quality measure

검색결과 55건 처리시간 0.022초

연결발화에서 마비말화자의 음질 특성 (Voice Quality of Dysarthric Speakers in Connected Speech)

  • 서인효;성철재
    • 말소리와 음성과학
    • /
    • 제5권4호
    • /
    • pp.33-41
    • /
    • 2013
  • This study investigated the perceptual and cepstral/spectral characteristics of phonation and their relationships in dysarthria in connected speech. Twenty-two participants were divided into two groups; the eleven dysarthric speakers were paired with matching age and gender healthy control participants. A perceptual evaluation was performed by three speech pathologists using the GRBAS scale to measure the cepstrual/spectral characteristics of phonation between the two groups' connected speech. Correlations showed dysarthric speakers scored significantly worse (with a higher rating) with severities in G (overall dysphonia grade), B (breathiness), and S (strain), while the smoothed prominence of the cepstral peak (CPPs) was significantly lower. The CPPs were significantly correlated with the perceptual ratings, including G, B, and S. The utility of CPPs is supported by its high relationship with perceptually rated dysphonia severity in dysarthric speakers. The receiver operating characteristic (ROC) analysis showed that the threshold of 5.08 dB for the CPPs achieved a good classification for dysarthria, with 63.6% sensitivity and the perfect specificity (100%). Those results indicate the CPPs reliably distinguished between healthy controls and dysarthric speakers. However, the CPP frequency (CPP F0) and low-high spectral ratio (L/H ratio) were not significantly different between the two groups.

바크 코히어런스 함수를 이용한 이동 전화 음질 평가 (A New Objective Speech Quality Measure Over Mobile Communication Using Bark Coherence Function)

  • 박상옥;류승균;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제26권4B호
    • /
    • pp.437-446
    • /
    • 2001
  • 음질 평가에는 주관적 음질 평가법과 객관적 음질 평가법이 있는데, 주관적 음질 평가법은 사람이 직접 듣고 평가하므로 실제 체감 음질을 나타낸다. 그러나 많은 사람들에 의하여 직접 평가되므로 비용과 시간이 많이 소모되는 단점이 있다. 객관적 음질 평가법은 수학적인 계산에 의하여 원음과 왜곡음의 유사성을 비교하는 것으로 빠르고 비용이 적게 되나 실제 체감 음질과는 거리과 있다. 본 논문에서는 객관적 음질 평가 척도로 BCF(Bark Coherence Function)을 제안한다. BCF는 심리 음향 영역에서 코히어런스 함수를 정의한 것으로 기존의 객관적 음질 평가법에 비하여 주관적 음질과 상관관계가 높고 계산량이 적다. CDMA 이동 전화 시스템의 음성 데이터와 회기분석 결과, BCF가 ITU-T 표준안의 PSQM(Perceptual Speech Quality Measure)와 MNB(Measuring Normalizing Block)에 비하여 높은 상관관계를 갖음을 입증하였다.

  • PDF

CDMA 이동통신 시스템에서의 주관적 음질을 추정하기 위한 객관적 척도 (Objective Measure for Estimating Subjective Voice Quality in Wireless Communication)

  • 백금란
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.297-302
    • /
    • 1998
  • 본 논문에서는 CDMA(Code Division Multiple Access) 채널을 통과하면서 여러 가지 형태로 손상된 음성에 대한 주관적 음질 평가를 할 수 있는 객관적 척도에 대한 연구를 수행하였다. 즉, CDMA 채널을 통과한 음성 신호에 대하여 주관적 음질 평가 방법 중 가장 많이 사용되고 있는 MOS(Mean Opinion Score) 테스트를 수행하고, 이 MOS 테스트 결과를 추정할 수 있는 객관척도 알고리즘을 시뮬레이션 하였다. 이러한 연구 결과로 PSQM(Perceptual Speech Quality Measure)을 CDMA 채널 환경에 맞게 수정하여 우수한 성능의 객관적 음질 평가 방법을 얻었다.

  • PDF

Jitter 합성에 의한 음질변환에 관한 연구 (Voice quality transform using jitter synthesis)

  • 조철우
    • 말소리와 음성과학
    • /
    • 제10권4호
    • /
    • pp.121-125
    • /
    • 2018
  • This paper describes procedures of changing and measuring voice quality in terms of jitter. Jitter synthesis method was applied to the TD-PSOLA analysis system of the Praat software. The jitter component is synthesized based on a Gaussian random noise model. The TD-PSOLA re-synthesize process is used to synthesize the modified voice with artificial jitter. Various vocal jitter parameters are used to measure the change in quality caused by artificial systematic jitter change. Synthetic vowels, natural vowels and short sentences are used to check the change in voice quality through the synthesizer model. The results shows that the suggested method is useful for voice quality control in a limited way and can be used to alter the jitter component of voice.

저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상 (Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding)

  • 이창헌;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.62-68
    • /
    • 2010
  • 본 논문에서는 기존 마스킹 임계값 적응 방식을 개선하여 저전송률 오디오 부호화에서 음성 신호에 대한 성능을 향상시킨다. 포먼트 영역 검색 이후, 각 포먼트 영역의 평균 에너지와 해당 서브밴드의 에너지 비율을 이용하여 마스킹 임계값을 변화시킨다. 상대적으로 에너지가 큰 밴드에 대해서는 더 많은 양자화 노이즈가 허용되는 반면, 청각적으로 민감한 스펙트럴 밸리에서는 비트 할당을 높여 양자화 에러를 좀 더 줄인다. 이는 음성 부호화에서 널리 사용되는 지각 가중(perceptual weighting) 개념을 반영한 것이다. 객관적 음질 평가 결과, 제안한 알고리즘이 기존 방식에 비해 음성 신호에 대한 성능을 향상시킨다는 것을 확인하였다.

A Study on the Optimal Mahalanobis Distance for Speech Recognition

  • Lee, Chang-Young
    • 음성과학
    • /
    • 제13권4호
    • /
    • pp.177-186
    • /
    • 2006
  • In an effort to enhance the quality of feature vector classification and thereby reduce the recognition error rate of the speaker-independent speech recognition, we employ the Mahalanobis distance in the calculation of the similarity measure between feature vectors. It is assumed that the metric matrix of the Mahalanobis distance be diagonal for the sake of cost reduction in memory and time of calculation. We propose that the diagonal elements be given in terms of the variations of the feature vector components. Geometrically, this prescription tends to redistribute the set of data in the shape of a hypersphere in the feature vector space. The idea is applied to the speech recognition by hidden Markov model with fuzzy vector quantization. The result shows that the recognition is improved by an appropriate choice of the relevant adjustable parameter. The Viterbi score difference of the two winners in the recognition test shows that the general behavior is in accord with that of the recognition error rate.

  • PDF

모바일 VoIP 음성통신을 위한 대화음질 측정 시스템 (Conversational Quality Measurement System for Mobile VoIP Speech Communication)

  • 조재만;김형국
    • 한국ITS학회 논문지
    • /
    • 제10권4호
    • /
    • pp.71-77
    • /
    • 2011
  • 본 논문에서는 고품질 모바일 VoIP 음성통신에 대한 객관적인 QoS를 제공하는 대화음질 측정시스템을 구현하였다. 대화음질 측정을 위해서 VoIP로 연결된 두 대의 스마트폰에 에코 및 잡음 제거, 음성 인코딩 및 디코딩, RTP (Real-TimeProtocol)을 적용한 패킷 생성, 지터버퍼 콘트롤, LC (Loss Concealment)를 포함한 POS (Play-out Schedule)로 구성된 VoIP음성 통화시스템을 구현하였다. 대화음질 측정 시스템은 VoIP로 연결된 두 스마트폰의 마이크, 그리고 스피커와 연결되어 각 화자별로 음성신호를 녹음한 후에, 녹음된 음성신호를 이용하여 CE (Conversational Efficiency), CS (Conversational Symmetry) 및 PESQ (Perceptual Evaluation of Speech Quality)를 측정하고, CE-CS-PESQ에 대한 상관관계를 측정한다. 본 논문에서는 다양한 SNR, IP 네트워크망 변동에 따른 지연, 손실 변화에 따른 CE, CS, PESQ를 측정하여 대화음질 측정시스템을 검증하였다.

4 kbps PSI-VSELP 음성 부호화 알고리듬 (A 4 kbps PSI-VSELP Speech Coding Algorithm)

  • 최용수;강홍구;박상욱;윤대희
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.59-65
    • /
    • 1996
  • 본 논문에서는 기존의 4.8 kbps VSELP에 상응하는 음질을 갖는 4 kbps PSI-VSELP(Pitch Synchrononus Innovation-Vector Sum Excited Linear Prediction) 음성 부호화기를 제안한다. 'Half-rate'는 4kbps 내외에서 지역에 따라 다소 차이가 있으므로 기존의 half-rate 부호화기를 사용하기 위해서는 비트율을 감소시킬 필요가 생긴다. 이때, 비트율 감소에 따른 성능저하를 최소화하기 위해서는 전송 변수가 부호화기의 성능에 미치는 영향을 고려하여 비트 할당을 결정하는 것이 바람직하다. 본 논문에서는 이러한 접근 방식으로 비트율 감소 연구를 수행한 후, 제안된 부호화기에 대한 4 kbps 비트 할당을 결정한다. VSELP 부호화기의 음질 향상을 위해서, 성능에 가장 중요한 영향을 미치는 기저 벡터는 반복 폐회로 훈련 과정을 통해 최적화하며, PSI 기법을 VSELP 부호화기에 도입한다. 제안된 음성 부호화기의 성능을 평가하기 위해 배경 잡음과 채널 에러가 없는 환경에서 실험을 하였다. 실험 결과, 제안된 4 kbps PSI-VSELP는 4.8 kbps VSELP에 비해 객관적 음질은 낮았지만, 주과적 음질은 더 높게 나타났다.

  • PDF

반향 음성 신호의 하모닉 모델링을 이용한 음질 예측 알고리즘 (Speech Quality Estimation Algorithm using a Harmonic Modeling of Reverberant Signals)

  • 양재모;강홍구
    • 방송공학회논문지
    • /
    • 제18권6호
    • /
    • pp.919-926
    • /
    • 2013
  • 실내 환경에서 음성 신호는 음향 전달 함수에 의한 반향 신호를 포함한다. 이때 반향의 정도나 반향에 의한 음질 변화를 예측하는 것은 반향 제거 알고리즘 등에서 중요한 정보를 제공한다. 본 논문은 음성 신호의 하모닉 모델링 기법을 이용한 반향 환경에서의 자동 음질 예측 기법을 제안하다. 제안한 방법에서는 반향을 포함하는 음성 신호에 대한 하모닉 모델링 기법이 가능함을 보이고, 모델링된 하모닉 성분과 나머지 성분 사이의 통계적인 비율을 예측한다. 예측된 비율은 일반적인 방 환경에서의 음질 측정 표준 파라미터와 비 교하였다. 실험 결과 제안된 방법은 다양한 반향 환경 (반향 시간 0.2~1.0초)에서 표준 음질 파라미터를 정확하게 예측할 수 있음을 증명하였다.

ATM 망을 통한 Circuit Emulation 서비스에서 전화음성의 품질평가 (Quality Assessment of Telephone Speech with ATM Circuit Emulation Services)

  • 조영순;서정욱;배건성
    • 전자공학회논문지S
    • /
    • 제35S권6호
    • /
    • pp.156-163
    • /
    • 1998
  • ATM 망에서는 전화서비스와 같은 CBR(Constant Bit Rate) 음성을 처리하기 위해서 AAL1 CES(Circuit Emulation Service)를 제시하고 있다. 본 논문에서는 ATM 망에서 CES를 이용한 전화서비스를 할 경우에 ATM 망의 셀 손실률에 따른 전화음성의 품질평가 실험을 하였다. 이를 위해 structured/unstructured DS1 구조의 ATM 망을 모델링 하였으며, 전화음성의 품질평가 실험에서 객관적인 품질평가로는 SNR을 주관적인 품질평가 방법인 MOS를 사용하였다. 시뮬레이션 결과 ATM CES에서 셀 손실률이 $10^{-3}$ 이하일 경우 MOS 4.0, SNR 30dB 이상의 양호한 음질을 얻을 수 있음을 보였다.

  • PDF