• 제목/요약/키워드: Speech quality

검색결과 803건 처리시간 0.027초

CDMA 통신망에서의 객관적 음질 평가 척도에 관한 연구 (A Study on Objective Speech Quality Measure under CDMA Telephone Networks Environment)

  • 김광수;김민정;석수영;정호열;정현열
    • 융합신호처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.53-58
    • /
    • 2001
  • 이동전화망을 위한 신뢰성 높은 객관적 통화품질평가 척도개발을 위하여 Bark Spectral Distortion Perceptual Speech Quality Measure의 성능을 분석하여 이 척도들을 실제 환경에서 수집된 음성 데이터에 대해서 실험한 결과, 성능의 저하가 나타났다. 본 논문에서는 인간의 심리음향학적 특성인 마스킹을 적용하는 방안을 제안하여 그 유효성을 실험으로 확인하였다. 이때, masking threshold 계산에 tone 신호를 사용하기 때문에 음성신호에 대하여 계산할 경우 문제점이 있을 수 있으므로 scaling 을 적용하는 새로이 제안하였다. 디지털 이동통신망에서 수집된 음성 데이터에 대한 성능평가 결과, 기존의 척도들 보다 더 높은 성능을 보임을 확인하였다.

  • PDF

고조파 복원에 의한 CELP 음성 부호화기의 저대역 확장 (Low-band Extension of CELP Speech Coder by Recovery of Harmonics)

  • 박진수;최무열;김형순
    • 대한음성학회지:말소리
    • /
    • 제49호
    • /
    • pp.63-75
    • /
    • 2004
  • Most existing telephone speech transmitted in current public networks is band-limited to 0.3-3.4 kHz. Compared with wideband speech(0-8 kHz), the narrowband speech lacks low-band (0-0.3 kHz) and high-band(3.4-8 kHz) components of sound. As a result, the speech is characterized by the reduced intelligibility and a muffled quality, and degraded speaker identification. Bandwidth extension is a technique to provide wideband speech quality, which means reconstruction of low-band and high-band components without any additional transmitted information. Our new approach considers to exploit harmonic synthesis method for reconstruction of low-band speech over the CELP coded speech. A spectral distortion measurement and listening test are introduced to assess the proposed method, and the improvement of synthesized speech quality was verified.

  • PDF

혼합 위상 정보를 이용한 TTS 합성음 생성 알고리즘 (Speech Synthesis Algorithm Using Mixed Phase Information for TTS Systems)

  • 권철홍;이민규
    • 음성과학
    • /
    • 제8권4호
    • /
    • pp.35-43
    • /
    • 2001
  • New speech synthesis algorithms capable of flexible prosody (especially F0) modification are desired for a high quality TTS system. TD-PSOLA is the most popular synthesis algorithm. The algorithm shows very high quality when F0 modification is limited. However, the quality degradation due to pitch epoch detection error becomes severe as the F0 modification factor becomes large. On the other hand, the vocoder framework is very flexible in F0 manipulation. The synthesized speech quality from the vocoder is far from natural human speech and suffers from buzziness. To remedy the buzzy quality from the vocoder and make more natural synthetic speech, we propose a mixed phase vocoder.

  • PDF

분산음성인식 환경에서 서버에서의 스케일러블 고품질 음성복원 (Scalable High-quality Speech Reconstruction in Distributed Speech Recognition Environments)

  • 윤재삼;김홍국;강병옥
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.423-424
    • /
    • 2007
  • In this paper, we propose a scalable high-quality speech reconstruction method for distributed speech recognition (DSR). It is difficult to reconstruct speech of high quality with MFCCs at the DSR server. Depending on the bit-rate available by the DSR system, we can send additional information associated with speech coding to the DSR sorrel, where the bit-rate is variable from 4.8 kbit/s to 11.4 kbit/s. The experimental results show that the speech quality reproduced by the proposed method when the bit-rate is 11.4 kbit/s is comparable with that of ITU-T G.729 under both ideal channel and frame error channel conditions while the performance of DSR is maintained to that of wireline speech recognition.

  • PDF

연속 음성으로부터 추출한 CVC 음성세그먼트 기반의 음성합성 (Speech Synthesis Based on CVC Speech Segments Extracted from Continuous Speech)

  • 김재홍;조관선;이철희
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.10-16
    • /
    • 1999
  • 본 논문에서는 설계하지 않은 연속 음성 코퍼스로부터 추출된 CVC 음성 세그먼트를 사용하는 연결 기반 음성 합성기를 제안한다. 연속 음성은 각 음운간의 상호조음효과가 비교적 잘 반영되고, 자연스러운 억양 변화를 포함하고 있으므로 이를 적절하게 활용할 수 있는 합성 단위를 선택하면 자연스런 음성합성이 가능하다. 여러 가지 합성단위 가운데 CVC 합성 단위는 자음의 안정 부분에서 접속이 일어나므로 연결부에서의 음질 저하가 적고, 전후 자음과 모음간의 조음 현상을 잘 반영하는 장점이 있다. 본 논문에서는 CVC 합성 단위를 사용하는 경우 나타나는 문장 세그먼트들의 조합을 4가지로 분류하여 각각의 통계적 특성과 합성음성의 품질을 분석하고, CVC에 근거한 새로운 복합 합성 단위를 사용하는 방식을 제안한다. 제안된 방식을 사용하여 설계하지 않은 연속 음성 코퍼스로부터 CVC 음성 세그먼트를 추출하여 다양한 예제 문장을 합성하였다. 만일 필요한 CVC 음성 세그먼트가 음성 코퍼스에 존재하지 않는 경우 반음절 음성 세그먼트로 대치하여 합성하였다. 실험 결과 약 100 Mbytes의 연속 음성 코퍼스로 비교적 자연스러운 음성합성이 가능함을 알 수 있었다.

  • PDF

규칙합성음의 객관적 품질평가에 관한 연구 (A Study on Objective Quality Assessment for Synthesized speech by Rule)

  • 홍진우;김순협
    • 전자공학회논문지B
    • /
    • 제30B권10호
    • /
    • pp.42-49
    • /
    • 1993
  • In this paper, we evaluate the quality of synthesized speech by rule using the LPC CD as a objective measure, and then compare the test result with the subjective one. Speech used for the test consists of 108 words which are selected by word construction method using Korean attribute and frequency distribution, synthesized by demi-syllable rule. By evaluating the quality of synthesized speech by reule objectively, we have tried to resolve the problems such as lots of evaluation time, expansion of test scale, and variables of analysis result arised by subjective measure. We have, also, proved the validity of the objective test using the LPC CD, by comparing intelligibility which is the index for the subjective quality evaluation of synthesized speech by rule with MOS. From this results, we can provide a guide for quality assessment that would be useful in the R&D of synthesis method and the commercial products using synthesized speech.

  • PDF

배경잡음을 고려한 가변임계값 Dual Rate ADPCM 음성 CODEC 구현 (Implementation of Variable Threshold Dual Rate ADPCM Speech CODEC Considering the Background Noise)

  • 양재석;한경호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2000년도 하계학술대회 논문집 D
    • /
    • pp.3166-3168
    • /
    • 2000
  • This paper proposed variable threshold dual rate ADPCM coding method which is modified from the standard ADPCM of ITU G.726 for speech quality improvement. The speech quality of variable threshold dual rate ADPCM is better than single rate ADPCM at noisy environment without increasing the complexity by using ZCR(Zero Crossing Rate). In this case, ZCR is used to divide input signal samples into two categories(noisy & speech). The samples with higher ZCR is categorized as the noisy region and the samples with lower ZCR is categorized as the speech region. Noisy region uses higher threshold value to be compressed by 16Kbps for reduced bit rates and the speech region uses lower threshold value to be compressed by 40Kbps for improved speech quality. Comparing with the conventional ADPCM, which adapts the fixed coding rate. the proposed variable threshold dual rate ADPCM coding method improves noise character without increasing the bit rate. For real time applications, ZCR calculation was considered as a simple method to obtain the background noise information for preprocess of speech analysis such as FFT and the experiment showed that the simple calculation of ZCR can be used without complexity increase. Dual rate ADPCM can decrease the amount of transferred data efficiently without increasing complexity nor reducing speech quality. Therefore result of this paper can be applied for real-time speech application such as the internet phone or VoIP.

  • PDF

디지털 이동통신망 환경 하에서 마스킹 효과를 이용한 객관적 음질 평가 척도 (An Objective Speech Quality Measure using Masking Effect under Digital Mobile Telephone Network Environment)

  • 김광수;김민정;석수영;정호열;정현일
    • 한국멀티미디어학회논문지
    • /
    • 제5권4호
    • /
    • pp.405-414
    • /
    • 2002
  • 본 논문에서는 이동전화망 환경 하에서의 음성의 통화품질 평가를 위해 마스킹 문턱치를 이용하는 객관적 음질평가법을 제안하고 실험을 통하여 그 유효성을 확인하였다. 현재까지 잘 알려진 BSD(Bark Spectral Distortion), PSQM(Perceptual Speech Quality Measure)등의 성능을 먼저 분석하였다. 그 결과, MOS(Mean Opinion Score)와의 상관성이 이동통신 환경하에서 문헌상에 보고된 결과보다 성능이 저하됨을 확인하였다. 이동통신 환경하에서 보다 효율적인 객관적 음질평가척도 개발을 위하여 제안된 방법에서는 인간의 심리음향학적 마스킹 현상을 이용하였고, 성능 평가시 비교대상인 주관적 음질척도로는 DMOS(Degradation MOS)를 사용하였다. 디지털 이동통신망에서 수집된 음성 데이터에 대한 성능평가실험을 수행한 결과, BSD와PSQM 같은 기존의 척도들에 비하여 평균 4%의 상관성능이 향상됨을 확인하였다.

  • PDF

VoIP 음질의 주관적 평가에 관한 연구 (A Study of Subjective Speech Quality Measurement in VoIP)

  • 강영도;강진석;최연성;김장형
    • 한국정보통신학회논문지
    • /
    • 제5권2호
    • /
    • pp.279-287
    • /
    • 2001
  • 본 논문은 초고속 인터넷을 이용한 음성전송 방식인 VoIP(Voice over IP) 서비스에서의 음질의 주관적 평가에 관한 연구이다. PSNR이나 지터 갊은 멀티미디어 서비스의 객관적 파라미터는 명료히 정의되어 있고 쉽게 측정되나, 그것이 이용자의 지각적 인지도와는 일치하지 않는다. 본 연구에서는 송화자 내용 발생과정에 있어서 어느 정도 완전히 표현되었는가를 나타내는 송화 품질과 음성이 전송계를 통해 수화자에게 전달되는 과정에서 왜곡이나 잡음 등의 방해요인에 의해 열화 되는 정도를 나타내는 전송 품질, 그리고 수화자가 청각에서 신호처리 과정을 거친 송화자의 내용을 어느 정도 이해할 수 있는지를 나타내는 수화 품질에 대한 주관적 평가법과 그 척도를 제시한다. 또한 제안된 방법으로 실험하여 그 유효성을 검증한다.

  • PDF

마이크로폰 배열에서 독립벡터분석 기법을 이용한 잡음음성의 음질 개선 (Microphone Array Based Speech Enhancement Using Independent Vector Analysis)

  • 왕씽양;전성일;배건성
    • 말소리와 음성과학
    • /
    • 제4권4호
    • /
    • pp.87-92
    • /
    • 2012
  • Speech enhancement aims to improve speech quality by removing background noise from noisy speech. Independent vector analysis is a type of frequency-domain independent component analysis method that is known to be free from the frequency bin permutation problem in the process of blind source separation from multi-channel inputs. This paper proposed a new method of microphone array based speech enhancement that combines independent vector analysis and beamforming techniques. Independent vector analysis is used to separate speech and noise components from multi-channel noisy speech, and delay-sum beamforming is used to determine the enhanced speech among the separated signals. To verify the effectiveness of the proposed method, experiments for computer simulated multi-channel noisy speech with various signal-to-noise ratios were carried out, and both PESQ and output signal-to-noise ratio were obtained as objective speech quality measures. Experimental results have shown that the proposed method is superior to the conventional microphone array based noise removal approach like GSC beamforming in the speech enhancement.