• 제목/요약/키워드: Speech quality

검색결과 803건 처리시간 0.031초

디지틀 음성통신망의 통화품질 측정을 위한 통화모델 시스템의 구현 (On the Implementation of Model System for Speech Transmission Quality Evaluation of Digital Communication Network)

  • 홍진우;김순협
    • 한국통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.192-201
    • /
    • 1993
  • 통신기술이 발전함에 따라 통신망이 아날로그 전송 형태로부터 디지털 전송 형태로 바뀌고 있으며, 궁극적으로는 end-to-end 디지털 통신을 실현하는 종합정보통신망(ISDN)으로 변천하고 있다. 이러한 통신망의 변천에 따라 새로운 망의 설치 및 운용과 더불어 통신의 효율화와 선진화를 달성하기 위한 통화품질의 향상도 중요한 과제로 부각되고 있다. 또한, 새로운 디지털 음성 통신계에서는 통화품질에 영향을 주는 요인들이 기존 아날로그 형태의 음성 통신계와는 다르게 나타나기 때문에 새로운 통화품질의 조건 및 기준을 확립할 필요가 있다. 본 논문에서는 음성통신과 통화품질과의 관계를 설명하고, 디지틀 음성통신계의 통화품질을 설계하기 위한 평가 실험용 디지틀 통화모델 시스템의 설계 및 개발에 대하여 기술한다. 또한, 구현한 모델 시스템의 몇가지 활용을 제안한다.

  • PDF

A Scalable Audio Coder for High-quality Speech and Audio Services

  • 이길호;이영한;김홍국;김도영;이미숙
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.75-86
    • /
    • 2007
  • In this paper, we propose a scalable audio coder, which has a variable bandwidth from the narrowband speech bandwidth to the audio bandwidth and also has a bit-rate from 8 to 320 kbits/s, in order to cope with the quality of service(QoS) according to the network load. First of all, the proposed scalable coder splits bandwidth of the input audio into narrowband up to around 4 kHz and above. Next, the narrowband signals are compressed by a speech coding method compatible to an existing standard speech coder such as G.729, and the other signals whose bandwidth is above the narrowband are compressed on the basis of a psychoacoustic model. It is shown from the objective quality tests using the signal-to-noise ratio(SNR) and the perceptual evaluation of audio quality(PEAQ) that the proposed scalable audio coder provides a comparable quality to the MPEG-1 Layer III (MP3) audio coder.

  • PDF

패킷 중요도 결정에 의한 VoIP 통화 품질 향상 기술 (Improving Speech Quality of VoIP by Packet Prioritization)

  • 윤제열;박호종
    • 한국음향학회지
    • /
    • 제29권5호
    • /
    • pp.347-353
    • /
    • 2010
  • VoIP 시스템의 통화 품질은 패킷의 전송 손실에 의하여 크게 저하되며, 각 패킷의 손실에 의한 음질 저하 정도는 해당 패킷의 특성에 따라 결정된다. 따라서 각 패킷 손실에 의한 음질 저하를 미리 분석하여 전송 과정에서 손실되는 패킷을 선택적으로 조정하면 VoIP 통화 품질을 향상시킬 수 있다. 본 논문에서는 DS 기반의 네트워크를 사용하는 VoIP에서 각 패킷에 전송 우선순위를 할당하여 통화 품질을 향상시키는 구조를 제안하고, 이를 위한 패킷 중요도 결정 방법을 제안한다. Gilbert 모델에 따른 패킷 손실 환경에서 제안한 방법의 성능을 측정하였으며, 객관적 음질 평가와 주관적 음질 평가를 통하여 VoIP 통화 품질이 향상되는 것을 확인하였다.

효과적인 음성 인식 평가를 위한 심층 신경망 기반의 음성 인식 성능 지표 (Speech Recognition Accuracy Measure using Deep Neural Network for Effective Evaluation of Speech Recognition Performance)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2291-2297
    • /
    • 2017
  • 본 논문에서는 음성 데이터베이스를 평가하기 위해 여러 가지의 음성 특성 지표 추출 알고리즘을 설명하고 심층 신경망 기반의 새로운 음성 성능 지표 생성 방법을 제안한다. 선행 연구에서는 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 논문에서는 심층 신경망을 기반으로 한 음성 특성 지표 추출 방법에 대해 설명하며 선행 연구에서 조합에 사용한 GMM(Gaussian Mixture Model) 음향 모델 확률 값을 심층 신경망 학습을 통해 추출한 확률 값으로 대체해 조합함으로써 단어 오인식률과 보다 높은 상관도를 갖는 것을 확인한다.

음질 및 속도 향상을 위한 선형 스펙트로그램 활용 Text-to-speech (Text-to-speech with linear spectrogram prediction for quality and speed improvement)

  • 윤혜빈
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.71-78
    • /
    • 2021
  • 인공신경망에 기반한 대부분의 음성 합성 모델은 고음질의 자연스러운 발화를 생성하기 위해 보코더 모델을 사용한다. 보코더 모델은 멜 스펙트로그램 예측 모델과 결합하여 멜 스펙트로그램을 음성으로 변환한다. 그러나 보코더 모델을 사용할 경우에는 많은 양의 컴퓨터 메모리와 훈련 시간이 필요하며, GPU가 제공되지 않는 실제 서비스 환경에서 음성 합성이 오래 걸린다는 단점이 있다. 기존의 선형 스펙트로그램 예측 모델에서는 보코더 모델을 사용하지 않으므로 이 문제가 발생하지 않지만, 대신에 고품질의 음성을 생성하지 못한다. 본 논문은 뉴럴넷 기반 보코더를 사용하지 않으면서도 양질의 음성을 생성하는 Tacotron 2 & Transformer 기반의 선형 스펙트로그램 예측 모델을 제시한다. 본 모델의 성능과 속도 측정 실험을 진행한 결과, 보코더 기반 모델에 비해 성능과 속도 면에서 조금 더 우세한 점을 보였으며, 따라서 고품질의 음성을 빠른 속도로 생성하는 음성 합성 모델 연구의 발판 역할을 할 것으로 기대한다.

16Kbps와 40Kbps의 Dual Rate G.723 ADPCM 음성 codec 구현 (Implementation of Dual Rate G.723 ADPCM Speech codec)

  • 김재오;한경호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2480-2482
    • /
    • 1998
  • In this paper, the implementation of dual rate ADPCM using G.723 16Kbps and 40Kbps speech codec algorithm is handled. For small signals, the low rate 16Kbps coding algorithm shows the same SNR as the high rate 40Kbps coding algorithm, while the low rate 16Kbps coding algorithm shows the lower SNR than the high rate 40Kbps coding algorithm for large signal. To obtain the good trade-off between the data rate and synthesized speech quality, we applied low rate 16Kbps for the small signal and high rate 40Kbps for the large signal. Various threshold values determining the rate are tested for good trade off data rate and speech quality. Also the low pass filter effect of speech input and output devices is simulated at several cut-off frequencies. To simulation result shows the good speech quality at a low rate comparing with 16Kbps & 40Kbps.

  • PDF

Implementation and Evaluation of an HMM-Based Speech Synthesis System for the Tagalog Language

  • ;김경태;김종진
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.49-63
    • /
    • 2008
  • This paper describes the development and assessment of a hidden Markov model (HMM) based Tagalog speech synthesis system, where Tagalog is the most widely spoken indigenous language of the Philippines. Several aspects of the design process are discussed here. In order to build the synthesizer a speech database is recorded and phonetically segmented. The constructed speech corpus contains approximately 89 minutes of Tagalog speech organized in 596 spoken utterances. Furthermore, contextual information is determined. The quality of the synthesized speech is assessed by subjective tests employing 25 native Tagalog speakers as respondents. Experimental results show that the new system is able to obtain a 3.29 MOS which indicates that the developed system is able to produce highly intelligible neutral Tagalog speech with stable quality even when a small amount of speech data is used for HMM training.

  • PDF

Spectral Folding방법과 GMM 변환을 이용한 대역폭 확장의 Hybrid 방법 (The Hybrid Bandwidth Extenstion Method Using Spectral Folding and GMM Transformation)

  • 최무열;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2006년도 춘계 학술대회 발표논문집
    • /
    • pp.131-134
    • /
    • 2006
  • The narrowband speech over the telephone network is lacking in the information from low-band (0-300 Hz) and high-band (3400-8000 Hz) that are found in wideband speech (0-8000 Hz). As a result, narrowband speech is characterized by the reduced intelligibility and muffled quality, and degraded speaker identification. Spectral folding is the easiest way to reconstruct the missing high-band; however, the reconstructed speech still brings the sense of band-limited characteristic because of the absence of low-band and mid-band frequency components. To compensate for the lack of the extended speech, we propose to combine the spectral folding method and GMM transformation method, which is a statistical method to reconstruct wideband speech. The reconstructed wideband speech showed that the absent frequency components was filled up with relatively low spectral mismatch. According to the subjective speech quality evaluations, the proposed method was preferred to other methods.

  • PDF

노화에 따른 음질과 구어 유창성의 음향학적 특성 변화 (Change in acoustic characteristics of voice quality and speech fluency with aging)

  • 박희준;박진
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.45-51
    • /
    • 2023
  • 나이가 들면서 발생하는 음성 문제는 사회적, 정서적으로 영향을 미칠 수 있으며, 나아가 고립감과 우울증으로 이어질 수 있다. 이에 본 연구에서는 노화로 인한 음향학적 특성 변화를 음질과 구어 유창성의 변화를 알아보고자 한다. 이를 위해 노년층 남성 20명과 청년층 남성 20명이 산출한 연장발성과 구절 읽기 과제를 녹음하여 분석하였다. 음질 분석 변수로 기본주파수(F0), 주기 변동률(jitter), 진폭 변동률(shimmer), 켑스트럼 정점(cepstral peak prominence, CPP) 값을 분석하였으며 구어 유창성 분석 변수로는 평균 음절 길이(average syllable duration, ASD), 조음 속도(articulation rate, AR), 구어 속도(SR)를 분석하였다. 연구결과, 음질 측정에서 노년층의 경우 F0가 높게 나타났으며 jitter, shimmer, CPP의 결과값을 통해 음질이 저하된 것으로 나타났다. 구어 유창성 분석 결과, 노년층은 ASD, AR, SR의 결과값을 통해 느리게 발화하는 것으로 나타났다. 음질과 구어유창성 간 상관관계 분석 결과, shimmer와 CPP 값과 각각 ASD와 SR에서 높은 상관관계가 나타났다. 본 연구결과를 통해 노화에 따른 음성과 구어 유창성 변화를 조기에 발견하고 이에 대한 적절한 훈련법을 제공할 수 있을 것으로 기대된다.

다계통위축증 환자를 대상으로 한 마비말장애 집중 치료의 효과 (Efficacy of intensive treatment of dysarthria for people with multiple system atrophy)

  • 박영미
    • 말소리와 음성과학
    • /
    • 제10권4호
    • /
    • pp.163-171
    • /
    • 2018
  • A mixed dysarthria with combinations of hypokinetic, ataxic, and spastic components is a common clinical feature of multiple system atrophy (MSA). Due to the rapid progress of dysarthria after diagnosis, people with MSA experience difficulty with verbal communication, which eventually affects their quality of life negatively. In this study, SPEAK $OUT!^{(R)}$, an intensive 1:1 treatment of dysarthria for improving functional communicative ability, was provided to twelve people with MSA. To evaluate the efficacy of SPEAK $OUT!^{(R)}$ in people with MSA, aerodynamic, acoustic, and perceptual analyses were conducted. Pre-and post-therapy data included maximum phonation time, vocal intensity, and fundamental frequency during /a/ sustained phonation and passage reading; frequency range between high /a/ and low /a/ phonation; jitter, shimmer, and HNR for vocal quality; speech rate during passage reading; and perceptual evaluation scores for articulation precision and intonation. The participants achieved statistically significant improvement in vocal intensity, pitch range, vocal quality, speech rate, and speech intelligibility. In conclusion, SPEAK $OUT!^{(R)}$ is a feasible treatment for people with MSA to efficaciously improve their speech ability.