• 제목/요약/키워드: Speech Quality

검색결과 804건 처리시간 0.025초

음성 향상을 위한 최소값 제어 음성 존재 부정확성의 추적기법 (Minima Controlled Speech Presence Uncertainty Tracking Method for Speech Enhancement)

  • 이우정;장준혁
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.668-673
    • /
    • 2009
  • 본 논문에서는 최소값 제어 음성 존재 부정확성의 추정기법을 이용한 음성 향상 기법을 제안한다. 기존의 음성 존재 부정확성 추정기법에서는 간단한 a posteriori SNR에 근거하여 프레임, 채널마다 다른 a priori음성 부재 확률값을 결정하여 음성 부재 확률 계산에 적용하였다. 본 논문에서 제안된 알고리즘은 기존 음성 존재 부정확성 추적방법과는 달리 최소값 제어방법을 이용하여 주파수성분별 최소값에 근거한 강인한 a priori음성 부재 확률값 추정방법을 통해 음성 부재 확률에 적용하여 음성을 향상시킨다. 제안된 음성 향상 기법은 ITU-T P.862 perceptual evaluation of speech quality (PESQ)를 이용하여 평가하였고 기존의 음성 존재 부정확성 추적방법보다 향상된 결과를 나타내었다.

음성으로부터 감성인식 요소분석 (Analyzing the element of emotion recognition from speech)

  • 심귀보;박창현
    • 한국지능시스템학회논문지
    • /
    • 제11권6호
    • /
    • pp.510-515
    • /
    • 2001
  • 일반적으로 음성신호로부터 사람의 감정을 인식할 수 있는 요소는(1)대화의 내용에 사용한 단어, (2)톤 (tore), (3)음성신호의 피치(Pitch), (4)포만트 주파수(Formant Frequencey)그리고 (5)말의 빠르기(Speech Speed)(6)음질(Voice Quality)등이다. 사람의 경우는주파수 같은 분석요소 보다 톤과 단어 빠르기, 음질로 감정을 받아들이게 되는것이 자연스러운 방법이므로 당연히 후자의 요소들이 감정을 분류하는데 중요한 인자로쓰일 수있다. 그리고, 종래는 주로 후자의 효소들을 이용하였는데, 기계로써 구현하기 위해서는 포만트 주파수를 사용할 수있게 되는것이 도움이 된다. 그러므로, 본 연구는 음성 신호로부터 피치와 포만트, 그리고 말의 빠르기 등을 이용하여 감성인식시스템을 구현하는것을 목표로 연구를 진행하고 있으며, 그 1단계 연구로서 본 논문에서는 화가 나서 내뱉는 말을 기반으로 하여 화난 감정의 독특한 특성을 찾아내었다.

  • PDF

VQ Codebook Index Interpolation Method for Frame Erasure Recovery of CELP Coders in VoIP

  • Lim Jeongseok;Yang Hae Yong;Lee Kyung Hoon;Park Sang Kyu
    • 한국통신학회논문지
    • /
    • 제30권9C호
    • /
    • pp.877-886
    • /
    • 2005
  • Various frame recovery algorithms have been suggested to overcome the communication quality degradation problem due to Internet-typical impairments on Voice over IP(VoIP) communications. In this paper, we propose a new receiver-based recovery method which is able to enhance recovered speech quality with almost free computational cost and without an additional increment of delay and bandwidth consumption. Most conventional recovery algorithms try to recover the lost or erroneous speech frames by reconstructing missing coefficients or speech signal during speech decoding process. Thus they eventually need to modify the decoder software. The proposed frame recovery algorithm tries to reconstruct the missing frame itself, and does not require the computational burden of modifying the decoder. In the proposed scheme, the Vector Quantization(VQ) codebook indices of the erased frame are directly estimated by referring the pre-computed VQ Codebook Index Interpolation Tables(VCIIT) using the VQ indices from the adjacent(previous and next) frames. We applied the proposed scheme to the ITU-T G.723.1 speech coder and found that it improved reconstructed speech quality and outperforms conventional G.723.1 loss recovery algorithm. Moreover, the suggested simple scheme can be easily applicable to practical VoIP systems because it requires a very small amount of additional computational cost and memory space.

음질, 운율, 발음 특징을 이용한 마비말장애 중증도 자동 분류 (Automatic severity classification of dysarthria using voice quality, prosody, and pronunciation features)

  • 여은정;김선희;정민화
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.57-66
    • /
    • 2021
  • 본 논문은 말 명료도 기준의 마비말장애 중증도 자동 분류 문제에 초점을 둔다. 말 명료도는 호흡, 발성, 공명, 조음, 운율 등 다양한 말 기능 특징의 영향을 받는다. 그러나 대부분의 선행연구는 한 개의 말 기능 특징만을 중증도 자동분류에 사용하였다. 본 논문에서는 음성의 장애 특성을 효과적으로 포착하기 위해 마비말장애 중증도 자동 분류에서 음질, 운율, 발음의 다양한 말 기능 특징을 반영하고자 하였다. 음질은 jitter, shimmer, HNR, voice breaks 개수, voice breaks 정도로 구성된다. 운율은 발화 속도(전체 길이, 말 길이, 말 속도, 조음 속도), 음높이(F0 평균, 표준편차, 최솟값, 최댓값, 중간값, 25 사분위값, 75 사분위값), 그리고 리듬(% V, deltas, Varcos, rPVIs, nPVIs)을 포함한다. 발음에는 음소 정확도(자음 정확도, 모음 정확도, 전체 음소 정확도)와 모음 왜곡도[VSA(vowel space area), FCR (formant centralized ratio), VAI(vowel articulatory index), F2 비율]가 있다. 본 논문에서는 다양한 특징 조합을 사용하여 중증도 자동 분류를 시행하였다. 실험 결과, 음질, 운율, 발음 특징 세 가지 말 기능 특징 모두를 분류에 사용했을 때 F1-score 80.15%로 가장 높은 성능이 나타났다. 이는 마비말장애 중증도 자동 분류에는 음질, 운율, 발음 특징이 모두 함께 고려되어야 함을 시사한다.

V/S/TSIUVC를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by Using V/S/TSIUVC)

  • 이시우
    • 한국멀티미디어학회논문지
    • /
    • 제7권9호
    • /
    • pp.1233-1239
    • /
    • 2004
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭, 개별피치 펄스와 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 95.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

TMS320C5416을 이용한 SOLA-B 알고리즘과 G.729A 보코더의 음질 향상된 가변 전송률 보코더의 실시간 구현 (Real-time Implementation of Variable Transmission Bit Rate Vocoder Improved Speech Quality in SOLA-B Algorithm & G.729A Vocoder Using on the TMS320C5416)

  • 함명규;배명진
    • 음성과학
    • /
    • 제10권3호
    • /
    • pp.241-250
    • /
    • 2003
  • In this paper, we implemented the vocoder of variable rate by applying the SOLA-B algorithm to the G.729A to the TMS320C5416 in real-time. This method using the SOLA-B algorithm is that it is reduced the duration of the speech in encoding and is played at the speed of normal by extending the duration of the speech in decoding. But the method applied to the existed G.729A and SOLA-B algorithm is caused the loss of speech quality in G.729A which is not reflected about length variation of speech. Therefore the proposed method is encoded according as it is modified the structure of LSP quantization table about the length of speech is reduced by using the SOLA-B algorithm. The vocoder of variable rate by applying the G.729A and SOLA-B algorithm is represented the maximum complexity of 10.2MIPS about encoder and 2.8MIPS about decoder in 8kbps transmission rate. Also it is evaluated 17.3MIPS about encoder, 9.9MIPS about decoder in 6kbps and 18.5MIPS about encoder, 11.1MIPS about decoder in 4kbps according to the transmission rate. The used memory is about program ROM 9.7kwords, table ROM 4.69kwords, RAM 5.2kwords. The waveform of output is showed by the result of C simulator and Bit Exact. Also, the result of MOS test for evaluation of speech quality of the vocoder of variable rate which is implemented in real-time, it is estimated about 3.68 in 4kbps.

  • PDF

16Kbps와 40Kbps의 Dual Rate G.726 ADPCM 음성 codec구현 (Implementation of G.726 ADPCM Dual Rate Speech Codec of 16Kbps and 40Kbps)

  • 김재오;한경오
    • 전기전자학회논문지
    • /
    • 제2권2호
    • /
    • pp.233-238
    • /
    • 1998
  • 본 논문에서는 G.726 ADPCM 음성방식을 기존의 단일 압축을 대신 16Kbps 와 40Kbps의 두 가지 압축율을 사용한 가변 압축방식에 의한 음성 코딩 방식을 다루었다. 음성의 묵음 또는 소 신호 부분은 음질의 향상보다는 데이터 비트 수를 줄이기 위한 저 전송 16Kbps 압축율을 적용하였고 임계값 이상의 대 신호 부분은 음질을 향상하기 위하여 40Kbps의 압축율을 적용하여 모든 신호를 단일 압축율로 코팅하는 방식에 비하여 전체적으로 압축율을 높여 전송 비트 수를 줄이면서 음질을 저하시키지 않도록 하였다. 분 논문에서는 시뮬레이션을 통하여 여러 가지의 임계값에 의한 가변 압축 코딩 방식에 대하여 압축율과 음질의 관계 를 다루었다. 또한 고정된 임계값에 대하여 입력 음성의 크기를 여러 가지로 변동하여 주변 배경잡음과 포화에 의한 음질의 저하를 고찰하여 가변 율에 의한 음성의 코딩방식에서 임계값과 입력의 크기가 음질 및 압축율에 미치는 영향을 다루었다. 각 시뮬레이션의 경우에 대하여 실지 음성의 원음에 대한 음질의 충실 도를 임의의 집단에 대하여 비교하여 음질의 충실 도를 확인하였다. 추후의 연구를 통하여 DSP에 의한 실시간 처리 시스템의 구현을 하고자 한다.

  • PDF

음성전송지수를 이용한 확성전화기의 명료도 평가 방법 (A Study on the Speech Transmission Index Method for Estimating Articulation of Loudspeaking Telephony)

  • 장대영;강성훈;심동연;김천덕
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.32-39
    • /
    • 1994
  • 전화기의 통화품질은 음량정격으로 규정하고 있으나, 이 방법은 핸드셋 전화기에만 국한되는 방법이다. 핸드 프리 전화기는 실내의 음장의 영향을 더 많이 받으므로 전송 특성뿐만이 아니라 주위 잡음, 에코, 잔향도 포함하여 평가하여야 한다. 따라서 핸드 프리 전화기의 품질을 평가할 수 있는 새로운 방법이 필요하다. Steeneken은 음성 전송 지수(Speech Transmission Index ; STI) 를 계산하여 음성 전송 특성을 평가하는 객관적인 방법을 제안하였다. 본 논문에서는 STI를 핸드 프리 전화기의 통화품질 평가 방법에 적용 가능성을 고찰하고, 고속으로 STI를 계산할 수 있는 시스템을 구현하였다. 이 시스템을 이용하여 잔향 시간이 다른 세군데의 실내에서 핸드 프리 전화기의 STI를 측정한 결과, 실내의 잔향시간이 길어질수록 STI가 감소되는 것을 알았다. 이 결과는 STI를 음장 특성을 포함하는 명료도 평가 방법에도 응용할 수 있다는 것을 시사하고 있다.

  • PDF

아날로그 음성 비화기의 비도 및 음질 향상에 관한 연구 (A Study on the Improvements of Security and Quality for Analog Speech Scrambler)

  • 공병구;조동호
    • 전자공학회논문지B
    • /
    • 제30B권9호
    • /
    • pp.27-35
    • /
    • 1993
  • In this paper, a new algorithm for high level security and quality of speech is proposed. The algorithm is based on the rearrangement of the fast fourier transform (FFT) coefficients with pre and post filter process, hamming window and adaptive pseudo spectrum insertion. Then, the pre and post filters are used for the whitening of speech spectrum and the adaptive pseudo spectrum is inserted for the unclassification of silence/speech. Also, the hamming window technique is applied for the robustness to the syncronization error in the telephone line. According to the simulation results, it can be seen that the security of scrambled signal and the quality of descrambled signal have been improved fairly in both subjective and objective performance test and the new FFT scrambler is robust to the synchronization error.

  • PDF

The Efficacy of the Bel canto Singing Technique as a Method of Improving Voice Quality of Vocal Bowing Sulcus Vocalis

  • Yoo, Jae-Yeon;Seo, Dong-Il
    • 말소리와 음성과학
    • /
    • 제3권4호
    • /
    • pp.103-108
    • /
    • 2011
  • The purpose of this study was to investigate the effects of the Bel canto singing technique on voice quality in patients with vocal bowing and sulcus vocalis. Five patients with vocal bowing, and five patients with sulcus vocalis participated in the study. Each subject was assessed acoustically (Jitter, Shimmer, NNE) in the first and last session. Dr. Speech (version 4.0, Tiger-DRS) was used to compare acoustic parameters of pre- and post-treatment. The Bel canto singing technique consisted of breathing exercises, relaxation exercises, and phonation exercises. The results showed that the Bel canto singing technique tended to be effective on improving voice quality in patients with organic voice disorders.

  • PDF