• Title/Summary/Keyword: 음성개선

Search Result 1,034, Processing Time 0.027 seconds

A comparison of the perceptual-auditory voice quality evaluation (GRBAS) and voice-related quality of life (K-VRQOL) according to choir type of elderly women choir members (여성 노인 합창단원의 합창단 유형에 따른 청지각적 음성평가(GRBAS) 및 음성관련 삶의 질(K-VRQOL) 비교)

  • Lee, Hyeonjung;Kang, Binna;Kim, Soo Ji
    • Phonetics and Speech Sciences
    • /
    • v.12 no.2
    • /
    • pp.51-61
    • /
    • 2020
  • The purpose of this study is to compare voice characteristics and voice-related quality of life (K-VRQOL) of the elderly female choir members using perceptual-auditory voice quality evaluation (GRBAS) and K-VRQOL scales. The participants were 77 women over 60 years old who were actively engaged in the choir in either Seoul or Busan. There are two kinds of choirs that indicate different engagement levels: regular choir and church choir. The perceptual-auditory vocal quality evaluation was listened to by / a / vowels and were graded by experts using the GRBAS scale. As a result, when comparing the differences between groups, the elderly female participants of the regular choir showed higher satisfaction in speech using the subjective speech recognition level than the elderly female members who performed in the church choir. In addition, the analysis showed that the satisfaction level was high in the physical function area of the K-VRQOL scale. This study confirmed that choral activities could yield positive results not only in terms of improving voice function in old age, but also to improve the subjective perception level of voice use, thus suggesting the necessity of systematic music programs to improve voices that are aging.

Transcoding Algorithm from 8 kbps G.729A to 5.3 kbps G.723.1 (8 kbps G.729A에서 5.3 kbps G.723.1로의 상호부호화 알고리듬)

  • 윤성완;정성교;박영철;윤대희
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.823-826
    • /
    • 2000
  • 유/무선 통신 시스템에서는 통신망마다 각각 다른 음성 부호화기를 사용하므로 음성신호는 두 번의 부/복호화 과정을 거치게 된다. 이로 인해 음질저하, 계산량 증가, 그리고 전달 지연 증가 등의 문제가 발생된다. 본 논문에서는 위의 문제점들을 개선하기 위하여 패킷 음성통신과 무선 이동 통신에 사용되는 음성 부호화기의 상호부호화를 위한 알고리듬을 제안한다 효율적인 음성 패킷 변환 방법을 제안하였으며, 8 kbps G.729A 패킷을 5.3 kbps G.723.1 패킷으로 변환하는 방법을 제안한다. 제안된 음성 패킷 변환 방법은 LSP 변환과정, 적응코드북 변환과정 그리고 고정 코드북 고속 탐색 과정으로 구성된다. 여러 가지 음성 신호로 모의 실험한 결과, 본 논문에서 제안된 상호부호화 알고리듬이 두 번의 부/복호화 과정을 거친 경우보다 짧은 전달 지연 시간과 적은 계산량으로 동등한 음질의 음성신호로 복호화함을 확인하였다.

  • PDF

An Efficient Transcoding Algorithm Between G. 723.1 And G. 729A Speech Coders (G.723. 1 음성부호화기의 G.729A 음성부호화기의 상호 부호화 알고리듬)

  • 윤성완;정성교;박영철;최용수;윤대희
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.4B
    • /
    • pp.457-462
    • /
    • 2001
  • 유/무선 통신 시스템에서는 통신망보다 서로 다른 음성 부호화기를 사용하므로 음성신호는 두 번의 부/복호화과정을 거치게 되어 음질저하, 연산량 증가, 그리고 전달 지연 증가 등의 문제가 발생된다. 본 논문에서는 위의 문제점들을 개선하기 위하여 유/무선 음성통신에 사용되는 음성 부호화기의 상호 부호화 알고리듬을 제안하고, 5.3 kbps G. 723.1의 패킷과 8 kbit/s G.729.A 패킷을 서로 변환하는 방법을 제안한다. 여러 가지 음성 상호 대해 객관적 음질 평가와 주관적 선호도 평가를 수행한 결과, 제안된 상호 부호화 알고리듬이 이중 부/복호화보다 짧은 전달 지연 시간과 26-37% 적은 연산량으로 동등한 음질의 음성신호를 복호화함을 확인하였다.

  • PDF

A Study on the Korean Continuous Speech Recognition using Phonetic Decision Tree-based State Splitting (음소결정트리 상태분할을 이용한 한국어 연속음성인식에 관한 연구)

  • 오세진;황철준;김범국;정호열;정현열
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2001.06a
    • /
    • pp.277-280
    • /
    • 2001
  • 본 연구에서는 연속음성인식 시스템의 성능개선을 위한 기초 연구로서 음소결정트리 상태분할과 한국어 음성학적 지식을 이용하여 문맥의존 음향모델의 작성방법을 검토하고. 한국어 연속음성인식에 적용을 소개한다. 음소결정트리 상태분할 알고리즘은 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어 집합에 따라 2진 트리로 SSS(Successive State Splitting) 알고리즘에 의해 상태분할 하는 방법으로서 상태분할 후 각 상태를 네트워크로 연결한 구조를 HM-Net(Hidden Markow Network)이라 하며 문맥의존 음향모델로 표현된다. 작성한 문맥의존 음향모델의 유효성을 확인하기 위해 본 연구실의 항공편 예약 문장(YNU200)에 대해 연속음성인식 실험을 수행하였다. 인식실험 결과, 문맥의존 음향모델에 대한 화자독립 연속음성인식률이 기존의 단일 HMM 모델보다 평균적으로 1-pass의 경우 9.9%, 2-pass의 경우 4.1% 향상된 인식률을 보였다. 따라서 문맥의존 음향모델을 작성하는데 음소결정트리 상태분할과 한국어 음성학적 지식이 유효함을 확인하였다.

  • PDF

Performance Analysis of Multi-Carrier CDMA System using Turbo Code in Multipath Rayleigh Fading Channel (다중 경로 레일리 페이딩 채널에서 Turbo부호를 적용한 Multi-Carrier CDMA 시스템의 성능 분석)

  • 박기식
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2001.10a
    • /
    • pp.311-314
    • /
    • 2001
  • 본 논문에서는 다중 경로 레일리 페이딩 채널에서 MC (Multi-Carrier) CDMA 시스템의 BER 성능을 분석하였고, 최근에 가장 강력한 부호화 기법으로 급부상하고 있는 터보 코드를 MC CDMA 시스템에 적용하여 성능 개선 정도를 평가하였다. 성능 해석 결과, 레일리 페이딩 채널에서는 강력한 성능 개선 기법을 적용하지 않는 한 사용자수와 E$_{b}$/N$_{o}$ 값에 관계없이 음성 서비스를 지원하지 못함을 알 수 있었다. 한편, 터보 코드를 성능 개선 기법으로 적용하면 BER 성능이 매우 개선되고, 사용자 수와 E$_{b}$/N$_{o}$ 값에 관계없이 음성 서비스를 충분히 지원할 수 있음을 알 수 있었다. 예를 들어 E$_{b}$/N$_{o}$ 가 10 dB이고 사용자 수가 10명인 경우, 터보 코드를 적용함에 의해 BER 성능이 약 5$\times$$10^{-3}$ 정도 개선됨을 알 수 있었다.

  • PDF

A Study on Improving Voice Quality and Pitch Searching of the VSELP Coder (VSELP 부호화기의 음질 및 주기탐색 개선에 관한 연구)

  • 성기철;문상재
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.4
    • /
    • pp.740-749
    • /
    • 1994
  • This paper presents method for improving the performance of the VSELP speech coder. The hybrid method is employed for pitch period searching. Pitch searching time is reduced and pitch detection error, caused by quantization error of excitation signal of encoder in VSELP coder, is reduced by this method. This paper also adopts a pitch period enhancement filter and an adaptive first order filter. In this result, pitch period searching time is reduced to 26%, and MOS of reconstructed speech signal is increased by 3.19 to 4.04.

  • PDF

Acoustic Model Improvement and Performance Evaluation of the Variable Vocabulary Speech Recognition System (가변 어휘 음성 인식기의 음향모델 개선 및 성능분석)

  • 이승훈;김회린
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.8
    • /
    • pp.3-8
    • /
    • 1999
  • Previous variable vocabulary speech recognition systems with context-independent acoustic modeling, could not represent the effect of neighboring phonemes. To solve this problem, we use allophone-based context-dependent acoustic model. This paper describes the method to improve acoustic model of the system effectively. Acoustic model is improved by using allophone clustering technique that uses entropy as a similarity measure and the optimal allophone model is generated by changing the number of allophones. We evaluate performance of the improved system by using Phonetically Optimized Words(POW) DB and PC commands(PC) DB. As a result, the allophone model composed of six hundreds allophones improved the recognition rate by 13% from the original context independent model m POW test DB.

  • PDF

Improvement of VAD Performance for the Reduction of the Bit Rate Under the Noise Environment in the G.723.1 (잡음 환경에서의 전송률 감소를 위한 G.723.1 음성활동 검출기 성능 개선에 관한 연구)

  • 김정진;장경아;배명진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.3
    • /
    • pp.42-47
    • /
    • 2001
  • This paper improves the performance of VAD (Voice Activity Detector) in G.723.1 Annex A 6.3kbps/5.3kbps dual rate speech coder, which is developed for Internet Phone and videoconferencing. The VAD decision is based on a three-level energy threshold. We evaluates for processing time, speech quality, and bit rate. The processing time is reduced due to the accuracy of VAD decision on the silence period. On subjective quality test there is almost no difference compared with the G.723.1. In order to measure the bit rate we count the active speech frame (VAD=1) and we can reduce more bit rate as silence periods are shown.

  • PDF

A study on the improvement of generation speed and speech quality for a granularized emotional speech synthesis system (세밀한 감정 음성 합성 시스템의 속도와 합성음의 음질 개선 연구)

  • Um, Se-Yun;Oh, Sangshin;Jang, Inseon;Ahn, Chung-hyun;Kang, Hong-Goo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.453-455
    • /
    • 2020
  • 본 논문은 시각 장애인을 위한 감정 음성 자막 서비스를 생성하는 종단 간(end-to-end) 감정 음성 합성 시스템(emotional text-to-speech synthesis system, TTS)의 음성 합성 속도를 높이면서도 합성음의 음질을 향상시키는 방법을 제안한다. 기존에 사용했던 전역 스타일 토큰(Global Style Token, GST)을 이용한 감정 음성 합성 방법은 다양한 감정을 표현할 수 있는 장점을 갖고 있으나, 합성음을 생성하는데 필요한 시간이 길고 학습할 데이터의 동적 영역을 효과적으로 처리하지 않으면 합성음에 클리핑(clipping) 현상이 발생하는 등 음질이 저하되는 양상을 보였다. 이를 보안하기 위해 본 논문에서는 새로운 데이터 전처리 과정을 도입하였고 기존의 보코더(vocoder)인 웨이브넷(WaveNet)을 웨이브알엔엔(WaveRNN)으로 대체하여 생성 속도와 음질 측면에서 개선됨을 보였다.

  • PDF

Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding (저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상)

  • Lee, Chang-Heon;Kang, Hong-Goo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.29 no.1
    • /
    • pp.62-68
    • /
    • 2010
  • This paper proposes a new masking threshold adjustment strategy to improve the performance for speech signals in low bit-rate audio coding. After determining formant regions, the masking threshold is adjusted by using the energy ratio of each sub-band to the average energy of each formant. More quantization noises are added to the bands that have relatively large energy, but less distortion is allowed in spectral valley regions by allocating more bits, which reflects the concept of perceptual weighting widely used in speech coding. From the results of objective speech quality measure, we verified that the proposed method improves quality for the speech input signals compared to the conventional one.