• Title/Summary/Keyword: 무성음

Search Result 122, Processing Time 0.022 seconds

Unproved Speech Enhancement Algorithm employing Multi-band Power Subtraction and Wavelet Packets Decomposition (Multi-band Power Subtraction과 Wavelet Packets Decomposition을 이용한 개선된 음성 향상 방법)

  • Lee Yoon-Chang;Kwak Jeong-Hoon;Ahn Sang-Sik
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.31 no.6C
    • /
    • pp.589-602
    • /
    • 2006
  • 잡음은 음성과 관련된 시스템의 성능을 제한하는 주된 원인이기 때문에 음성향상과 관련된 연구는 꾸준히 계속되어왔다. 전통적인 음성향상 방법은 무성음과 잡음을 구분하지 알기 때문에 잡음제거 과정에서 무성음이 함께 제거되는 단점이 있으며, 웨이블릿 기반의 전통적인 잡음제거 방법은 각 대역마다 동일한 문턱값을 사용하기 때문에 시변 환경에서 성능이 떨어지는 단점이 있다. 이 단점들을 개선하기위해 다중대역 파워 차감법과 Perceptual 웨이블릿 패킷 분해를 이용한 웨이블릿 기반의 개선된 음성향상 방법을 제안한다. 전처리 과정으로 다중대역 파워 차감법을 사용하여 광대역 잡음을 제거하고 뮤지컬 잡음의 발생을 줄이며, psycho-acoustic 모델 기반 Perceptual 웨이블릿 패킷으로 신호를 분해한 후 각 웨이블릿 노드의 엔트로피 비율과 음성검출을 이용하여 무성음/유성음/잡음을 구분한다. 구분된 신호에 따라 각 웨이블릿 노드마다의 문턱값을 기준으로 웨이블릿 Shrinkage를 적용하여 잡음을 제거하고 무성음이나 파워가 작은 유성음이 제거되는 오류를 최소화한다. 또한 잡음 파워 추정 과정에 적응적으로 망각 계수를 선택하여 잡음 파워 추정 오류를 최소화한다.

A Study on Extracting Valid Speech Sounds by the Discrete Wavelet Transform (이산 웨이브렛 변환을 이용한 유효 음성 추출에 관한 연구)

  • Kim, Jin-Ok;Hwang, Dae-Jun;Baek, Han-Uk;Jeong, Jin-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.9B no.2
    • /
    • pp.231-236
    • /
    • 2002
  • The classification of the speech-sound block comes from the multi-resolution analysis property of the discrete wavelet transform, which is used to reduce the computational time for the pre-processing of speech recognition. The merging algorithm is proposed to extract vapid speech-sounds in terms of position and frequency range. It performs unvoiced/voiced classification and denoising. Since the merging algorithm can decide the processing parameters relating to voices only and is independent of system noises, it is useful for extracting valid speech-sounds. The merging algorithm has an adaptive feature for arbitrary system noises and an excellent denoising signal-to-noise ratio and a useful system tuning for the system implementation.

Enhancement Voiced/Unvoiced Sounds Classification for 3GPP2 SMV Employing GMM (3GPP2 SMV의 실시간 유/무성음 분류 성능 향상을 위한 Gaussian Mixture Model 기반 연구)

  • Song, Ji-Hyun;Chang, Joon-Hyuk
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.45 no.5
    • /
    • pp.111-117
    • /
    • 2008
  • In this paper, we propose an approach to improve the performance of voiced/unvoiced (V/UV) decision under background noise environments for the selectable mode vocoder (SMV) of 3GPP2. We first present an effective analysis of the features and the classification method adopted in the SMV. And then feature vectors which are applied to the GMM are selected from relevant parameters of the SMV for the efficient voiced/unvoiced classification. For the purpose of evaluating the performance of the proposed algorithm, different experiments were carried out under various noise environments and yields better results compared with the conventional scheme of the SMV.

An Efficient Pitch Estimation for IMBE (Improved Multi-band Excitation) Speech Coder (개량형 다중대역 여기 (IMBE: Improved Multi-band Excitation) 음성 부호기의 피치 예측 개선)

  • Na, Hoon;Jeong, Dae-Gwon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.20 no.3
    • /
    • pp.34-41
    • /
    • 2001
  • In an IMBE (Improved Multi-band Excitation) speech coder, initial pitch estimation occupies most of the total computing time for the coder due to complex cost function and exhaustive search over candidate pitches. Future frames in initial pitch estimation cause inevitable time delay. Therefore, it is difficult to implement a real-time coder. Furthermore, unvoiced frames use the unnecessary pitch estimation as in the voiced frames. In this paper, each frame is determined voiced or unvoiced by Dyadic Wavelet Transform (DyWT) and, then, initial pitch estimation is performed only for voiced frame. Therefore different pitch estimation algorithms are employed between voiced and unvoiced frames incurring reduced time delay at transmitter and receiver. Simulation result show that the relative complexity of initial pitch estimation is reduced by 23%, and the processing time decreases down to 1/10 ∼ 1/1l of the IMBE coder while speech quality is almost maintained.

  • PDF

On the Perceptual Cues to Voicing of English Word-Final Stops -Focusing on the consonantal features- (영어 어말 폐쇄음의 유.무성 인지 실마리에 관한 연구 -폐쇄음의 자음적 특징을 중심으로 -)

  • 고현주
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.89-92
    • /
    • 1998
  • 영어의 선행모음의 길이 특성이 어말 자음의 유.무성 인지에 어떤 영향을 미치는지에 관한 선행 연구의 후행연구로서 후행하는 폐쇄음의 자음적 특성은 어떠한 실마리로 적용하는지 한국어 화자들을 대상으로 한 인지실험을 통해 알아보았다. 실험결과, 한국어 모국어 화자들에게 어말 폐쇄음의 자음적 특성은 자음의 유.무성 인지에 중요한 실마리로 작용하지 못하고 있다는 사실을 알 수 있었다.

  • PDF

Implementation of MPEG-4 HVXC decoder with VHDL (VHOL을 이용한 MPEG-4 HVXC 복호화기 구현)

  • 김구용;임강희;차형태
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.465-468
    • /
    • 2001
  • MPEG-4 Parametric Coding 중 저 비트율로 음성신호를 부호화하는 HVXC(Harmonic Vector excitation Ending)의 복호화 모듈인 LSP 합성필터와 무성음 합성부, 유성음 합성부를 VHDL을 이용하여 구현하였다. MPEG-4 HVXC의 복호화 과정은 코드북을 이용하여 LSP 계수, VXC signal, 그리고 Spectral Envelop이 복호화 되어 각각 LSP 역필터, 무성음과 유성음 합성단을 통과하여 LPC계수와 유,무성음 여기신호로 변환된 후 LPC 합성필터링 과정을 거쳐 최종적으로 음성신호를 출력시킨다. LSP inverse filter에서 사용되는 cosine함수값을 위하여 Table based Approximation을 이용하여 적은 양의 Table 값을 사용하여 정확하고 고속의 cosine 연산을 수행하였다. VXC 복호화 과정에서는 신호의 중복성을 제거하는 Hidden Address in LSH 방법을 사용하여 코드북의 크기를 줄였다. 유성음 합성단에서는 IFFT 모듈을 이용하여 연산속도를 증가 시켰다. 최종적으로 위와 같이 구현된 시스템을 Simulation을 통해 Software 검증을 하였다.

  • PDF

Variable Rate IMBE-LP Coding Algorithm Using Band Information (주파수대역 정보를 이용한 가변률 IMBE-LP 음성부호화 알고리즘)

  • Park, Man-Ho;Bae, Geon-Seong
    • Journal of the Institute of Electronics Engineers of Korea SP
    • /
    • v.38 no.5
    • /
    • pp.576-582
    • /
    • 2001
  • The Multi-Band Excitation(MBE) speech coder uses a different approach for the representation of the excitation signal. It replaces the frame-based single voiced/unvoiced classification of a classical speech coder with a set of such decision over harmonic intervals in the frequency domain. This enables each speech segment to be a mixture of voiced and unvoiced, and improves the synthetic speech quality by reducing decision errors that might occur on the frame-based single voiced and unvoiced decision process when input speech is degraded with noise. The IMBE-LP, improved version of MBE with linear prediction, represents the spectral information of MBE model with linear prediction coefficients to obtain low bit rate of 2.4 kbps. In this Paper, we proposed a variable rate IMBE-LP vocoder that has lower bit rate than IMBE-LP without degrading the synthetic speech quality. To determine the LP order, it uses the spectral band information of the MBE model that has something to do with he input speech's characteristics. Experimental results are riven with our findings and discussions.

  • PDF

The Research of Improving The Performance of the G.723.1 MP-MLQ Vocoder (G.723.1 MP-MLQ 부호화기의 성능개선에 관한 연구)

  • Min SoYeon;Na DuckSn;Kim JeongJin;BAE MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.49-52
    • /
    • 1999
  • 4.8kbps 내외의 전송률에서 양호한 음질을 제공하는 CELP 계열 음성 부호화기 중에서 인터넷 폰 및 화상회의를 목적으로 개발된 G.723.1은 5.3kbps ACELP(Algebraic CELP)와 6.3kbps MP-MLQ(Multi-Pulse Maximum Likelihood Quantization) 두 개의 부호화기를 포함하고 있다[1]. 이 중 MP-MLQ는 고정 코드북 검색 시 많은 계산량으로 인해 실시간 구현에 어려움이 따르고 있다. 이러한 문제점을 개선하기 위해 본 논문에서는 유/무성음을 분리한 후 grid bit를 먼저 결정하여 코드북을 검색하는 방법 제안한다. LSP 파라미터의 분포특성을 이용하여 유/무성음을 분리한 후 무성음에 대해서는 스펙트럼 정보만 전송하고 유성음에 대해서만 코드북 검색을 수행한다. 그리고 코드북 검색 시 Grid bit를 먼저 결정하여 수행하였다. Grid bit는 짝/홀수번째 전체 펄스를 이용하여 합성한 합성음과 DC 성분이 제거된 원음과의 비교를 통하여 결정하였다. 실험 결과 전체 처리시간은 평균적으로 약 $20.55\%$ 감소하였으며 주관적 음질평가 결과 음질 열하는 거의 발생하지 않았다.

  • PDF

A Speech Synthesis System based on Cepstral Parameters and Multiband Excitation Signal (켑스트럼 파라미터와 다중대역 여기신호를 사용한 음성 합성 시스팀)

  • 김기순
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.211-215
    • /
    • 1995
  • 명료하고 자연스러운 한국어 음성을 생성하기 위하여 다중대역 여기신호를 이용한 음성 합성 시스팀을 제안한다. 분석계에서는 켑스트럼 파라미터를 사용하여 유성/무성 판별 스펙트럼을 이용한 유/무성 구간 자동판별법을 제안하고, 현재 단순 임펄스와 백색잡음만으로도 구성된 음원과 간단한 유성/무성 판별로 구동되어지는 합성음의 음질상의 한계를 개선하기 위하여 합성계에서는 음질개선 방안으로 유성음 구동시 다중대역 여기신호를 도입하여 합성시 이용한다. 제안된 방법에 대한 청취실험을 한 결과, 유성음 부분 특히 잡음이 많이 섞여 있는 유성음화 마찰음과 모음의 천이부분 등에서 일반적으로 사용되고 있는 간단한 유성/무성 파라미터를 사용한 합성음에 비하여 다중대역 여기신호를 사용한 합성음의 명료도가 매우 우수함을 확인하였다.

  • PDF

Segmental and prosodic environments and vowel devoicing in Korean (분절음적, 운율적 환경과 무성모음의 실현)

  • Shin Ji-Young;Chae Eun-Ae
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.309-312
    • /
    • 2002
  • 무성모음화 현상이 어떠한 분절음적, 운율적 환경에서 주로 실현되는가를 알아보기 위하여 선행자음의 분절음적 환경, 후행자음의 분절음적 환경, 해당 강세구의 음절수, 운율 구조상의 위치 등 모두 네 가지를 변수로 실험을 진행하였다. 모두 10명의 화자(남5, 여5)가 발화한 1140개의 자료에 나타난 행당 모음의 길이를 측정하는 방법으로 분석을 실시하였다. 그 결과 선행자음은 [+기식성]과 [+지속성]을 가진 환경이, 후행 자음은 [-지속정]과 [기식성]을 가진 환경이 무성모음화가 잘 일어나는 환경인 것으로 밝혀졌다. 음절수의 증가는 큰 영향을 주지 않는 것으로 보였고, 대체로 두 번째 강세구의 단어초에 위치하는 경우에 모음의 길이가 짧거나 무성모음화되는 경향이 관찰되었다.

  • PDF