• 제목/요약/키워드: speech distortion

검색결과 227건 처리시간 0.022초

V/S/TSIUVC를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by Using V/S/TSIUVC)

  • 이시우
    • 한국멀티미디어학회논문지
    • /
    • 제7권9호
    • /
    • pp.1233-1239
    • /
    • 2004
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭, 개별피치 펄스와 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 95.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

음성신호 압축 및 복원을 위한 음성 천이구간 검출과 근사합성 방식 (Speech Transition Detection and approximate-synthesis Method for Speech Signal Compression and Recovery)

  • 이광석;김봉기;강성수;김현덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • /
    • pp.763-767
    • /
    • 2008
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우 음질의 왜곡을 수반할 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 위해서 무성자음을 탐색 및 검출을 포함하는 천이구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였다 결과적으로 이 방식은 0.547kHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 중요한 것은 최대 오류신호는 TS내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성합성에 적용할 수 있으리라 생각한다.

  • PDF

천이구간 추출 및 근사합성에 의한 음성신호 압축과 복원 (Speech Signal Compression and Recovery Using Transition Detection and Approximate-Synthesis)

  • 이광석;이병로
    • 한국정보통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.413-418
    • /
    • 2009
  • 유 무성음의 음원을 이용한 음성부호화 시스템에서는 프레임 내에 유성자음과 무성자음이 공존하는 경우에 음질왜곡을 일으킬 수 있다. 따라서 프레임 내에 유성자음과 무성자음이 공존하지 않도록 하기 방법으로써 무성자음을 탐색하고 검출을 포함하는 천이 구간을 제안하였다. 본 연구는 최소 자승법과 주파수 대 역 분할법을 사용함으로써 TS 근사합성의 새로운 방식을 제시하였으며 결과적으로 이는 0.547KHz이하와 2.813kHz 이상에서의 주파수 정보를 이용함으로써 TS내에서 고품질의 근사합성 파형을 얻을 수 있었다. 보다 중요한 것은 최대 오류신호는 TS 내에 저 왜곡 근사 합성파형이 생길 수 있다는 것이다. 이 방식은 유성음/묵음/TS의 새로운 음성부호화, 음성해석 및 음성 합성에 적용할 수 있으리라 생각한다.

잡음환경및 채널왜곡에 강인한 ARS용 전화음성인식 방식 연구 (The Development of a Speech Recognition Method Robust to Channel Distortions and Noisy Environments for an Audio Response System(ARS))

  • 안정모;임계종;계영철;구명완
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.41-48
    • /
    • 1997
  • 본고는 음성인식 기능이 추가된 음성응답장치(ARS)의 음성 인식률을 향상시키는 방법을 제안한다. ARS에 입력되는 전화음성은 안내방송, 전화잡음, 그리고 채널왜곡에 의하여 영향을 받기 때문에, 양질의 음성을 대상으로 하여 개발된 인식 알고리듬을 그대로 적용하면 상당한 인식률의 저하를 가져오게 된다. 이러한 문제점을 극복하기 위하여 본고에서는 세 가지 방법을 제안한다: 1)음성이 시작되는 순간 안내 방송을 즉시 끊기 위한 음성 입력순간의 정확한 검출, 2)Teager 에너지를 이용한 잡음 섞인 전화음성의 효과적인 끝점검출, 3)SDCN 알고리듬을 이용한 채널왜곡의 보상. 위의 세 가지 방법을 모두 결합하여 화자독립인 전화음성을 대상으로 실험한 결과, 기존의 방법이 약 23%의 인식률을 보인 반면, 제안된 방식은 약 77%의 인식률로서 상당한 성능향상을 보여주었다.

  • PDF

V/S/TSIUVC 스위칭을 이용한 음성부호화 방식에 관한 연구 (A study on Speech Coding Method using V/S/TSIUVC Switching)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제7권6호
    • /
    • pp.1180-1184
    • /
    • 2006
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서 모음과 무성자음이 있는 프레임에서 음질저하 현상이 나타난다. 본 논문에서는 음질을 개선하기 위해 V/S/TSIUVC 스위칭과 TSIUVC 근사합성 방법을 사용한 새로운 멀티펄스 음성부호화 방식을 제시한다. TSIUVC는 영교차율과 개별피치 펄스에 의하여 추출되며, TSIUVC의 추출율은 여자와 남자음성에서 각각 91%와 96.2%를 얻었다. 여기에서 중요한 사실은 양질의 TSIUVC 합성 파형을 얻기 위해서는 0.547kHz 이하와 2.813kHz 이상의 주파수 정보를 사용하여야 한다. V/UV를 이용한 MPC와 V/S/TSIUVC를 이용한 FBD-MPC의 비교평가를 하였다. 실험결과, FBD-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

  • PDF

4800bps CELP 음성 부호화기에 적용한 대역폭 확장에 관한 연구 (A Study on the Bandwidth Extension Adopted for 4800 bps CELP Speech Coder)

  • 박진수;김형순
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.175-178
    • /
    • 2002
  • Most existing telephone networks transmit narrowband speech witch has been bandlimited below 4 kHz. Compared with wideband speech up to 8 kHz, narrowband speech shows reduced intelligibility and a muffled quality. Bandwidth extension is a technique to generate wideband speech by reconstructing 4-8 kHz highband speech without any additional information. This paper presents experimental results of the bandwidth extension adopted for 4800 bps CELP speech coder. In this experiment, we examine various methods for reconstruction of wideband spectrum and excitation signal, compare and analyze their performance by performing the subjective preference test and measuring the cepstral distortion.

  • PDF

Harmonics-based Spectral Subtraction and Feature Vector Normalization for Robust Speech Recognition

  • Beh, Joung-Hoon;Lee, Heung-Kyu;Kwon, Oh-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권1호
    • /
    • pp.7-20
    • /
    • 2004
  • In this paper, we propose a two-step noise compensation algorithm in feature extraction for achieving robust speech recognition. The proposed method frees us from requiring a priori information on noisy environments and is simple to implement. First, in frequency domain, the Harmonics-based Spectral Subtraction (HSS) is applied so that it reduces the additive background noise and makes the shape of harmonics in speech spectrum more pronounced. We then apply a judiciously weighted variance Feature Vector Normalization (FVN) to compensate for both the channel distortion and additive noise. The weighted variance FVN compensates for the variance mismatch in both the speech and the non-speech regions respectively. Representative performance evaluation using Aurora 2 database shows that the proposed method yields 27.18% relative improvement in accuracy under a multi-noise training task and 57.94% relative improvement under a clean training task.

  • PDF

잡음 데이터를 활용한 음성 기저 행렬과 NMF 기반 음성 향상 기법 (Speech Basis Matrix Using Noise Data and NMF-Based Speech Enhancement Scheme)

  • 권기수;김형용;김남수
    • 한국통신학회논문지
    • /
    • 제40권4호
    • /
    • pp.619-627
    • /
    • 2015
  • 본 논문은 비음수 행렬 인수분해(NMF)를 이용한 음성향상 기법을 다루고 있다. 음성과 잡음에서 적절한 훈련을 통해 각각의 기저(basis) 행렬을 구하고 이 행렬들을 이용하여 두 음원을 분리 하는 것이다. 그 중에서도 음성향상의 성능은 사용하게 되는 기저 행렬에 따라 크게 달라짐을 보인다. 기존의 독립적으로 구한 음성 기저 행렬에 비해서, 잡음 데이터를 복원하는데 부적합한 방향으로 최적화시킨 음성 기저 행렬을 사용하였을 때 더 높은 음성향상 성능을 보임을 실험으로 확인하였다. 이 때 잡음 데이터의 복원 오차 자체를 크게 해주는 방향과 해당 인코딩 행렬(encoding matrix) 원소의 값을 작게 해주는 두 가지 방법을 적용하여 비교하였다. 좀 더 음성 복원에만 특화된 기저 행렬을 구함으로서 음성 기저 행렬이 잡음 데이터 복원에 사용되는 것을 최소화 하였다. 실험 결과에서는 perceptual evaluation speech quality값과 signal to distortion ratio를 지표로 사용하였고, 기존 기법에서 사용하는 기저 행렬 보다 더 높은 성능을 보임을 확인 하였다.

Low Complexity Vector Quantizer Design for LSP Parameters

  • Woo, Hong-Chae
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권3E호
    • /
    • pp.53-57
    • /
    • 1998
  • Spectral information at a speech coder should be quantized with sufficient accuracy to keep perceptually transparent output speech. Spectral information at a low bit rate speech coder is usually transformed into corresponding line spectrum pair parameters and is often quantized with a vector quantization algorithm. As the vector quantization algorithm generally has high complexity in the optimal code vector searching routine, the complexity reduction in that routine is investigated using the ordering property of the line spectrum pair. When the proposed complexity reduction algorithm is applied to the well-known split vector quantization algorithm, the 46% complexity reduction is achieved in the distortion measure compu-tation.

  • PDF

Block Constrained Trellis Coded Vector Quantization of LSF Parameters for Wideband Speech Codecs

  • Park, Jung-Eun;Kang, Sang-Won
    • ETRI Journal
    • /
    • 제30권5호
    • /
    • pp.738-740
    • /
    • 2008
  • In this paper, block constrained trellis coded vector quantization (BC-TCVQ) is presented for quantizing the line spectrum frequency parameters of the wideband speech codec. Both a predictive structure and a safety-net concept are combined into BC-TCVQ to develop the predictive BC-TCVQ. The performance of this quantization is compared with that of the linear predictive coding vector quantizer used in the AMRWB codec, demonstrating reductions in spectral distortion.

  • PDF