• 제목/요약/키워드: Speech coding

검색결과 303건 처리시간 0.031초

8kbps에 있어서 ACFBD-MPC에 관한 연구 (A Study on ACFBD-MPC in 8kbps)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제17권7호
    • /
    • pp.49-53
    • /
    • 2016
  • 최근 무선네트워크의 효율을 높이기 위하여 신호압축 방식의 사용이 증가되고 있다. 특히, MPC 시스템은 비트율을 줄이기 위하여 피치추출 방법과 유성음과 무성음의 음원을 사용하였다. 일반적으로, 유성음원과 무성음원을 사용하는 MPC 시스템에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 재생 음성파형에 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성파형이 정규화 되는 것이 원인으로 작용한다. 본 논문에서는 재생 음성파형의 일그러짐을 제어하기 위하여 피치구간 마다 멀티펄스의 진폭을 보정하고, 특정 주파수를 이용하는 ACFBD-MPC(Amplitude Compensation Frequency Band Division-Multi Pulse Coding)를 제안하였다. 실험은 남자와 여자음성에서 각각 16개의 문장을 사용하였으며, 음성신호는 10kHz 12bit로 A/D 변환하였다. 또한 8kbps의 부호화 조건에서 ACFBD-MPC 시스템을 구현하고, ACFBD-MPC의 SNR를 평가하였다. 그 결과 ACFBD-MPC의 남자 음성에서 14.2dB, 여자 음성에서 13.6dB 임을 확인할 수 있었으며, ACFBD-MPC가 기존의 MPC에 비하여 남자음성에서 1dB, 여자음성에서 0.9dB 개선되는 것을 알 수 있었다. 이 방법은 셀룰러폰이나 스마트폰과 같이 낮은 비트율의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

멀티펄스의 진폭보정에 관한 연구 (A Study on Compensation of Amplitude in Multi Pulse)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제12권9호
    • /
    • pp.4119-4124
    • /
    • 2011
  • 유성음원과 무성음원을 사용하는 멀티펄스 음성부호화 방식에 있어서, 음성신호의 진폭이 증가하거나 감소하는 경우에 음성 파형에 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성신호가 정규화되는 것이 원인으로 작용한다. 이것을 해결하기위하여 본 논문에서는 피치구간마다 멀티펄스의 진폭을 보정하는 방법(AC-MPC)을 제시하였으며, 기존의 MPC와 멀티펄스 진폭을 보정한 AC-MPC의 SNRseg를 평가한 결과, AC-MPC의 남자음성에서 0.7dB, 여자음성에서 0.7dB 개선된 것을 확인할 수 있었다. 결국, MPC에 비해 AC-MPC의 SNRseg가 개선되어 음성파형의 일그러짐을 제어할 수 있었으며, 본 방법은 셀룰러폰이나 스마트폰과 같이 Low Bit Rate의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

음성신호에서 천이구간의 근사합성에 관한 연구 (A Study on Approximation-Synthesis of Transition Segment in Speech Signal)

  • 이시우
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.167-173
    • /
    • 2005
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음질저하현상이 나타난다. 본 논문에서는 같은 프레임 안에 유성음과 무정자음이 같이 존재하지 않도록 Zero Crossing Rate과 개별피치 펄스를 사용하여 무성자음을 포함한 천이구간을 추출하는 방법과 주파수대역을 분할하여 TSIUVC를 근사합성하는 방법을 제안한다. 실험결과, 0.547kHz 이하 2.813kHz 이상의 주파수 정보를 사용하여 TSIUVC 음성파형을 양호하게 근사합성 할 수 있었으며, TSIUVC의 추출율은 여자와 남자음성에서 각각 $91\%$$96.2\%$를 얻었다. 이 방법은 음성합성, 음성분석, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.

  • PDF

MPEG 오디오의 채널 확장 기술 (Channel Expansion Technology in MPEG Audio)

  • 방희석
    • 방송공학회논문지
    • /
    • 제16권5호
    • /
    • pp.714-721
    • /
    • 2011
  • MPEG 오디오에서는 오디오 신호의 효율적인 압축을 위해서 마스킹 효과, spectral band replication을 이용한 고주파 성분 합성, parametric stereo를 이용한 채널 확장 등의 기술을 이용하고 있다. 본 논문에서는 이 중 최신 기술에 해당하는 채널 확장 기술에 대해서 소개한다. 또한, MPEG 오디오 코덱 중 이 기술을 이용하는 HE-AAC v.2, MPEG Surround, Spatial Audio Object Coding(SAOC), Unified Speech and Audio Coding (USAC)에 대해 기술 소개 및 방송의 적용 예를 기술한다.

Time-Domain Quantization and Interpolation of Pitch Cycle Waveform

  • Kim, Moo-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • 제27권1E호
    • /
    • pp.11-16
    • /
    • 2008
  • In this paper, a pitch cycle waveform (PCW) is extracted, quantized, and interpolated in a time domain to synthesize high-quality speech at low bit rates. The pre-alignment technique is proposed for the accurate and efficient PCW extraction, which predicts the current PCW position from the previous PCW position assuming that pitch periods evolve slowly. Since the pitch periods are different frame by frame, the original PCW is converted into the fixed-dimension PCW using the dimension-conversion method, and subsequently quantized by code-excited linear predictive (CELP) coding. The excitation signal for the linear predictive coding (LPC) synthesis filter is generated using the time-domain interpolation and interlink of the quantized PCW's. The coder operates at 4.2 kbit/s and 3.2 kbit/s depending on the pitch period. Informal listening test demonstrates the effectiveness of the proposed coding scheme.

개별 피치펄스를 이용한 멀티펄스 음성부호화 방식에 관한 연구 (A Study on Multi-Pulse Speech Coding Method by using Individual Pitch Pulses)

  • 이시우
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.977-982
    • /
    • 2004
  • 본 연구에서는 피치추출 오류를 줄이고 피치간격의 변위에 적응할 수 있도록 피치간격을 정규화하지 않은 개별피치 펄스를 이용한 새로운 멀티펄스 음성부호화 방식(띤-MPC)을 제안하였다. 여기에서, 개별피치 펄스의 추출률은 남자음성에서 96 여자음성에서 85%를 얻을 수 있었으며, 개별피치 펄스를 이용한 IP-MPC와 자기상관법의 피치정보를 이용한 MPC를 평가한 결과, IP-MPC의 음질이 MPC의 음질에 비하여 상당히 개선되었음을 알 수 있었다.

On a Cepstral Pitch Alteration Technique for Prosody Control in the Speech Synthesis System with High Quality

  • Kim, Kyu-Hong;Baek, Seong-Joon;Bae, Myung-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • 제18권1E호
    • /
    • pp.32-36
    • /
    • 1999
  • In the area of the speech synthesis techniques, the waveform coding methods maintain the intelligibility and naturalness of synthetic speech. In order to apply the waveform coding techniques to synthesis by rule, we must be able to alter the pitches of synthetic speech. In this paper, we propose a new pitch altering method that compensates phase distortion of the cepstral pitch alteration method with time scaling method in the time domain. This method can remove some spectrum distortion which is occurred in conjunction point between the waveforms. For performance test the spectrum distortion rate was used as objective criterion and the MOS(Mean Opinion Score) was used as subjective criterion. As a result, the spectrum distortion and MOS are obtained by 0.66% and 3.9, respectively.

  • PDF

청각 장애인을 위한 음성 신호의 자극패턴 추출에 관한 연구 (A Research on Speech Processing and Coding Strategy for Cochlear Implants)

  • 채대곤;변정근;최두일;백승화;박상희
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1993년도 추계학술대회
    • /
    • pp.175-179
    • /
    • 1993
  • A Study on the speech processing and coding strategy for cochlear implants have been developed to create a speech signal processing system which extracts stimulus parameter including formants, pitch, amplitude information. In this study we have presented the method which extracts characteristic information of speech signal and adapt patients with hearing handicap.

  • PDF

IMT-2000에서 음성 전송을 위한 터보 코드 복호기 설계 (Design of A Turbo-code Decoder for Speech Transmission in IMT-2000)

  • 강태환;박성모
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 추계종합학술대회 논문집(2)
    • /
    • pp.273-276
    • /
    • 2000
  • Recently, Turbo code has been considered for channel coding in IMT-2000(International Mobile Telecommunication-2000) system, because it offers better error correcting capability than the traditional convolution/viterbi coding . In this paper, a turbo code decoder for speech transmission in IMT-2000 system with frame size 192 bits, constrait length K=3, generator polynomials G(5,7) and code rate R=1/3 is designed using SOVA(Soft Output Viterbi Algorithm) and block interleaver

  • PDF

최소 자승법을 이용한 TSIUVC 근사합성법에 관한 연구 (A Study on TSIUVC Approximate-Synthesis Method using Least Mean Square)

  • 이시우
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.223-230
    • /
    • 2002
  • 유성음원과 무성음원을 사용하는 음성부호화 방식에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 음성 파형에 일그러짐이 나타난다. 본 논문에서는 최소 자승법을 적용한 새로운 TSIVUC 근사합성법을 제시하였다. 이 방법에서 TSlUVC의 추출에는 zero crossing rate과 FIR-STREAK 필터의 잔차신호를 이용한 개별피치 추출 알고리즘을 사용하였다. 실험결과, 최소 자승법을 적용하여 양호한 TSIUVC 근사합성 파형을 얻을 수 있었다. 또한 최대 오타신호에 있어서의 주파수 신호가 일그러짐이 적은 근사합성 파형에 중요한 역할을 한다는 것이다. 이 방법은 음성합성, 음성분석, 새로운 Voiced/Silence/TSIUVC의 음성부호화 방식에 활용할 수 있을 것으로 기대된다.