• 제목/요약/키워드: Speech coding

검색결과 303건 처리시간 0.028초

심층 신경망을 이용한 음성 신호의 부호화 이력 검출 (Coding History Detection of Speech Signal using Deep Neural Network)

  • 조효진;장원;신성현;박호종
    • 방송공학회논문지
    • /
    • 제23권1호
    • /
    • pp.86-92
    • /
    • 2018
  • 본 논문에서는 디지털 음성 신호의 부호화 이력을 검출하는 방법을 제안한다. 음성 신호를 디지털 방식으로 전송 또는 저장할 때 데이터양을 줄이기 위해 부호화한다. 따라서 음성 신호 파형이 주어질 때, 해당 신호가 원본인지 부호화된 신호인지 판단하고, 만일 부호화 되었다면 부호화 횟수를 검출하는 부호화 이력 검출 과정이 필요하다. 본 논문에서는 12.2kbps 비트율의 AMR 부호화기에 대하여 원본, 단일 부호화, 이중 부호화 여부를 판단하는 부호화 이력 검출 방법을 제안한다. 제안한 방법은 입력 음성 신호에서 음성 고유의 특성 벡터를 추출하고, 해당 특성 벡터를 심층 신경망으로 모델링 하는 방법을 사용한다. 본 논문에서 제안하는 특성 벡터가 일반적인 스펙트로그램으로부터 추출한 특성 벡터보다 우수한 부호화 이력 검출 성능을 제공하는 것을 확인하였다.

서브밴드 스케일링에 의한 음성신호의 피치변경법에 관한 연구 (A Study on the Pitch Alteration Technique by Subband Scaling in Speech Signal)

  • 김영구;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.137-147
    • /
    • 2003
  • Speech synthesis can classify by synthesis way, that is waveform coding, source coding and mixture coding. Specially, waveform coding is suitable for high quality synthesis. However, it is not desirable by synthesis techniques of syllable or phoneme unit because it do not separate and handles excitation and formant part. Therefore, there is a need for pitch alteration method applied in synthesis by the rule in waveform coding. This study propose about pitch alteration method that use spectrum scaling after do to flatten spectra by subband linear approximation to minimize spectrum distortion. This paper show evaluation whether show excellency of some measure compared with LPC, Cepstrum, lifter function and method that propose. estimation method seeks distribution of each flattened signal and measured degree of flattened spectra Signal flattened is normalized, So that highest point amounts to zero, and distribution of signal ,whose average is zero, is calculated. this show result that measure the spectrum distortion rate to estimate performance of method that propose. The average spectrum distortion rate was kept below the average 2.12%, so the method that propose is superiors than existent method.

  • PDF

Adaptive Multi-Rate(AMR) 음성부호화 알고리즘 (Adaptive Multi-Rate(AMR) Speech Coding Algorithm)

  • 서정욱;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
    • /
    • pp.92-97
    • /
    • 2000
  • An AMR(Adaptive Multi-Rate) speech coding algorithm has been adopted as a standard speech codec for IMT-2000. It is based on the algebraic CELP, and consists of eight speech coding modes having the bit rate from 4.75 kbit/s to 12.2 kbit/s. It also contains the VAD(Voice Activity Detector), SCR (Source Controlled Rate) operation, and error concealment scheme for robustness in a radio channel. The bit rate of AMR is changed on a frame basis depending on the channel condition. In this paper, we introduced AMR speech coding algorithm and performed the real-time implementation using TMS320C6201, i.e., a Texas Instrument's fixed-point DSP. With the ANSI C source code released from ETSI and 3GPP, we convert and optimize the program to make it run in real time using the C compiler and assembly language. It is verified that the decoded result of the implemented speech codec on the DSP is identical with the PC simulation result using ANSI C code for test sequences. Also, actual sound input/output test using microphone and speaker demonstrates its proper real-time operation without distortions or delays.

  • PDF

16Kbps와 40Kbps의 Dual Rate G.723 ADPCM 음성 codec 구현 (Implementation of Dual Rate G.723 ADPCM Speech codec)

  • 김재오;한경호
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 하계학술대회 논문집 G
    • /
    • pp.2480-2482
    • /
    • 1998
  • In this paper, the implementation of dual rate ADPCM using G.723 16Kbps and 40Kbps speech codec algorithm is handled. For small signals, the low rate 16Kbps coding algorithm shows the same SNR as the high rate 40Kbps coding algorithm, while the low rate 16Kbps coding algorithm shows the lower SNR than the high rate 40Kbps coding algorithm for large signal. To obtain the good trade-off between the data rate and synthesized speech quality, we applied low rate 16Kbps for the small signal and high rate 40Kbps for the large signal. Various threshold values determining the rate are tested for good trade off data rate and speech quality. Also the low pass filter effect of speech input and output devices is simulated at several cut-off frequencies. To simulation result shows the good speech quality at a low rate comparing with 16Kbps & 40Kbps.

  • PDF

저전송률 오디오 부호화에서 음성 신호의 성능 개선을 위한 마스킹 임계값 적응기법 향상 (Enhanced Adjustment Strategy of Masking Threshold for Speech Signals in Low Bit-Rate Audio Coding)

  • 이창헌;강홍구
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.62-68
    • /
    • 2010
  • 본 논문에서는 기존 마스킹 임계값 적응 방식을 개선하여 저전송률 오디오 부호화에서 음성 신호에 대한 성능을 향상시킨다. 포먼트 영역 검색 이후, 각 포먼트 영역의 평균 에너지와 해당 서브밴드의 에너지 비율을 이용하여 마스킹 임계값을 변화시킨다. 상대적으로 에너지가 큰 밴드에 대해서는 더 많은 양자화 노이즈가 허용되는 반면, 청각적으로 민감한 스펙트럴 밸리에서는 비트 할당을 높여 양자화 에러를 좀 더 줄인다. 이는 음성 부호화에서 널리 사용되는 지각 가중(perceptual weighting) 개념을 반영한 것이다. 객관적 음질 평가 결과, 제안한 알고리즘이 기존 방식에 비해 음성 신호에 대한 성능을 향상시킨다는 것을 확인하였다.

Multi Mode Harmonic Transform Coding for Speech and Music

  • Kim, Jonghark;Shin, Jae-Hyun;Lee, Insung
    • The Journal of the Acoustical Society of Korea
    • /
    • 제22권3E호
    • /
    • pp.101-109
    • /
    • 2003
  • A multi-mode harmonic transform coding (MMHTC) for speech and music signals is proposed. Its structure is organized as a linear prediction model with an input of harmonic and transform-based excitation. The proposed coder also utilizes harmonic prediction and an improved quantizer of excitation signal. To efficiently quantize the excitation of music signals, the modulated lapped transform(MLT) is introduced. In other words, the coder combines both the time domain (linear prediction) and the frequency domain technique to achieve the best perceptual quality. The proposed coder showed better speech quality than that of the 8 kbps QCELP coder at a bit-rate of 4 kbps.

Wavelet Packet을 이용한 Network 상의 음성 코드에 관한 연구 (A Study of Speech Coding for the Transmission on Network by the Wavelet Packets)

  • 백한욱;정진현
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2000년도 하계학술대회 논문집 D
    • /
    • pp.3028-3030
    • /
    • 2000
  • In general. a speech coding is dedicated to the compression performance or the speech quality. But. the speech coding in this paper is focused on the performance of flexible transmission to the, network speed. For this. the subbanding coding is needed. which is used the wavelet packet concept in the signal analysis. The extraction of each frequency-band is difficult to general signal analysis methods, after coding each band, the reconstruction of these is also a difficult problem. But. with the wavelet packet concept(perfect reconstruction) and its fast computation algorithm. the extraction of each band and the reconstruction are more natural. Also, this paper describes a direct solution of the voice transmission on network and implement this algorithm at the TCP/IP network environment of PC.

  • PDF

포만트 유사도 측정에 의한 PSOLA 음성 부호화에 관한 연구 (On a study on PSOLA coding technique based on the measurement of formant similarity)

  • 나덕수;이희원;김규홍;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.607-610
    • /
    • 1998
  • The major objectives of speech coding include high compression ratio for transmission in the band limited channel, high synthesized speech quality in terms of the intelligibility and the naturalness and fast processing speed. In general, speech coding methods are classified into the following three categories: the wavelform coding, the source coding and the hybird coding. In this paper, we proposed a new waveform coding method using PSOLA(pitch-synchronous overlap add) technique. First, we fixed one basic waveform per pitch and measured the formant similarity between basic and neighbor waveform. Second, if the similairy satisfied threshold values, we compress the neighbor waveform per pitch and then store or transmit. When the comparession is about 45%, we obtained about 4 in MOS.

  • PDF

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 한국통신학회논문지
    • /
    • 제27권3A호
    • /
    • pp.196-204
    • /
    • 2002
  • STC(Sinusoidal Transform Coding) 방식은 주파수 영역에서 음성신호의 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 음성부호화 방식을 말한다. 저전송률 STC 방식에서는 스펙트럼의 모든 피크를 이용하는 대신, 기본 주파수와 고조파에 해당하는 스펙트럼 포락선에서의 크기와 그때의 위상을 이용하여 음성을 합성한다. 본 논문에서는 정현파 모델에 기반한 2.4kbps 음성부호화 알고리즘을 제안한다. 피치정보는 모든 스펙트럼 피크를 사용한 합성음과 선택된 주파수와 고조파를 이용한 합성음과의 평균자승에러를 이용하여 추정하고, 위상정보는 여기신호 펄스의 시작시기를 나타내는 onset time과 성도 모델 전달함수의 위상을 이용하여 얻는다. 크기정보는 SEEVOC 알고리즘과 선형예측계수를 이용하여 추정한다. 실험결과, 합성음의 스펙트럼 특성은 원음성의 포만트 정보를 대부분 가지고 있으며, 위상정보도 원음성의 위상을 잘 따라감을 확인하였다. 합성음의 음질평가를 위해서 informal한 MOS(Mean Opinion Score) 테스트를 시행하였으며, 2.0kbps의 HVXC와 비교하여 대체적으로 MOS 3.1 이상의 음질을 얻을 수 있었다.

음성부호화 방식에 있어서 FIR-STREAK 필터를 사용한 개별 피치펄스에 관한 연구 (A Study on Individual Pitch Pulse using FIR-STREAK Filter in Speech Coding Method)

  • 이시우
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.65-70
    • /
    • 2004
  • 본 연구에서는 음성부호화 방식에서 피치추출 오류를 줄이고 피치간격의 변위에 적응할 수 있도록 피치간격을 정규화하지 않은 개별 피치펄스 추출법을 제안하였다. 개별피치 펄스의 추출율은 남자음성에서 $96\%$, 여자음성에서 $85\%$를 얻을 수 있었으며, 이 방법은 음성부호화방식, 음성분석, 음성합성, 음성인식 등에 활용할 수 있을 것으로 기대된다.

  • PDF