• Title/Summary/Keyword: Unified Speech and Audio Coding(USAC)

Search Result 14, Processing Time 0.015 seconds

Fixed-point Implementation of LPD Decoder in MPEG-D USAC (MPEG-D USAC : LPD 복호화기의 고정 소수점 알고리즘 구현)

  • Song, Eunwoo;Song, Jeongook;Kang, Hong-Goo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.254-256
    • /
    • 2012
  • 본 논문에서는 MPEG-D 오디오 서브그룹에서 진행 중인 Unified Speech and Audio Coding (USAC) 표준의 Linear Prediction Domain (LPD) 복호화기 모듈을 고정소수점 알고리즘으로 제안한다. USAC 부호화기는 두 개의 최신 음성-오디오 부호화기가 융합된 형태로, 음성 및 오디오 신호에 대하여 우수한 성능을 갖는 부호화기이다. USAC의 표준 완료와 본격적인 서비스화에 앞서서 USAC LPD 복호화기의 구조적인 특성을 분석하고, Digital Signal Processor (DSP)구현을 위한 LPD 복호화기의 고정소수점 알고리즘을 구축하는 동시에 모듈의 복잡도를 측정하고자 한다. 또한 고정소수점 알고리즘으로 구현된 LPD 복호화기와 기존의 부동소수점 복호화기의 성능을 비교하고, LPD 복호화기의 두 가지 부호화 모드에 따른 복잡도 이슈를 다루도록 한다.

  • PDF

Speech/Mixed Content Signal Classification Based on GMM Using MFCC (MFCC를 이용한 GMM 기반의 음성/혼합 신호 분류)

  • Kim, Ji-Eun;Lee, In-Sung
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.50 no.2
    • /
    • pp.185-192
    • /
    • 2013
  • In this paper, proposed to improve the performance of speech and mixed content signal classification using MFCC based on GMM probability model used for the MPEG USAC(Unified Speech and Audio Coding) standard. For effective pattern recognition, the Gaussian mixture model (GMM) probability model is used. For the optimal GMM parameter extraction, we use the expectation maximization (EM) algorithm. The proposed classification algorithm is divided into two significant parts. The first one extracts the optimal parameters for the GMM. The second distinguishes between speech and mixed content signals using MFCC feature parameters. The performance of the proposed classification algorithm shows better results compared to the conventionally implemented USAC scheme.

Speech/Music Signal Classification Based on Spectrum Flux and MFCC For Audio Coder (오디오 부호화기를 위한 스펙트럼 변화 및 MFCC 기반 음성/음악 신호 분류)

  • Sangkil Lee;In-Sung Lee
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.16 no.5
    • /
    • pp.239-246
    • /
    • 2023
  • In this paper, we propose an open-loop algorithm to classify speech and music signals using the spectral flux parameters and Mel Frequency Cepstral Coefficients(MFCC) parameters for the audio coder. To increase responsiveness, the MFCC was used as a short-term feature parameter and spectral fluxes were used as a long-term feature parameters to improve accuracy. The overall voice/music signal classification decision is made by combining the short-term classification method and the long-term classification method. The Gaussian Mixed Model (GMM) was used for pattern recognition and the optimal GMM parameters were extracted using the Expectation Maximization (EM) algorithm. The proposed long-term and short-term combined speech/music signal classification method showed an average classification error rate of 1.5% on various audio sound sources, and improved the classification error rate by 0.9% compared to the short-term single classification method and 0.6% compared to the long-term single classification method. The proposed speech/music signal classification method was able to improve the classification error rate performance by 9.1% in percussion music signals with attacks and 5.8% in voice signals compared to the Unified Speech Audio Coding (USAC) audio classification method.

Unified Speech and Audio Coding Technology (통합 음성 오디오 부호화 기술)

  • Lee, Taejin;Beack, Seungkwon;Kang, Kyeongok;Kim, Whan-Woo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2011.07a
    • /
    • pp.264-267
    • /
    • 2011
  • 다양한 기능을 가지는 모바일 기기들이 하나로 융합되어 가는 방향으로 기술이 발전함에 따라, 음성 및 오디오 모두에 대해 우수한 음질을 제공하는 부호화 기술에 대한 요구사항이 증대되고 있다. MPEG 에서는 2008 년 10 월부터 MPEG-D USAC 기술에 대해 CfP 를 시작으로 본격적으로 표준화를 진행하고 있으며, 2011 년 3 월 96 차 미팅에서 Study on DIS 까지 승인하였다. 본 논문에서는 LPD 모드의 TCX 윈도우의 변경을 통한 USAC 성능향상 방법은 제안한다. TCX 프레임의 연결에 고정된 크기의 중첩만을 이용하는 현재의 방식과는 달리, 이전 TCX 모드와 다음 TCX 모드, transient 의 존재 유무에 따라 적절하게 TCX 윈도우 중첩크기를 조절하여 음악 특성 신호에 대해 LPD 모드의 음질을 개선할 수 있다.

  • PDF