• 제목/요약/키워드: Speech and audio coding

검색결과 37건 처리시간 0.025초

Adaptive TCX Windowing Technology for Unified Structure MPEG-D USAC

  • Lee, Tae-Jin;Beack, Seung-Kwon;Kang, Kyeong-Ok;Kim, Whan-Woo
    • ETRI Journal
    • /
    • 제34권3호
    • /
    • pp.474-477
    • /
    • 2012
  • The MPEG-D unified speech and audio coding (USAC) standardization process was initiated by MPEG to develop an audio codec that is able to provide consistent quality for mixed speech and music contents. The current USAC reference model structure consists of frequency domain (FD) and linear prediction domain (LPD) core modules and is controlled using a signal classifier tool. In this letter, we propose an LPD single-mode USAC structure using an adaptive widowing-based transform-coded excitation module. We tested our system using official test items for all mono-evaluation modes. The results of the experiment show that the objective and subjective performances of the proposed single-mode USAC system are better than those of the FD/LPD dual-mode USAC system.

ITU-T G.729/G.729E와 호환성을 갖는 광대역 음성/오디오 부호화기 (A New Wideband Speech/Audio Coder Interoperable with ITU-T G.729/G.729E)

  • 김경태;이민기;윤대희
    • 대한전자공학회논문지SP
    • /
    • 제45권2호
    • /
    • pp.81-89
    • /
    • 2008
  • 광대역 신호는 16 kHz로 표본화되어 50-7000 Hz로 밴드 제한된 신호를 말하며, 전화대역 음성 신호에 비해서 높은 자연성(naturalness)과 명료성(intelligibility)을 가진다. 이런 특징으로 광대역 부호화기는 화상회의, 디지털 AM 방송 및 고음질 음성통신 등에 사용될 수 있다. 본 논문에서는 가변대역 특징을 갖는 광대역 음성 오디오 부호화기를 제안하였다. 제안된 부호화기는 대역분한 구조를 가진다. 저주파 대역은 전화대역 음성 부호화기로 많이 사용되고 있는 8 kbit/s ITU-T G.729나 보다 높은 전송률로 오디오 신호까지 처리할 수 있는 11.8 kbit/s ITU-T G.729 Annex E로 부호화한다. 고주파 대역은 청각 모델을 기반으로 한 파라미터 부호화 방법으로 부호화한다. 제안된 고주파 대역 부호화는 감마톤 필터뱅크(gammatone filterbank)를 이용하여 입력신호를 임계대역으로 분할한 후, 각각의 임계대역 신호를 양자화한다. 저주파 대역 부호화기와 고주파 대역 부호화기는 서로 독립되어 있으므로, 복호화기에서는 채널 조건에 따라 전화대역 합성신호와 광대역 합성신호를 선택할 수 있는 특징이 있다. 성능 평가 결과, 제안된 부호화기는 낮은 전송률과 짧은 지연 시간으로 음성과 오디오 신호 모두에 대해 ITU-T G.722.1 24 kbit/s와 동등한 음질을 제공한다는 것을 확인하였다.

다중밴드 양자화를 적용한 USAC 부호화 기술

  • 백승권;임우택;이태진
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.329-332
    • /
    • 2020
  • 본 논문은 USAC(Unified Speech and Audio Coding) 오디오 부호화 기술의 성능 개선에 관련한 것이다. USAC 은 FD(Frequency domain) 양자화 모듈과 LPD(Linear prediction domain) 양자화 모듈을 탑재하고 있다. 본 논문에서는 LPD 모드로부터 생성되는 잔차신호에 대하여 주파수 영역에서 다중밴드로 분할하고 각 밴드 별 양자화를 독립적으로 수행함으로써 USAC 의 LPD 모드의 양자화 효율을 개선하였다. 그 결과 동일 조건에서 제안방법이 기존의 LPD 모드의 성능을 음질 측면에서 향상시킴을 확인할 수 있었다.

  • PDF

SBR을 이용한 주파수 밴드선택 여기 선형예측 광대역 음성/오디오 부호화 (Frequency Band Selection Exited Linear Prediction Wideband Speech/Audio Coding Using SBR)

  • 장성훈;이인성
    • 한국음향학회지
    • /
    • 제32권6호
    • /
    • pp.556-562
    • /
    • 2013
  • 본 논문은 컴포트 노이즈(comfort noise)를 이용하는 주파수 밴드선택 음성/오디오 코덱에서 컴포트 노이즈 대신 SBR(Spectral Band Replication) 기술을 이용하여 여기 신호를 대체 함으로서 밴드 선택 광대역 음성/오디오 부호화기의 성능 향상을 목표로 한다. 비 전송 밴드에 SBR 기술로 합성된 신호를 삽입하기 위하여 부밴드 별로 전송된 신호를 활용하며, 각각의 부밴드 별로 에너지 가중치를 설정한다. 백색잡음 성분의 컴포트 노이즈 대신 전송신호에 의존하는 신호를 합성 함으로서 보다 높은 음질의 밴드 선택 부호화기를 제안하였다.

압축율 변화에 따른 멀티채널 오디오의 품질 및 Predistortion 의 영향 평가 (Quality Assessment and Predistortion Evaluation of the Multi-channel Audio Codec according to the bitrate changing)

  • 차경환;장대영;김성한;김천덕
    • 한국음향학회지
    • /
    • 제15권2호
    • /
    • pp.55-60
    • /
    • 1996
  • 본 논문에서는 멀티채널 오디오의 전송 및 재생에 있어서 압축율 변화에 따른 음질의 주관 평가와 matrixing과 dematrixing 과정에서 발생하는 가청잡음을 보상해 주는 predistortion 의 영향을 평가하였다. 시뮬레이션은 지각 부호화를 이용하는 MPEG-2 오디오 계층2의 알고리즘을 사용하였으며, 압출율은 384, 320, 256, 128kbps로 변화시키면서 predistortion 의 유/무에 따른 음질의 영향을 평가하였다. double blind 법에 의한 주관 평가 결과 3/2채널에서 5점 열화척도가 320kbps까지는 -1이하로 원음과 차이가 없거나 거슬리지 않는 것으로 평가되었으며, predistortion의 영향은 128kbps에서 척도1정도 품질이 향상되었으며, 특히 음성시료가 음악시료보다 더욱 향상된 결과를 얻었다.

  • PDF

심층 신뢰 신경망을 이용한 오푸스 코덱 기반 인공 음성 대역 확장 기술 (Artificial speech bandwidth extension technique based on opus codec using deep belief network)

  • 최윤상;이아성;강상원
    • 한국음향학회지
    • /
    • 제36권1호
    • /
    • pp.70-77
    • /
    • 2017
  • 대역폭 확장 기술은 300 ~ 3,400 Hz 대역의 협대역 음성 신호를 50 ~ 7,000 Hz 대역의 광대역 음성신호로 확장하여 음질, 명료도, 그리고 자연성을 높이는 기술이다. 본 논문에서는 협대역 음성 정보를 이용하여 광대역 음성신호를 추정하는 인공 대역폭 확장 기술을 설계하여, 오푸스(Opus) 오디오 복호화기에 내장시킴으로써, 대역폭 확장 모듈에서의 LPC(Linear Prediction Coding) 분석 및 LSF(Line Spectral Frequencies) 해석과 관련된 계산량을 감소시켰고 알고리즘 지연도 줄였다. 이를 위해 현재 다양한 분야에 적용되고 있는 딥 러닝 기술 중 하나인 심층 신뢰 신경망(Deep Belief Network, DBN) 방식을 스펙트럼 포락선 확장에 도입하여 전통적인 코드북 매핑법보다 더 좋은 품질의 스펙트럼을 만들 수 있었다.

TeakLite DSP를 이용한 적응형 다중 비트율 광대역 (AMR-WB) 음성부호화기의 실시간 구현 (Real-time Implementation of AMR-WB Speech Codec Using TeakLite DSP)

  • 정희범;김경수;한민수;변경진
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.262-267
    • /
    • 2004
  • 적응형 다중 비트율 광대역 (AMR-WB) 음성부호화기는 50∼7000 Hz의 오디오 신호를 압축/복원하는 3GPP의 가장 최근의 음성 부호화 표준으로써 23.85 kbit/s에서 6.60 kbit/s까지 9가지의 다중 비트율을 가지고 있다. 본 논문에서는 16비트 고정 소수점형 TeakLite DSP를 이용하여 AMR WB 음성부호화기를 실시간 구현한 결과에 대해 기술하였다. 구현된 AMR-WB 보코더는 가장 높은 비트율인 23.85 kbit/s모드에서 52.2 MIPS의 복잡도를 가지고 있으며, 사용된 프로그램 메모리는 약 17.9 kwords 이고, 데이터 RAM 메모리는 11.8 kwords, 데이터 ROM 메모리는 약 10.1 kwords 이다. 구현된 AMR-WB 프로그램은 3GPP의 표준시험 벡터 23개를 9개 모드에 대해 비트 단위로 일치시켜 검증을 완료하고, 실시간 보드 시험에서도 오디오 신호의 입출력이 왜곡되지 않고 실시간 지연없이 안정적으로 동작하는 것을 확인하였다.

음악 및 음성 신호의 융합 압축 기술 (Unified coding scheme of speech and music)

  • 오은미
    • 방송과미디어
    • /
    • 제16권4호
    • /
    • pp.59-71
    • /
    • 2011
  • 오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

MFCC를 이용한 GMM 기반의 음성/혼합 신호 분류 (Speech/Mixed Content Signal Classification Based on GMM Using MFCC)

  • 김지은;이인성
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.185-192
    • /
    • 2013
  • 본 논문에서는 MFCC를 이용한 GMM 기반의 음성과 혼합 신호 분류 알고리즘을 MPEG의 표준 코덱인 USAC에 적용하였다. 효과적인 패턴 인식을 위해 GMM을 이용하였고, EM알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안하는 분류 알고리즘은 두 가지 중요한 부분으로 나뉜다. 첫째는 GMM을 통해 최적의 파라미터를 추출하는 것 이고, 두 번째는 MFCC 값을 이용한 패턴인식을 통해 음성/혼합 신호를 분류하였다. 제안된 알고리즘의 성능을 평가한 결과 MFCC를 이용한 GMM 기반의 제안된 방법이 기존 USAC의 방법보다 우수한 음성/혼합 신호 분류 성능을 보였다.

백터양자화기의 신속코더백터 찾기 (Fast Codevector Search on Vector Quantization)

  • 우홍체
    • 한국산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.16-21
    • /
    • 2000
  • 백터 양자화기는 음성 부호화, 오디오 부호화, 그리고 비디오 부호화와 같은 많은 고품질 고전송률 데이터 압축응용에서 널리 사용되고 있다. 백터 양자화기의 코더북의 크기가 매우 클 때, 코더북 전체를 찾는 방식은 많은 응용의 경우에서 계산량 때문에 상당한 문제점이 된다. 계산량을 낮추기 위하여 삼각형의 변 길이에 대한 부등식과 같은 코더북의 특성을 활용하는 많은 알고리즘들이 제안되고 연구되어 왔다. 본 논문에서는 최적의 코더백터를 찾기 위하여 다단구조에 기반한 신속 코더백터 찾기 알고리즘을 제안하고자 한다. 간단한 2 단계 구조의 이 알고리즘을 사용하여도 상당한 계산 복잡성을 압축대상의 품질을 손상시키지 않고 줄일 수 있다.

  • PDF