A Study on the Variable Transmission of xHE-AAC Audio Frame

Lee, Bongho;Yang, Kyutae;Lim, Hyoungsoo;Hur, Namho;

doi:10.5909/JBE.2016.21.3.357

방송공학회논문지 (Journal of Broadcast Engineering)

제21권3호
/
Pages.357-368
/
2016
/
1226-7953(pISSN)
/
2287-9137(eISSN)

한국방송∙미디어공학회 (The Korean Institute of Broadcast and Media Engineers)

DOI QR Code

xHE-AAC 오디오 프레임의 가변 전송에 관한 연구

A Study on the Variable Transmission of xHE-AAC Audio Frame

이봉호 (한국전자통신연구원) ;
양규태 (한국전자통신연구원) ;
임형수 (한국전자통신연구원) ;
허남호 (한국전자통신연구원)

Lee, Bongho (Electronics Telecommunications Research Institute) ;
Yang, Kyutae (Electronics Telecommunications Research Institute) ;
Lim, Hyoungsoo (Electronics Telecommunications Research Institute) ;
Hur, Namho (Electronics Telecommunications Research Institute)

투고 : 2016.03.22
심사 : 2016.05.17
발행 : 2016.05.30

https://doi.org/10.5909/JBE.2016.21.3.357 인용 PDF KSCI KPUBS HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

DAB+에서는 오디오 스트림 전송을 위해 HE-AAC v2 코덱을 적용하여 고정 프레임 방식 전송을 규정하고 있다. USAC을 포함하고 있는 xHE-AAC 코덱을 적용하고자 할 경우에는 고정 프레임 보다는 가변 프레임을 적용할 경우 동일 대역폭을 기준으로 품질 향상이 기대된다. 이를 위해서는 단일 서브 채널에 하나 이상의 오디오 프레임이 다중화되어 전송되어야 하는데 해당 오디오 프레임 경계를 구분할 수 있는 수단이 필요하다. 본 논문에서는 이를 위해 동기 바이트 토글링 및 부가적인 식별 정보를 통해 오디오 프레임의 경계를 식별하기 위한 방법을 제안하고자 한다. 또한 실제 전송을 위해서 고려해야 할 에러 정정 부호화에 대해서도 제안하고자 한다.

In DAB+, HE-AAC v2 codec is applied for the fixed rate transmission of audio stream. In case that xHE-AAC codec including USAC, a more efficiency is expected when the variable frame is used in a given same bandwidth compared to the fixed frame transmission. For this to be realized, audio streams need to be multiplexed in a sub-channel before transmission, then a method is required to identify the border of each audio frames. In this paper, the toggled sync byte and additional identification field being sequentially placed between AU borders are proposed in order to deal with the AU border identification. In addition, the Reed-Solomon based error correction code which is compliant to DAB+ is proposed.

키워드

Ⅰ. 서 론

DAB[1]에서는 디지털라디오 서비스를 위해 MPEG 오디오 계층 II 방식을 적용하여 서비스를 개시하였지만 성능 개선에 대한 요구가 있어 HE-AAC v2(High-Efficiency Advanced Audio Coding version 2) 코덱을 적용한 DAB+[2] 방식을 2008년에 신규로 제정하였다. 현재는 노르웨이 및 호주를 중심으로 DAB+ 기반의 라디오 방송 서비스를 제공하고 있다. DAB+의 특징은 당시 최신 코덱으로 고려되었던 HE-AAC v2를 기반으로 고정 프레임 크기를 갖는 비트 스트림을 생성한 후 이를 다시 오디오 슈퍼 프레임에 적재하여 지정된 서브 채널에 전송하는 방식이다.

DAB+ 방식의 장점은 120ms 단위의 전송 프레임에 고정된 크기의 오디오 슈퍼 프레임을 발생시켜 전송하므로 수신 단에서 별도의 동기화 절차 없이 수신된 오디오 슈퍼 프레임의 시작비트부터 임의의 길이만큼 분리하여 디코딩할 수 있는 장점을 제공한다. 이는 단말에서 역 다중화 및 디코딩 과정을 단순화 할 수 있으나 오디오 품질 측면에서는 한계를 가진 방식이다. 가변 프레임을 적용할 경우 오디오 품질을 개선할 수 있으나, 가변 크기를 갖는 프레임을 구분하기 위한 별도의 수단이 마련되어야 한다.

DRM+(Digital Radio Mondiale plus)[3]에서는 xHE-AAC (extended HE-AAC) 스트림을 가변 크기로 생성한 후 실제 전송 프레임인 오디오 슈퍼 프레임에 이를 적재하여 전송하는 방식을 개발하였다. DRM+의 경우 전송 대역폭이 DAB에 비해 협소하여 HE-AAC v2에 비해 성능이 개선된 xHE-AAC 코덱을 적용하였으며 또한 음질을 개선하기 위해 고정이 아닌 가변 전송을 적용하였다. 특징으로는 가변 크기를 갖는 오디오 프레임을 식별하기 위해 오디오 슈퍼 프레임의 종단에 디렉토리 섹션을 두어 이를 해결하였다.

본 논문에서는 xHE-AAC 스트림을 DAB+망을 통해 전송하고자 할 경우, DRM+와 유사하게 가변 프레임을 적용하여 오디오 품질을 개선하기 위한 전송 구조를 제안하고자 한다. 이를 위해 2장에서는 선행 기술에 해당하는 MPEG 오디오 스트림 전송 방식인 MPEG audio transport[4], MPEG-2 TS[5], DAB+ 및 DRM+의 특징을 분석하였다. 이러한 분석을 기반으로 xHE-AAC를 DAB+망에 효율적으로 전송할 수 있는 방안을 도출하였다. 본 논문에서 제안하고자 하는 기술적인 사항으로는, 첫째로 오디오 스트림을 적재할 수 있는 오디오 슈퍼 프레임 구조를 제안하고, 둘째로 동기 바이트를 토글링하여 가변 오디오 프레임의 경계를 효율적으로 식별할 수 있는 방법, 별도의 전송 패킷 구조 정의 및 전송 오류 내성을 강화할 수 있는 전방향 오류 정정 부호화 방법이다.

Ⅱ. MPEG 오디오 스트림 전송

일반적으로 전송 스트림 포맷은 수신한 비트 스트림에 대해 디코딩을 수행하고 동기를 맞추기 위해 고안된 프로토콜이다. 전송 스트림은 파일로 저장되기도 하지만 저장 포맷과 달리 저장 포맷에서 의미를 가지는 메타 데이터 및 인덱싱 관련 정보를 필요로 하지 않는다. 일반적으로 널리 사용되고 있는 MPEG-2 TS를 단일 오디오 스트림 전송을 위한 전송 포맷으로 사용하고자 할 경우, 동기 및 프레이밍 관련 정보로 인한 오버헤드가 발생할 여지가 있으며 이로 인하여 상대적으로 저장 포맷에 비해 파일의 크기가 커지는 단점이 있다.

오디오 스트림만을 전송하고자 할 경우에는 일반적인 동영상 전송과 달리 비디오 및 오디오간 동기화가 필요 없으며 오디오 스트림을 최적으로 전송하기 위한 다중화만 고려하면 된다. 이는 수신 단에서 해당 오디오 프레임(AU: Access Unit)을 효율적으로 재구성하여 디코딩 할 수 있도록 관련 전송 기능을 최적화 하면 된다. 디지털라디오 전송 시 요구되는 기능도 이러한 단일 오디오 스트림의 최적 전송에 있으며 부가적으로는 프로그램 연관 데이터(PAD: Program Associated Data)와의 통합에 있다.

1. MPEG Audio Transport

MPEG에서는 AAC 스트림 전송을 위해 ADTS(Audio Data Transport Stream)를 정의하였으며 MPEG-4에서 LATM(Low-overhead MPEG-4 Audio Transport Multi- plex) 및 LOAS(Low Overhead Audio Stream) 포맷을 추가로 정의하였다. MPEG-4 LATM 및 LOAS는 기존 AAC 이외에 AAC-LD(AAC Low Delay)나 AAC-ELD v2(AAC Enhanced Low Delay)와 같은 다양한 코덱 스트림에도 적용이 가능하도록 고안된 포맷이다[4].

오디오 스트림은 그림 1과 같이 일반적으로 기초 스트림(elementary stream)과 설정 정보(ASC: Audio Specific Config)로 구성된다. ASC는 audio object type과 같이 디코딩 시 필수적인 오디오 파라미터로 구성된 데이터 구조체로 sampling rate, frame length 및 audio channel arrangement와 같은 특정 정보를 포함한다. ASC는 오디오 비트 스트림 내에 전송되지 않고 일반적으로 서비스 협정 시 사전에 주고받아야 하는 데이터에 해당한다. ASC는 일반적으로 변동이 있을 경우에 유익한 데이터지만 방송환경과 같이 해당 파리미터들이 고정될 경우에는 전송할 필요가 없다. DAB+에서는 오디오 슈퍼 프레임 헤더 내에 MPEG Surround 관련 파라미터 이외에 별도의 설정 정보를 전송하지 않는다.xHE-AAC 스트림을 전송하고자 할 경우에는 ASC에 대한 기준이 마련되어야 하며 최소한으로 필요한 파라미터에 대해서는 전송 규격 내에 포함시켜 전송한다. 또한 전송 주기도 디코더 성능에 영향을 미치므로 설계 시 중요한 고려사항에 해당된다. AAC 오디오 스트림의 액세스 유닛(AU: Access Unit) 구조는 그림 2와 같다.

그림 1.HE-AAC v2의 audio specific coding 비트스트림 구조 Fig 1. Audio specific coding bitstream structure of HE-AAC v2

그림 2.AAC 스트림의 액세스 유닛 구조 Fig 2. Access unit structure of AAC stream

이러한 액세스 유닛을 전송하기 위해 고안된 ADTS[6]는 그림 3에 도시된 바와 같이 오디오 스트림을 연속적인 ADTS 프레임으로 구성하게 되며 구성된 각 ADTS 프레임은 고정 크기를 갖는 헤더, 가변 크기를 갖는 헤더 및 페이로드 블록으로 구분되어 구성된다. 고정 헤더 섹션은 디코딩에 필요한 관련 파라미터 및 동기 워드(syncword)를 포함한다. 가변 헤더 섹션에는 프레임 별로 변화하는 파라미터들이 위치한다.

그림 3.MPEG 오디오 데이터 전송 스트림 구조 Fig 3. Transport stream structure of MPEG audio data

고정 크기를 갖는 헤더 섹션(fixed header section)에는 12비트의 동기 워드가 위치한다. 이는 MPEG-2 TS의 “0x47”과 같은 의미를 갖는 동기열(sync sequence)로 ‘1111 1111 1111’ 값을 가진다. 프로파일 필드에는 코덱의 프로파일 값이 위치하며 샘플링 주파수를 지정하는 sampling_frequency_index 필드가 위치한다. 8k ~ 96k까지의 12종류의 샘플링 주파수에 해당하는 index 값이 지정된다.

Channel configuration은 사용되는 오디오 채널 관련 파라미터로 ‘0’보다 큰 값을 가지며 ISO/IEC 13818-7 part 7 [6]의 table 42에 주어진 값에 해당된다.

가변 헤더 섹션에는 AAC frame length 및 buffer fullness와 같은 정보가 포함되며 바로 이어 압축 스트림을 적재하기 위한 데이터 블록이 위치한다.

aac_frame_length는 헤더 및 에러 체크 바이트를 포함한 프레임의 전체 길이를 나타낸다. adts_buffer_fullness는 ADTS 프레임 디코딩 과정에서의 bit reservoir의 상태를 나타낸다. raw_data_block()에는 1024 샘플 동안의 압축된 오디오 데이터가 위치한다.

ADTS를 xHE-AAC의 DAB 전송에 적용할 수 있지만 DAB 환경에서는 많은 파라미터들이 고정되므로 헤더에 정의된 대부분의 필드를 사용할 필요가 없다. 의미를 가지는 필드로는 syncword, channel configuration, aac frame length, buffer fullness 정도이며 channel configuration의 경우에도 stereo로 고정될 경우 의미가 없다. MPEG Surround와 관련한 channel configuration 정보는 MPEG Surround를 적용하고자 할 경우 포함된다.

2. MPEG-2 TS 기반의 오디오 스트림 전송

MPEG-2 TS[5]는 DMB(Digital Multimedia Broadcasting)에 사용되고 있는 전송 스트림 포맷으로 188 바이트 단위로 스트림을 패킷화하여 전송하는 구조이다. 그림 4에 예시된 바와 같이 xHE-AAC 스트림을 전송하고자 할 경우 매 TS 패킷의 헤더 및 PES(Packetized Elementary Stream)에서 발생하는 헤더 바이트가 부담이 된다.

그림 4.MPEG-2 TS 포맷 구조 Fig 4. Structure of MPEG-2 TS format

MPEG-2 TS를 적용할 경우 단일 오디오 스트림 전송임을 감안하면 최소 4바이트가 매 패킷마다 발생하며 또한 AU를 식별하기 위해 사용하는 PES 패킷에 의해 최소 6바이트가 발생하게 된다. xHE-AAC 스트림 전송을 위해 MPEG-2 TS/PES 포맷을 적용할 경우 각 TS 패킷마다 최소 4바이트에 각 오디오 프레임을 식별하기 위해 사용되는 PES로 인하여 6바이트의 부가 바이트가 발생한다.

3. DAB+ 전송

DAB에서는 MPEG-1,2 오디오 코덱을 이용하여 압축된 오디오 스트림을 DAB 스트림 모드로 전송하는 방안을 그림 5와 같이 표준으로 제정하였다. 이를 MUSICAM 서비스라고 부르며 MPEG 오디오 계층 II 프레임과 유사하게 DAB 스트림 모드에 최적으로 전송하기 위한 DAB 오디오 프레임을 고안하였다. DAB에서는 프로그램 관련 데이터(PAD: Program Associated Data) 전송을 고려하므로 X-PAD 또는 고정 크기를 갖는 F-PAD를 오디오 프레임의 후반부에 위치시켰다.

그림 5.MUSICAM 전송 프레임 구조 Fig 5. Transmission frame structure of MUSICAM

MUSICAM 전송 프레임은 MPEG 오디오를 최적으로 전송하기 위한 구조이나 오류 내성을 위한 별도의 FEC는 포함되지 않았다. 오디오 성능에 대한 개선 요구로 HE-AAC v2 코덱을 적용한 DAB+ 표준이 2008년에 완료되었으며 HE-AAC v2 오디오 스트림을 최적으로 전송하기 위한 오디오 슈퍼 프레임 구조 및 오류를 복원할 FEC를 포함하고 있다. DAB+의 특징은 고정 크기를 갖는 오디오 프레임과 이를 최적으로 전송하기 위한 구조에 있으며 그림 6과 같다. DAB+는 기술적으로 새로운 오디오 부호화 기술, 전송 시 내성을 강화하기 위한 전방향 오류 정정 부호화 및 DAB 시스템의 전송 규격에 적합하도록 프레임을 구성하기 위한 프레이밍 기술로 특징을 정리할 수 있다.

그림 6.DAB+ 오디오 슈퍼 프레임 구조 Fig 6. Structure of DAB+ audio super frame

DAB+의 경우, 오디오 프로그램 당 64kbps를 할당할 경우, 최대 18개의 오디오 프로그램을 전송할 수 있으며, 48kbps로 전송하고자 할 경우에는 24개의 프로그램을 전송할 수 있다. 오디오 슈퍼 프레임은 120ms 단위로 구성되며 DAB 전송 프레임에 바이트 정렬되어 전송된다. 다른 전송 프레임과 유사하게 슈퍼 프레임 헤더와 오디오 스트림이 적재되는 페이로드 섹션으로 구성된다. 슈퍼 프레임 헤더는 firecode를 포함하여 dac_rate, sbr_flag, aac_channel_mode, ps_flag, mpeg_surround_config 및 au_start 필드를 포함하고 있다.

오디오 슈퍼 프레임 헤더에는 디코딩에 필요한 최소한의 정보만을 제공하도록 설계되었다. 최대 6비트 에러까지 복구할 수 있는 firecode를 헤더의 시작부에 두어 오디오 슈퍼 프레임의 완전성을 확인하며 dac_rate 필드를 통해 DAC (Digital to Analog Converter) 샘플링 레이트가 32kHz인지 48kHz인지를 알려주며 sbr_flag를 통해 SBR(Spectral Band Replication) 적용 여부를 알려준다. aac_channel_mode 필드를 통해 모노와 스테레오를 구분할 수 있도록 하며 parametric stereo 사용 여부를 위해 ps_flag를 두었다. MPEG Surround는 선택사항으로 mpeg_surround_flag 필드를 통해 해당 여부를 알려준다. 페이로드에 적재되어 있는 각 AU는 고정 길이지만 각 스트림의 시작 부분을 신호하기 위해 au_start 필드를 두었다.

수신기에서는 오디오 슈퍼 프레임이 복원되면 각 오디오 프레임의 위치가 고정되어 있으므로 별도의 처리 절차 없이 바로 디코딩을 하여 스트림을 재생할 수 있다. 만약 가변 크기를 갖는 xHE-AAC 스트림을 이 오디오 슈퍼 프레임에 전송하고자 할 경우에는 가변 크기를 갖는 각 오디오 프레임의 위치를 표현할 수 없어 오류가 발생한다. 실제 오디오 프레임은 의미가 없는 구간을 많이 포함하고 있어 가변 부호화를 적용할 경우 실제 음성 구간에 많은 비트를 할당할 수 있어 음질을 개선할 수 있다. 이를 위해서는 DAB+의 전송 프레임으로는 해결이 되지 않으며 별도의 전송 프레임을 고안하여야 한다.

4. DRM+ 전송

DRM[3]에서는 AAC 코덱 외에 USAC(Unified Speech and Audio Coding)이 포함되어 음악 및 음성 채널에 장점을 보이는 xHE-AAC 코덱을 추가로 도입하였다. xHE-AAC의 도입으로 오디오 슈퍼 프레임 구조도 별도로 규정하였다. AAC와 달리 가변 비트율을 적용하였으며 하나의 오디오 슈퍼 프레임에 전송될 수 있는 오디오 프레임의 개수를 최대 15개로 제안하였다. DRM+에서의 오디오 슈퍼 프레임 길이는 고정 크기를 가지며 페이로드에는 가변 크기를 갖는 오디오 프레임을 임의로 적재할 수 있다.

그림 7(a)는 DRM+에서 정의하고 있는 오디오 슈퍼 프레임 구조를 보이고 있으며 DAB+의 오디오 슈퍼 프레임 구조와 달리 가변 프레임 위치를 식별하기 위한 디렉토리 섹션을 페이로드 다음에 두어 이를 해결하고 있다. 오디오 슈퍼 프레임의 헤더 길이는 고정 2바이트이며 디렉토리 섹션의 크기는 오디오 프레임의 수가 가변이므로 역시 가변 크기를 갖는다. 디렉토리 섹션은 frame border index 및 frame border count로 구성되며 최대 16개까지 오디오 프레임을 수용할 수 있으므로 frame border count는 4비트를 가지며 frame border index는 오디오 프레임의 경계를 나타내므로 12비트를 가진다. Frame border index는 오디오 슈퍼 프레임의 유료부하의 시작 비트에서 각 오디오 슈퍼 프레임의 시작 비트까지의 비트 수를 나타낸다.

그림 7.DRM+ 오디오 슈퍼 프레임 구조 Fig 7. Structure of DRM+ audio super frame

그림 7(b)는 4개의 오디오 프레임이 하나의 오디오 슈퍼 프레임에 적재되는 예로 이와 관련된 디렉토리 섹션의 border description은 3개로 각 오디오 프레임의 위치를 알려준다. 이와 같은 구조에서는 전체 오디오 슈퍼 프레임을 복원한 후 디렉토리 섹션을 통해 각 오디오 프레임을 구분하여 디코딩하게 된다.

Ⅲ. xHE-AAC 오디오 스트림의 DAB+ 전송

xHE-AAC 코덱은 음악과 음성 전 범위에 걸쳐 우수한 성능을 가진 코덱으로 24kbps 수준의 음성 위주의 라디오 채널뿐만 아니라 고품질의 음악 방송까지 적용이 가능한 코덱이다. 국내 디지털라디오 서비스를 위해 고려되고 있는 코덱으로 DAB 채널을 통해 USAC 스트림 즉 xHE-AAC 스트림을 전송하기 위한 연구가 진행되었다[7].

본 논문에 이와 관련된 기술로 xHE-AAC 스트림을 DAB+와 유사하게 DAB 채널을 통해 효율적으로 전송하기 위한 방법에 관한 것이다. DAB+에서 정의한 전송 방식을 적용하고자 할 경우 가변 비트율 적용이 어려워 별도의 전송 방식이 고안되어야 한다. 선행 연구[7]에서 제안된 방식은 DRM+ 방식과 유사하며 전방향 오류 정정 부호화 부분에서 차이를 갖는다. 이 방식은 디렉토리 필드 및 오디오 슈퍼 프레임이 복원이 되어야 디코딩을 할 수 있는 구조이므로 지연이 발생하며 MPEG-2 TS와 같은 방식을 적용할 경우 복원 즉시 순차적으로 디코딩이 가능하여 소요되는 시간을 최소화 할 수 있다. 이를 위해 본 논문에서는 MPEG-2 TS와 유사한 구조를 가지며 단일 기초 스트림(elementary stream)인 xHE-AAC 스트림을 효율적으로 다중화하여 전송할 수 있는 방안을 제안하고자 한다. 제안 방식의 핵심은 단일 기초 스트림을 전송하므로 MPEG-2 TS와 같은 다중화 기법은 필요하지 않으며 가변 크기를 갖는 AU를 효율적으로 식별할 수 있는 방법에 있다. 부가적으로 전방향 오류 정정 부호화(FEC: Forward Error Correction)로 Reed-Solomon 및 virtual interleaving을 적용하여 오류 내성을 강화한다.

1. 오디오 슈퍼 프레임 구조

제안하고자 하는 방식에 있어서 오디오 슈퍼 프레임은 DRM+ 방식과 유사하게 헤더 섹션과 페이로드 섹션으로 구성된다. 오디오 슈퍼 프레임 헤더 섹션의 경우, DAB+에서 정의한 신텍스를 준수하며 xHE-AAC를 위한 별도의 필드를 고려할 수 있다. 페이로드 섹션은 그림 8과 같이 가변 크기를 갖는 오디오 프레임(AU)을 순차적으로 적재한다. 오디오 슈퍼 프레임은 DAB+ 전송과 달리 가변 오디오 프레임을 적재하기 때문에 오디오 슈퍼 프레임의 경계와 비트 정렬이 되지 않으므로 수신 단에서는 이에 대한 처리가 필요하며 또한 오디오 프레임도 고정이 아니므로 해당 경계를 식별하여 구분할 수 있어야 한다. 이를 위해 동기 바이트를 고정이 아닌 가변(toggling)하여 오디오 프레임 경계를 식별할 수 있는 오디오 전송 패킷(ATP: Audio Transport Packet)을 설계 하였다[8].

그림 8.제안한 오디오 슈퍼 프레임 구조 Fig 8. Structure of proposed audio super frame

2. 동기 바이트 토글링 및 ATP 정의를 통한 오디오 프레임 경계 식별

ATP는 RS 부호화를 위해 110바이트 크기를 갖도록 구성한다. 그림 9는 연속하는 오디오 프레임이 ATP의 페이로드에 적재되는 예로 ATP1에서는 1번의 경계가 발생하며 ATP2는 단일 오디오 스트림으로 발생하지 않으며, AFn+1은 2번의 경계가 발생한다.

그림 9.오디오 전송 패킷 구조 Fig 9. Structure of audio transport packet

ATP는 일반적인 전송 패킷과 유사하게 헤더 섹션과 유료부하 섹션을 가지나 헤더 섹션의 크기는 가변이다. 이는 가변적으로 존재하는 오디오 프레임 경계 관련 정보를 유연하게 처리하기 위한 것으로써 단일 ATP에서 발생할 수 있는 경계를 표현하기 위해 그림 10과 같이 3가지 타입으로 정의하였다. 헤더 섹션에는 1바이트 크기를 갖는 동기 바이트(sync byte)에 이어 하나 이상의 경계가 존재할 경우 4비트를 갖는 AU border count가 위치할 수 있으며 다음으로 경계 위치를 알려주기 위한 AU border index 필드가 위치한다.

그림 10.오디오 전송 패킷 타입 Fig 10. Types of audio transmission packet

동기 바이트는 MPEG-2 TS에서 적용하고 있는 “0x47”을 적용할 수 있으며 동기 바이트는 원 비트를 회전시킬 경우 원 코드 값과 절대로 동일한 값이 발생하지 않는 코드이어야 하므로 1바이트를 적용할 경우 표 1과 같이 8종이 존재한다. 이러한 원리를 이용하여 하나 이상의 동기 바이트를 적용할 경우 동기 바이트에 변화를 주어 오디오 프레임 경계 유무를 알려줄 수 있다. 일 예로, “0x47”과 “0x74”를 그림 9 예에 적용할 경우, ATP1에서는 동기 바이트가 토글 되므로 만약 “0x47”로 시작하면 ATP2에서는 경계가 없으므로 동일한 “0x47” 값을 가지며 ATPn에서 “0x74”로 토글된다. 이러한 개념을 수신 단에 적용하면 동기 바이트의 토글 여부를 통해 ATP내의 오디오 프레임의 경계가 존재함을 파악할 수 있으며 동시에 패킷 동기화도 만족할 수 있다.

표 1.동기 바이트 Table 1. Sync bytes

그림 9에서 ATP2가 이에 해당된다. B 타입은 해당 ATP 내에서 오디오 프레임 경계가 한번만 발생하는 경우로 헤더 바이트는 3바이트가 발생하며 그림 9에서 ATP1과 ATPn+1에 해당된다. 마지막으로 C 타입은 오디오 프레임 경계가 하나 이상 존재할 경우에 사용되는 구조로 AU border count가 4비트이므로 최대 16개까지의 오디오 프레임을 가질 수 있다. 이는 DRM+에서 제안하고 있는 오디오 프레임 경계와 동일한 값에 해당한다. C 타입의 경우 최대로 발생할 수 있는 바이트 수는 동기 바이트를 포함하여 21바이트에 해당된다. 모든 타입에 있어 바이트 정렬이 되지 않은 경우 2, 4 또는 6 비트씩 stuffing되며 AU border count에 따른 비트 발생량은 표 2와 같다.

표 2.AU border count에 따른 비트 발생량 Table 2. Generated bits in accordance with the AU border count

3. 전방향 오류 정정 부호화

그림 8과 같이 1차적으로 구성된 오디오 슈퍼 프레임을 전송하고자 할 경우, 정해진 서브 채널의 임의 CU(Capacity Unit)에 채워 전송할 수 있지만 오류 내성을 강화하기 위해 FEC를 적용한다. 이 경우 DAB+에서 적용한 Reed-Solomon 및 가상 교삽(Virtual Interleaving)을 동일하게 적용할 수 있다. RS의 경우 코드 워드 길이는 그림 11과 같이 DAB+[2]에서 규정하고 있는 (120,110,t=5)를 적용한다.

그림 11.Reed-Solomon 코드 Fig 11. Reed-Solomon code

송신 단에서의 FEC 처리는 ATP가 페이로드에 적재된 오디오 슈퍼 프레임에 대해 그림 12와 같이 서브 채널 색인(sub-channel index) 길이만큼 세그먼트 한 후 열(column)로 배치한다. 하나의 오디오 슈퍼 프레임을 서브 채널 색인 길이만큼 열로 배열하면 최종적으로 행 방향으로는 110바이트 길이를 갖는 패킷이 구성된다. RS 부호는 이 110바이트 패킷에 적용하고 발생하는 10바이트의 패러티 바이트를 110바이트에 이어 행으로 배열한다. 전송 순서는 S1 세그먼트부터 시작하여 S110번, 이후 F1~F10의 순서대로 처리한다. 수신 단에서는 이에 대한 역 과정을 통해 가상 교삽 및 RS 디코딩을 수행하여 오디오 슈퍼 프레임을 복원한다.

그림 12.FEC 및 전송 순서 Fig. 12. FEC and the transmission order

Ⅳ. 결 론

본 논문에서는 DAB+망을 통해 xHE-AAC 오디오 스트림을 전송하는데 있어 전송 효율을 최적화하기 위해 고정이 아닌 가변 크기를 적용하였다. 가변 크기를 적용할 경우 발생할 수 있는 오디오 프레임의 경계를 식별하기 위해 기존 DAB+나 DRM+에서 제안한 방식이 아닌 MPEG-2 TS와 유사한 ATP 구조를 정의하였다. ATP는 단일 xHE-AAC 스트림을 전송함에 있어 발생할 수 있는 부가 비트를 최소화 하도록 헤더 구조를 단순화 하였으며 수신된 순서대로 해당 오디오 프레임을 복원하여 복호화 할 수 있도록 하였다. 이를 위해 동기 바이트의 토글링을 통해 각 오디오 프레임의 경계를 헤더의 동기 바이트만으로 식별하고 PES와 같은 별도의 부가적인 패킷을 적용하지 않고 각 오디오 프레임의 경계를 식별할 수 있도록 관련 필드를 정의하였다.

향후 연구로는 제안한 방식과 DAB+ 및 DRM+ 방식과의 비트 발생과 오디오 성능 면에서의 비교 분석이 이루어져야 한다.

참고문헌

ETSI EN 300 401 V1.4.1 (2006-06), "Radio Broadcasting Systems; Digital Audio Broadcasting (DAB) to mobile, portable and fixed receivers".
ETSI TS 102 563 V1.2.1 (2010-05), "Digital Audio Broadcasting (DAB); Transport of Advanced Audio Coding (AAC) Audio".
ETSI ES 201 980 V4.1.1 (2014-01), "Digital Radio Mondiale (DRM); System Specification".
ISO/IEC JTC1/SC29/WG11 N14751, "AAC Transport Formats", July, 2014.
ISO/IEC 13818-1, "Information technology -Generic coding of moving pictures and associated audio information: Systems".
ISO/IEC 13818-7, "Information technology -Generic coding of moving pictures and associated audio information - Part 7: Advanced Audio coding (AAC)"
Kyutae Yang, Seungkwon Beack, Bongho Lee, Hyoungsoo Lim, "A Study on USAC Transport Mechanism for Digital Audio Broadcasting Plus", Korean Society of Broadcast Engineers, Summer Conference, July, 2015.
Bongho Lee, Kyutae Yang, myung-Sun Baek, Jaeeun Jeong, Hyeoungsoo Lim, Namho Hur, " USAC Stream Delivery over Digital Radio Network", International Workshop on Advanced Image Technology, January, 2016.

방송공학회논문지 (Journal of Broadcast Engineering)

xHE-AAC 오디오 프레임의 가변 전송에 관한 연구

A Study on the Variable Transmission of xHE-AAC Audio Frame

초록

키워드

Ⅰ. 서 론

Ⅱ. MPEG 오디오 스트림 전송

1. MPEG Audio Transport

2. MPEG-2 TS 기반의 오디오 스트림 전송

3. DAB+ 전송

4. DRM+ 전송

Ⅲ. xHE-AAC 오디오 스트림의 DAB+ 전송

1. 오디오 슈퍼 프레임 구조

2. 동기 바이트 토글링 및 ATP 정의를 통한 오디오 프레임 경계 식별

3. 전방향 오류 정정 부호화

Ⅳ. 결 론

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)