• 제목/요약/키워드: object audio

검색결과 95건 처리시간 0.018초

객체 오디오 부호화 표준 SAOC 기술 및 응용 (Object Audio Coding Standard SAOC Technology and Application)

  • 오현오;정양원
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.45-55
    • /
    • 2010
  • 객체 기반 오디오 부호화 기술은 다양한 응용 분야를 기대할 수 있는 차세대 오디오 기술로써 관심이 높다. 최근 MPEG에서는 SAOC (Spatial Audio Object Coding)라는 압축 효율이 우수한 Parametric 객체 부호화 방법을 표준화하였다. 본 논문에서는 SAOC를 중심으로 Parametric 객체 오디오 부호화의 기술을 소개하고, 이를 실제 적용하기 위한 고려사항들에 대해 다룬다.

오디오 객체 부호화 표준 - MPEG SAOC (Audio Object Coding Standard Technology - MPEG SAOC)

  • 정양원;오현오
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.630-639
    • /
    • 2009
  • 본 논문에서는 최근 MPEG에서 표준화가 진행되고 있는 오디오 객체 부호화 기술 SAOC (Spatial Audio Object Coding)을 소개한다. SAOC는 이전에 MPEG에서 표준화된 PS (Parametric Stereo), MPEG Surround와 같은 파라메트릭 부호화 기술의 연장선 상에서 특히 오디오 객체 신호를 몇 개의 파라미터를 이용해 부호화함으로써, 사용자에게 음향 장면 구성의 자유도를 제공할 수 있는 객체 기반 서비스에 적합한 기술이다.

사용자 기반 실감 객체 오디오 파일 포맷 및 오디오 장면 묘사 기법 (An User Controllable Object Audio File Format and Audio Scene Description)

  • 조충상;김제우
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.25-33
    • /
    • 2010
  • 최근의 오디오 기술은 사용자 중심으로 변화하고 있으며, 사용자의 환경과 의도에 따라 능동적으로 서비스가 이루어지는 대화형 오디오 서비스 시대로 변화하고 있다. 이에 맞추어 시장에서는 고품질 오디오 서비스를 위한 무손실 오디오 기술을 탑재한 멀티미디어 기기와 사용자가 선택적으로 악기를 조절할 수 있는 객체 오디오 음원 서비스가 이루어지고 있다. 본 논문에서는 사용자가 컨트롤 할 수 있는 실감 객체 오디오 파일 포맷을 설계하고 실감 정보를 낮은 복잡도에서 저장 매체와 전송 매체에 적용 가능한 오디오 장면 묘사 방법을 제안한다. 설계된 실감 객체 오디오 파일 포맷은 MPEG-4 파일 포맷을 기반으로 설계되었다. MPEG-4 파일 포맷은 MPEG-4에 속하는 고성능 오디오 코덱을 오디오 코덱 객체 번호를 통해서 쉽게 적용가능하다. 또한 오디오 객체 개수의 변화에 따라 파일 포맷의 트랙을 변화 시켜 사용하면 되므로 객체 오디오를 포함하기에 적절하다. 본 연구에서 개발된 파일 포맷은 실감 객체오디오 생성시 MPEG-4 오디오 코덱으로 압축된 객체 오디오, 실감 객체 오디오를 위한 오디오 장면 묘사 데이터를 독립적인 트랙으로 포함하고 있다. 포함된 오디오 장면 묘사 기법은 저장 매체를 위해 전체 오디오 장면에 적용되는 오디오 묘사 기법과 각각의 오디오 객체에 적용되는 오디오 묘사 기법을 노드 구조로 설계 하였으며, 전송 매체를 위해서 기본적인 객체 오디오 동작을 하기위한 필수 정보와 오디오 세부장면 묘사를 위한 정보로 분할하여 설계하였다. 이를 바탕으로 본 연구에서는 실감 객체 오디오 시뮬레이터를 개발하였다. 개발된 시뮬레이터는 객체 음원과 오디오 장면 묘사 정보를 부호화하여 MPEG-4 파일 포맷에 저장하며, 생성된 실감 객체 오디오 파일은 재생 모듈에서 오디오 객체에 입력 받은 사용자 정보와 오디오 장면 묘사 정보가 적용되어 사용자에게 몰입감이 높은 실감 오디오 서비스를 제공한다.

A Study on Setting the Minimum and Maximum Distances for Distance Attenuation in MPEG-I Immersive Audio

  • Lee, Yong Ju;Yoo Jae-hyoun;Jang, Daeyoung;Kang, Kyeongok;Lee, Taejin
    • 방송공학회논문지
    • /
    • 제27권7호
    • /
    • pp.974-984
    • /
    • 2022
  • In this paper, we introduce the minimum and maximum distance setting methods used in geometric distance attenuation processing, which is one of spatial sound reproduction methods. In general, sound attenuation by distance is inversely proportional to distance, that is 1/r law, but when the relative distance between the user and the audio object is very short or long, exceptional processing might be performed by setting the minimum distance or the maximum distance. While MPEG-I Immersive Audio's RM0 uses fixed values for the minimum and maximum distances, this study proposes effective methods for setting the distances considering the signal gain of an audio object. Proposed methods were verified through simulation of the proposed methods and experiments using RM0 renderer.

MPEG 오디오의 채널 확장 기술 (Channel Expansion Technology in MPEG Audio)

  • 방희석
    • 방송공학회논문지
    • /
    • 제16권5호
    • /
    • pp.714-721
    • /
    • 2011
  • MPEG 오디오에서는 오디오 신호의 효율적인 압축을 위해서 마스킹 효과, spectral band replication을 이용한 고주파 성분 합성, parametric stereo를 이용한 채널 확장 등의 기술을 이용하고 있다. 본 논문에서는 이 중 최신 기술에 해당하는 채널 확장 기술에 대해서 소개한다. 또한, MPEG 오디오 코덱 중 이 기술을 이용하는 HE-AAC v.2, MPEG Surround, Spatial Audio Object Coding(SAOC), Unified Speech and Audio Coding (USAC)에 대해 기술 소개 및 방송의 적용 예를 기술한다.

Visual Object Tracking Fusing CNN and Color Histogram based Tracker and Depth Estimation for Automatic Immersive Audio Mixing

  • Park, Sung-Jun;Islam, Md. Mahbubul;Baek, Joong-Hwan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권3호
    • /
    • pp.1121-1141
    • /
    • 2020
  • We propose a robust visual object tracking algorithm fusing a convolutional neural network tracker trained offline from a large number of video repositories and a color histogram based tracker to track objects for mixing immersive audio. Our algorithm addresses the problem of occlusion and large movements of the CNN based GOTURN generic object tracker. The key idea is the offline training of a binary classifier with the color histogram similarity values estimated via both trackers used in this method to opt appropriate tracker for target tracking and update both trackers with the predicted bounding box position of the target to continue tracking. Furthermore, a histogram similarity constraint is applied before updating the trackers to maximize the tracking accuracy. Finally, we compute the depth(z) of the target object by one of the prominent unsupervised monocular depth estimation algorithms to ensure the necessary 3D position of the tracked object to mix the immersive audio into that object. Our proposed algorithm demonstrates about 2% improved accuracy over the outperforming GOTURN algorithm in the existing VOT2014 tracking benchmark. Additionally, our tracker also works well to track multiple objects utilizing the concept of single object tracker but no demonstrations on any MOT benchmark.

객체기반 3차원 오디오 방송 시스템 설계 (The Design of Object-based 3D Audio Broadcasting System)

  • 강경옥;장대영;서정일;정대권
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.592-602
    • /
    • 2003
  • 본 논문은 오디오를 동반한 방송 서비스에 있어서 기존의 단순 청취형의 오디오 서비스에서 탈피한 대화형의 객체 기반 3차원 오디오 방송 시스템의 구조를 설명한다. 객체기반 3차원 오디오 방송 시스템은 3차원 오디오 입력부, 3차원 오디오 편집/제작부, 3차원 오디오 부호화부, 3차원 오디오 복호화부, 3차원 오디오 장면합성부 및 3차원 오디오 재생부로 구성된다. 오디오 입력부에서는 3차원 배경음 객체와 독립적인 오디오 객체들을 획득한다. 편집/제작부에서는 오디오 객체들에 대한 3차원 음상정위 및 오디오 이미지 생성을 위한 파라미터를 설정하고, 이들을 조합하여 3차원 오디오 장면을 편집/제작한다. 부호화부에서는 장면정보와 오디오 객체들을 부호화하고, 복호화부에서는 오디오 객체들을 복원하고 장면정보를 획득한다. 장면 합성부에서는 장면정보와 오디오 객체들을 이용하여 오디오 장면을 구성한다. 3차원 오디오 재생부에서는 3차원 오디오 객체들 재생하고, 사용자의 제어신호를 이용한 대화형 기능을 구현한다.

An Efficient Time-Frequency Representation for Parametric-Based Audio Object Coding

  • Beack, Seung-Kwon;Lee, Tae-Jin;Kim, Min-Je;Kang, Kyeong-Ok
    • ETRI Journal
    • /
    • 제33권6호
    • /
    • pp.945-948
    • /
    • 2011
  • Object-based audio coding can provide new music applications with interactivity. To efficiently compress a lot of target audio objects, a subband-based parametric coding scheme has been adopted for MPEG spatial audio object coding. In this letter, the time-frequency (T/F) subband analysis structure is investigated. A reconfigured T/F structure is also proposed to enhance the generating performance of sound scenes such as 'karaoke' and 'solo' play in interactive music scenarios. From the experimental results, it was confirmed that the proposed scheme remarkably improves the SNR and sound quality.

UHDTV를 위한 실감 오디오 재현 기술 (A Study on Realistic Sound Reproduction for UHDTV)

  • 장대영;서정일;이용주;유재현;박태진;이태진
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.68-81
    • /
    • 2015
  • 최근 부품기술 및 미디어 처리기술의 발전과 함께 HDTV를 이을 UHDTV 서비스가 곧 도래할 것이라는 예상이 기정사실화되고 있다. 이에 따라 HDTV에서 5.1채널 서라운드 사운드를 제공했던 오디오 기술도 UHDTV 시대의 도래와 함께 어떠한 서비스를 제공하여야 할지 고민하여야 할 시점에 와 있다. 그러나 현실은 HDTV의 5.1채널 사운드 포맷조차도 가정에서의 설치 및 유지의 어려움으로 인해 시장에서의 고전을 면치 못하고 있다. 한편, 영화 사운드 시장에서는 오랫동안 사용되고 있던 5.1, 7.1 채널 사운드 포맷이 돌비 ATMOS, IOSONO, AURO3D 등 천정 사운드와 객체기반 오디오를 포함하는 하이브리드 오디오 기술이 잇달아 도입되면서 일대 격변기를 맞이하고 있다. 이러한 객체기반 오디오 기술은 홈씨어터 및 방송 오디오 시장에서도 도입이 확실시되고 있는 실정이며, 이러한 오디오 기술의 변화는 유연성이 결여된 채널기반 오디오의 기술 발전 및 시장 성장의 활로를 개척하는 호기가 될 것으로 전망된다. 따라서 본 논문에서는 UHDTV 방송에 적합한 실감 오디오 기술에 대한 고찰과 이와 관련된 하이브리드 오디오 기술의 콘텐츠 포맷 및 가정에서의 재현 방안에 대해서 기술하고 향후 전망을 고찰해 보고자 한다.

오디오/비디오 스트리밍을 지원하는 분산 객체 프레임 워크 설계 및 구현 (Design and Implementation of Distributed Object Framework Supporting Audio/Video Streaming)

  • 반덕훈;김동성;박연상;이헌주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권4호
    • /
    • pp.440-448
    • /
    • 1999
  • 본 논문은 객체지향형 분산처리 환경 하에서 오디오나 비디오 등과 같은 실시간(real-time) 스트림(stream) 데이타를 처리하는 데 필요한 소프트웨어 기반구조를 설계하고 구현한 내용을 기술한다. 본 논문에서 제시한 DAViS(Distributed Object Framework supporting Audio/Video Streaming)는, 오디오/비디오 데이타의 처리와 관련된 여러 소프트웨어 구성요소들을 분산객체로 추상화하고, 그 객체들간의 제어정보 교환경로와 오디오/비디오 데이타 전송경로를 서로 분리하여 처리한다. 분산응용프로그램 작성자는 DAViS에서 제공하는 서비스들을 이용하여, 기존의 분산프로그래밍 환경이 제공하는 것과 동일한 수준에서 오디오/비디오 데이타에 대한 처리를 표현할 수 있다. DAViS는, 새로운 형식의 오디오/비디오 데이타를 처리하는 부분을 손쉽게 통합하고, 하부 네트워크의 전송기술이나 컴퓨터시스템 관련 기술의 진보를 신속하고 자연스럽게 수용할 수 있도록 하는 유연한 구조를 가지고 있다. Abstract This paper describes the design and implementation of software framework which supports the processing of real-time stream data like audio and video in distributed object-oriented computing environment. DAViS(Distributed Object Framework supporting Audio/Video Streaming), proposed in this paper, abstracts software components concerning the processing of audio/video data as distributed objects and separates the transmission path of data between them from that of control information. Based on DAViS, distributed applications can be written in the same abstract level as is provided by the existing distributed environment in handling audio/video data. DAViS has a flexible internal structure enough to easily incorporate new types of audio/video data and to rapidly accommodate the progress of underlying network and computer system technology with very little modifications.