• 제목/요약/키워드: Object-based Audio

검색결과 63건 처리시간 0.028초

객체 오디오 부호화 표준 SAOC 기술 및 응용 (Object Audio Coding Standard SAOC Technology and Application)

  • 오현오;정양원
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.45-55
    • /
    • 2010
  • 객체 기반 오디오 부호화 기술은 다양한 응용 분야를 기대할 수 있는 차세대 오디오 기술로써 관심이 높다. 최근 MPEG에서는 SAOC (Spatial Audio Object Coding)라는 압축 효율이 우수한 Parametric 객체 부호화 방법을 표준화하였다. 본 논문에서는 SAOC를 중심으로 Parametric 객체 오디오 부호화의 기술을 소개하고, 이를 실제 적용하기 위한 고려사항들에 대해 다룬다.

사용자 기반 실감 객체 오디오 파일 포맷 및 오디오 장면 묘사 기법 (An User Controllable Object Audio File Format and Audio Scene Description)

  • 조충상;김제우
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.25-33
    • /
    • 2010
  • 최근의 오디오 기술은 사용자 중심으로 변화하고 있으며, 사용자의 환경과 의도에 따라 능동적으로 서비스가 이루어지는 대화형 오디오 서비스 시대로 변화하고 있다. 이에 맞추어 시장에서는 고품질 오디오 서비스를 위한 무손실 오디오 기술을 탑재한 멀티미디어 기기와 사용자가 선택적으로 악기를 조절할 수 있는 객체 오디오 음원 서비스가 이루어지고 있다. 본 논문에서는 사용자가 컨트롤 할 수 있는 실감 객체 오디오 파일 포맷을 설계하고 실감 정보를 낮은 복잡도에서 저장 매체와 전송 매체에 적용 가능한 오디오 장면 묘사 방법을 제안한다. 설계된 실감 객체 오디오 파일 포맷은 MPEG-4 파일 포맷을 기반으로 설계되었다. MPEG-4 파일 포맷은 MPEG-4에 속하는 고성능 오디오 코덱을 오디오 코덱 객체 번호를 통해서 쉽게 적용가능하다. 또한 오디오 객체 개수의 변화에 따라 파일 포맷의 트랙을 변화 시켜 사용하면 되므로 객체 오디오를 포함하기에 적절하다. 본 연구에서 개발된 파일 포맷은 실감 객체오디오 생성시 MPEG-4 오디오 코덱으로 압축된 객체 오디오, 실감 객체 오디오를 위한 오디오 장면 묘사 데이터를 독립적인 트랙으로 포함하고 있다. 포함된 오디오 장면 묘사 기법은 저장 매체를 위해 전체 오디오 장면에 적용되는 오디오 묘사 기법과 각각의 오디오 객체에 적용되는 오디오 묘사 기법을 노드 구조로 설계 하였으며, 전송 매체를 위해서 기본적인 객체 오디오 동작을 하기위한 필수 정보와 오디오 세부장면 묘사를 위한 정보로 분할하여 설계하였다. 이를 바탕으로 본 연구에서는 실감 객체 오디오 시뮬레이터를 개발하였다. 개발된 시뮬레이터는 객체 음원과 오디오 장면 묘사 정보를 부호화하여 MPEG-4 파일 포맷에 저장하며, 생성된 실감 객체 오디오 파일은 재생 모듈에서 오디오 객체에 입력 받은 사용자 정보와 오디오 장면 묘사 정보가 적용되어 사용자에게 몰입감이 높은 실감 오디오 서비스를 제공한다.

MPEG 오디오의 채널 확장 기술 (Channel Expansion Technology in MPEG Audio)

  • 방희석
    • 방송공학회논문지
    • /
    • 제16권5호
    • /
    • pp.714-721
    • /
    • 2011
  • MPEG 오디오에서는 오디오 신호의 효율적인 압축을 위해서 마스킹 효과, spectral band replication을 이용한 고주파 성분 합성, parametric stereo를 이용한 채널 확장 등의 기술을 이용하고 있다. 본 논문에서는 이 중 최신 기술에 해당하는 채널 확장 기술에 대해서 소개한다. 또한, MPEG 오디오 코덱 중 이 기술을 이용하는 HE-AAC v.2, MPEG Surround, Spatial Audio Object Coding(SAOC), Unified Speech and Audio Coding (USAC)에 대해 기술 소개 및 방송의 적용 예를 기술한다.

An Efficient Time-Frequency Representation for Parametric-Based Audio Object Coding

  • Beack, Seung-Kwon;Lee, Tae-Jin;Kim, Min-Je;Kang, Kyeong-Ok
    • ETRI Journal
    • /
    • 제33권6호
    • /
    • pp.945-948
    • /
    • 2011
  • Object-based audio coding can provide new music applications with interactivity. To efficiently compress a lot of target audio objects, a subband-based parametric coding scheme has been adopted for MPEG spatial audio object coding. In this letter, the time-frequency (T/F) subband analysis structure is investigated. A reconfigured T/F structure is also proposed to enhance the generating performance of sound scenes such as 'karaoke' and 'solo' play in interactive music scenarios. From the experimental results, it was confirmed that the proposed scheme remarkably improves the SNR and sound quality.

Visual Object Tracking Fusing CNN and Color Histogram based Tracker and Depth Estimation for Automatic Immersive Audio Mixing

  • Park, Sung-Jun;Islam, Md. Mahbubul;Baek, Joong-Hwan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권3호
    • /
    • pp.1121-1141
    • /
    • 2020
  • We propose a robust visual object tracking algorithm fusing a convolutional neural network tracker trained offline from a large number of video repositories and a color histogram based tracker to track objects for mixing immersive audio. Our algorithm addresses the problem of occlusion and large movements of the CNN based GOTURN generic object tracker. The key idea is the offline training of a binary classifier with the color histogram similarity values estimated via both trackers used in this method to opt appropriate tracker for target tracking and update both trackers with the predicted bounding box position of the target to continue tracking. Furthermore, a histogram similarity constraint is applied before updating the trackers to maximize the tracking accuracy. Finally, we compute the depth(z) of the target object by one of the prominent unsupervised monocular depth estimation algorithms to ensure the necessary 3D position of the tracked object to mix the immersive audio into that object. Our proposed algorithm demonstrates about 2% improved accuracy over the outperforming GOTURN algorithm in the existing VOT2014 tracking benchmark. Additionally, our tracker also works well to track multiple objects utilizing the concept of single object tracker but no demonstrations on any MOT benchmark.

객체기반 3차원 오디오 방송 시스템 설계 (The Design of Object-based 3D Audio Broadcasting System)

  • 강경옥;장대영;서정일;정대권
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.592-602
    • /
    • 2003
  • 본 논문은 오디오를 동반한 방송 서비스에 있어서 기존의 단순 청취형의 오디오 서비스에서 탈피한 대화형의 객체 기반 3차원 오디오 방송 시스템의 구조를 설명한다. 객체기반 3차원 오디오 방송 시스템은 3차원 오디오 입력부, 3차원 오디오 편집/제작부, 3차원 오디오 부호화부, 3차원 오디오 복호화부, 3차원 오디오 장면합성부 및 3차원 오디오 재생부로 구성된다. 오디오 입력부에서는 3차원 배경음 객체와 독립적인 오디오 객체들을 획득한다. 편집/제작부에서는 오디오 객체들에 대한 3차원 음상정위 및 오디오 이미지 생성을 위한 파라미터를 설정하고, 이들을 조합하여 3차원 오디오 장면을 편집/제작한다. 부호화부에서는 장면정보와 오디오 객체들을 부호화하고, 복호화부에서는 오디오 객체들을 복원하고 장면정보를 획득한다. 장면 합성부에서는 장면정보와 오디오 객체들을 이용하여 오디오 장면을 구성한다. 3차원 오디오 재생부에서는 3차원 오디오 객체들 재생하고, 사용자의 제어신호를 이용한 대화형 기능을 구현한다.

UHDTV를 위한 실감 오디오 재현 기술 (A Study on Realistic Sound Reproduction for UHDTV)

  • 장대영;서정일;이용주;유재현;박태진;이태진
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.68-81
    • /
    • 2015
  • 최근 부품기술 및 미디어 처리기술의 발전과 함께 HDTV를 이을 UHDTV 서비스가 곧 도래할 것이라는 예상이 기정사실화되고 있다. 이에 따라 HDTV에서 5.1채널 서라운드 사운드를 제공했던 오디오 기술도 UHDTV 시대의 도래와 함께 어떠한 서비스를 제공하여야 할지 고민하여야 할 시점에 와 있다. 그러나 현실은 HDTV의 5.1채널 사운드 포맷조차도 가정에서의 설치 및 유지의 어려움으로 인해 시장에서의 고전을 면치 못하고 있다. 한편, 영화 사운드 시장에서는 오랫동안 사용되고 있던 5.1, 7.1 채널 사운드 포맷이 돌비 ATMOS, IOSONO, AURO3D 등 천정 사운드와 객체기반 오디오를 포함하는 하이브리드 오디오 기술이 잇달아 도입되면서 일대 격변기를 맞이하고 있다. 이러한 객체기반 오디오 기술은 홈씨어터 및 방송 오디오 시장에서도 도입이 확실시되고 있는 실정이며, 이러한 오디오 기술의 변화는 유연성이 결여된 채널기반 오디오의 기술 발전 및 시장 성장의 활로를 개척하는 호기가 될 것으로 전망된다. 따라서 본 논문에서는 UHDTV 방송에 적합한 실감 오디오 기술에 대한 고찰과 이와 관련된 하이브리드 오디오 기술의 콘텐츠 포맷 및 가정에서의 재현 방안에 대해서 기술하고 향후 전망을 고찰해 보고자 한다.

채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법 (Non-uniform Linear Microphone Array Based Source Separation for Conversion from Channel-based to Object-based Audio Content)

  • 전찬준;김홍국
    • 방송공학회논문지
    • /
    • 제21권2호
    • /
    • pp.169-179
    • /
    • 2016
  • 오늘날 UHDTV (Ultra-High-Definition TV) 시대에 사용될 멀티미디어 부호화기로 MPEG-H에 대한 표준화가 진행되고 있다. 향후 방송용 오디오 콘텐츠는 채널 기반 오디오 콘텐츠에서 진화하여 객체 기반 오디오 콘텐츠까지도 포함하게 될 예정이다. 이에 따라, 채널 기반 오디오 콘텐츠의 객체 기반 오디오 콘텐츠로의 유기적인 변환이 필요한 실정이다. 본 논문에서는 이러한 유기적인 변환을 실현 가능하게 할 수 있는 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 spectral magnitude를 예측한다. 이후, azimuth와 width 파라메타를 조정함으로써 객체 오디오 생성을 위한 음원을 분리한다. 제안된 음원분리 기법의 성능을 평가하기 위하여 객관적 음원분리 지표 및 분리정확도를 측정하였고, 최소 분산 무손실 응답 빔형성기와 독립 성분 분석 기법 등 기존 음원분리 기법과의 그 성능을 비교하였다. 비교 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 우수한 음원분리 성능을 보이는 것을 알 수 있었다.

오디오/비디오 스트리밍을 지원하는 분산 객체 프레임 워크 설계 및 구현 (Design and Implementation of Distributed Object Framework Supporting Audio/Video Streaming)

  • 반덕훈;김동성;박연상;이헌주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권4호
    • /
    • pp.440-448
    • /
    • 1999
  • 본 논문은 객체지향형 분산처리 환경 하에서 오디오나 비디오 등과 같은 실시간(real-time) 스트림(stream) 데이타를 처리하는 데 필요한 소프트웨어 기반구조를 설계하고 구현한 내용을 기술한다. 본 논문에서 제시한 DAViS(Distributed Object Framework supporting Audio/Video Streaming)는, 오디오/비디오 데이타의 처리와 관련된 여러 소프트웨어 구성요소들을 분산객체로 추상화하고, 그 객체들간의 제어정보 교환경로와 오디오/비디오 데이타 전송경로를 서로 분리하여 처리한다. 분산응용프로그램 작성자는 DAViS에서 제공하는 서비스들을 이용하여, 기존의 분산프로그래밍 환경이 제공하는 것과 동일한 수준에서 오디오/비디오 데이타에 대한 처리를 표현할 수 있다. DAViS는, 새로운 형식의 오디오/비디오 데이타를 처리하는 부분을 손쉽게 통합하고, 하부 네트워크의 전송기술이나 컴퓨터시스템 관련 기술의 진보를 신속하고 자연스럽게 수용할 수 있도록 하는 유연한 구조를 가지고 있다. Abstract This paper describes the design and implementation of software framework which supports the processing of real-time stream data like audio and video in distributed object-oriented computing environment. DAViS(Distributed Object Framework supporting Audio/Video Streaming), proposed in this paper, abstracts software components concerning the processing of audio/video data as distributed objects and separates the transmission path of data between them from that of control information. Based on DAViS, distributed applications can be written in the same abstract level as is provided by the existing distributed environment in handling audio/video data. DAViS has a flexible internal structure enough to easily incorporate new types of audio/video data and to rapidly accommodate the progress of underlying network and computer system technology with very little modifications.

이동 물체를 추적하기 위한 감각 운동 융합 시스템 설계 (The Sensory-Motor Fusion System for Object Tracking)

  • 이상희;위재우;이종호
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제52권3호
    • /
    • pp.181-187
    • /
    • 2003
  • For the moving objects with environmental sensors such as object tracking moving robot with audio and video sensors, environmental information acquired from sensors keep changing according to movements of objects. In such case, due to lack of adaptability and system complexity, conventional control schemes show limitations on control performance, and therefore, sensory-motor systems, which can intuitively respond to various types of environmental information, are desirable. And also, to improve the system robustness, it is desirable to fuse more than two types of sensory information simultaneously. In this paper, based on Braitenberg's model, we propose a sensory-motor based fusion system, which can trace the moving objects adaptively to environmental changes. With the nature of direct connecting structure, sensory-motor based fusion system can control each motor simultaneously, and the neural networks are used to fuse information from various types of sensors. And also, even if the system receives noisy information from one sensor, the system still robustly works with information from other sensors which compensates the noisy information through sensor fusion. In order to examine the performance, sensory-motor based fusion model is applied to object-tracking four-foot robot equipped with audio and video sensors. The experimental results show that the sensory-motor based fusion system can tract moving objects robustly with simpler control mechanism than model-based control approaches.