• 제목/요약/키워드: object audio

검색결과 95건 처리시간 0.033초

하모닉 정보를 이용한 SAOC의 보컬 신호 제거 방법에 관한 연구 (A Study on Vocal Removal Scheme of SAOC Using Harmonic Information)

  • 박지훈;장대근;한민수
    • 한국멀티미디어학회논문지
    • /
    • 제16권10호
    • /
    • pp.1171-1179
    • /
    • 2013
  • IAS는 대게 사용자가 자신의 취향에 맞는 음악을 직접 제작 및 편집 가능한 기능을 제공하는 서비스이다. SAOC는 낮은 전송률로 IAS가 가능한 다객체 오디오 코딩 기술이다. 하지만 SAOC 기법은 특정 객체를 제거하는 경우, 특히 보컬 객체를 제거하는 경우 배경음악에 보컬 객체의 하모닉이 남아있는 문제점이 있다. 그래서 본 논문은 하모닉 추출과 제거를 사용한 보컬 객체 제거 기법을 제안한다. 제안 하는 기법은 부호화기에서 추출한 하모닉 정보를 이용하여 복호화기에서 보컬 객체 신호를 다운믹스 신호에서 제거하는 기법이다. 하모닉 정보로써, 기본 주파수, MVF, 하모닉 크기를 사용한다. 성능평가로 객관적, 주관적 실험을 수행하였으며 모든 실험 결과를 통해 SAOC 기법보다 제안하는 기법이 우수함을 확인한다.

체감형 미디어 서비스를 위한 공간음향 기술 동향 (Spatial Audio Technologies for Immersive Media Services)

  • 이용주;유재현;장대영;이미숙;이태진
    • 전자통신동향분석
    • /
    • 제34권3호
    • /
    • pp.13-22
    • /
    • 2019
  • Although virtual reality technology may not be deemed as having a satisfactory quality for all users, it tends to incite interest because of the expectation that the technology can allow one to experience something that they may never experience in real life. The most important aspect of this indirect experience is the provision of immersive 3D audio and video, which interacts naturally with every action of the user. The immersive audio faithfully reproduces an acoustic scene in a space corresponding to the position and movement of the listener, and this technology is also called spatial audio. In this paper, we briefly introduce the trend of spatial audio technology in view of acquisition, analysis, reproduction, and the concept of MPEG-I audio standard technology, which is being promoted for spatial audio services.

채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원분리 방법 (Non-uniform Linear Microphone Array Based Source Separation for Conversion from Channel-based to Object-based Audio Content)

  • 전찬준;김홍국
    • 방송공학회논문지
    • /
    • 제21권2호
    • /
    • pp.169-179
    • /
    • 2016
  • 오늘날 UHDTV (Ultra-High-Definition TV) 시대에 사용될 멀티미디어 부호화기로 MPEG-H에 대한 표준화가 진행되고 있다. 향후 방송용 오디오 콘텐츠는 채널 기반 오디오 콘텐츠에서 진화하여 객체 기반 오디오 콘텐츠까지도 포함하게 될 예정이다. 이에 따라, 채널 기반 오디오 콘텐츠의 객체 기반 오디오 콘텐츠로의 유기적인 변환이 필요한 실정이다. 본 논문에서는 이러한 유기적인 변환을 실현 가능하게 할 수 있는 비균등 선형 마이크로폰 어레이 기반의 음원분리 기법을 제안한다. 제안된 기법은 주어진 어레이 배치에 따라 채널간의 시간차를 분석하고, 분석된 시간차에 따라 주파수별로 특정 방위각에 위치한 입력 오디오 신호의 spectral magnitude를 예측한다. 이후, azimuth와 width 파라메타를 조정함으로써 객체 오디오 생성을 위한 음원을 분리한다. 제안된 음원분리 기법의 성능을 평가하기 위하여 객관적 음원분리 지표 및 분리정확도를 측정하였고, 최소 분산 무손실 응답 빔형성기와 독립 성분 분석 기법 등 기존 음원분리 기법과의 그 성능을 비교하였다. 비교 결과, 제안된 기법이 기존 음원분리 기법들에 비하여 우수한 음원분리 성능을 보이는 것을 알 수 있었다.

증강현실에서 객체와 오디오의 상호작용 (Interaction between Object and Audio in Augmented Reality)

  • 조현욱;이종근;이종혁
    • 한국정보통신학회논문지
    • /
    • 제15권12호
    • /
    • pp.2705-2711
    • /
    • 2011
  • 최근 멀티미디어 기술의 발달, 특히 음향 기술의 급격한 발달과 더불어 고품질 오디오에 대한 요구와 함께보다 현실감 있는 오디오를 재생하기 위한 실감 오디오기술 개발이 요구되고 있다. 이러한 요구를 만족시키기 위해 사용자의 가상현실 및 증강현실에서 실감나는 오디오 효과를 제공해 줄 수 있는 3차원 오디오에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 증강현실에서 좀 더 나은 오디오 기술을 적용하여 실감나는 오디오 효과를 제공해 줄 수 있는 방법을 연구하고자 하였다. 연구한 내용은 가상세계와 실제세계의 현실감을 제공하기 위하여 마커 위에 띄워진 3D 모델의 움직임에 따라서 움직임에 맞는 사운드. 즉, 거리, 각도 등의 변화에 따른 사운드의 크기 및 피치 변화를 줄 수 있도록 하였다.

MPEG-H 3D 오디오 표준 복호화기 구조 및 연산량 분석 (MPEG-H 3D Audio Decoder Structure and Complexity Analysis)

  • 문현기;박영철;이용주;황영수
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.432-443
    • /
    • 2017
  • MPEG-H 3D 오디오 표준은 UHDTV 등의 초고해상도 방송서비스에 대응하는 실감음향 서비스의 제공을 목표로 한다. 이를 위해 본 표준은 다채널 신호, 객체 신호, 장면 기반 신호의 부호화/복호화 기술과 다양한 재생 환경에서 3차원 오디오 제공을 위한 렌더링 기술, 후처리 기술 등 방대한 기술을 통합하였다. 본 표준의 참조 소프트웨어 복호화기는 여러 모듈들이 결합된 구조로 다양한 모드에서 동작이 가능하며, 각 모듈들이 독립된 실행파일로 순차적으로 실행되어 실시간 처리가 불가능하다. 본 논문에서는 MPEG-H 3D 오디오의 코어 복호화기, 포맷 변환기, 객체 렌더러, 바이노럴 렌더러의 각 함수를 동적 라이브러리화 및 통합하여 프레임 기반 복호화가 가능하도록 하였다. 또한 MPEG-H 3D 오디오의 각 모드별 연산량을 측정하여 다양한 하드웨어 플랫폼에서 적합한 모드를 선택하기 위한 참고 자료를 제공한다. 연산량 분석 결과, 한국 방송 표준에 포함된 저연산량 프로파일은 채널 신호로 렌더링을 할 경우 QMF 합성 연산의 2.8배에서 12.4배의 연산량을 가지며, 바이노럴 렌더링을 할 경우 QMF 합성 연산의 4.1배에서 15.3배의 연산량을 가진다.

MPEG-4 시스템 기반의 다시점 전환 시스템 구조 및 재생기 구현 (Multi-View Point switch System Structure & Implementation of Video player in MPEG-4 based)

  • 이준철;이정원;장용석;김승호
    • 전자공학회논문지CI
    • /
    • 제44권1호
    • /
    • pp.80-93
    • /
    • 2007
  • 본 논문은 현재 MPEG-4의 3차원 오디오/비디오(3-Dimensional Audio Video, 3DAV) 기술표준에서 다시점 비디오(Multi-view video)서비스를 제공할 수 있는 객체기술자(Object Descriptor)와 기초스트림기술자(Elementary Stream Descriptor)의 구조를 제안한다. 기존의 MPEG-4 시스템 상에서 확장영역을 사용하여 다시점 동영상 서비스를 제공 할 수 있는 객체기술자와 기초스트림의 구조를 각각 정의 하여 분류한 후 각 경우에 대해 분석한다. 기존 시스템의 확장만으로 송수신측과 연계되어 상관관계가 고려된 다시점 비디오 서비스 제공하는 것이 부적합하다는 것을 보인다. 그리고 다시점 영상 전송시 수신측에서 각 시점간의 상관관계를 고려하여 시점 스위칭을 할 수 있는 새로운 객체 기술자를 추가한 구조를 제안한다. 이를 통하여 다시점 비디오 서비스에서 사용자 요구에 따른 시점 전환을 가능하게 하면서, 필요한 시점에 대한 정보만을 전송해서 수신측에 부하를 줄일 수 있다.

멀티채널 오디오 서비스를 위한 지상파 DMB 미디어처리기 설계 (The Design of Terrestrial DMB Media Processor for Multi-Channel Audio Services)

  • 강경옥;홍재근;서정일
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.186-193
    • /
    • 2005
  • 지상파 디지털멀티미디어방송 (Terrestrial Digital Multimedia Broadcasting, T-DMB)은 7인치 화면에서 VCD급의 고화질 비디오와 CD급의 고품질 오디오를 이동수신 환경에서 제공하는 기술로서, 2005년도 중반부터 상용 서비스가 시작될 예정이다. 그러나, T-DMB 규격에서는 가용 대역폭의 제한으로 인하여 오디오 신호를 위한 대역폭이 128kbps로 제한되어 있으며, 모노와 스테레오 채널 서비스만이 가능하도록 하고 있다. 본 논문은 기존의 T-DMB 수신기과 역호환성 (Backward Compatibility)을 유지하면서 멀티채널 오디오 콘텐츠를 제공할 수 있는 미디어처리기와 재생기 구조를 제안한다. 또한, T-DMB수신기의 다양한 스피커 환경에서도 최적의 오디오 콘텐츠를 제공할 수 있도록, 멀티채널 오디오 콘텐츠를 재생환경에 맞게 적응시킬 수 있는 수신기 구조를 제안한다. 기존의 T-DMB 수신기와 호환성을 유지하면서 멀티채널 오디오 콘텐츠를 제공하기 위하여 멀티채널 오디오를 위한 부가데이터를 메인 오디오 스트림의 종속 스트림으로 정의하였으며, 기존 T-DMB 시스템의 BIFS (Binary Format for Scene)를 수정하지 않고 부가되는 오디오 객체를 제어할 수 있는 OD (Object Descriptor) 구조를 제안한다.

이동 물체를 추적하기 위한 감각 운동 융합 시스템 설계 (The Sensory-Motor Fusion System for Object Tracking)

  • 이상희;위재우;이종호
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제52권3호
    • /
    • pp.181-187
    • /
    • 2003
  • For the moving objects with environmental sensors such as object tracking moving robot with audio and video sensors, environmental information acquired from sensors keep changing according to movements of objects. In such case, due to lack of adaptability and system complexity, conventional control schemes show limitations on control performance, and therefore, sensory-motor systems, which can intuitively respond to various types of environmental information, are desirable. And also, to improve the system robustness, it is desirable to fuse more than two types of sensory information simultaneously. In this paper, based on Braitenberg's model, we propose a sensory-motor based fusion system, which can trace the moving objects adaptively to environmental changes. With the nature of direct connecting structure, sensory-motor based fusion system can control each motor simultaneously, and the neural networks are used to fuse information from various types of sensors. And also, even if the system receives noisy information from one sensor, the system still robustly works with information from other sensors which compensates the noisy information through sensor fusion. In order to examine the performance, sensory-motor based fusion model is applied to object-tracking four-foot robot equipped with audio and video sensors. The experimental results show that the sensory-motor based fusion system can tract moving objects robustly with simpler control mechanism than model-based control approaches.

MPEG-4 Over MPEG-2 TS로부터 MP4 파일로의 포맷 변환기 설계 (Design of a Format Converter from MPEG-4 Over MPEG-2 TS to MP4)

  • 최재영;정제창
    • 방송공학회논문지
    • /
    • 제5권2호
    • /
    • pp.176-187
    • /
    • 2000
  • 본 논문에서는 MPEG-2 시스템 층의 하나인 방송 및 전송을 위한 트랜스포트 스트림(TS)상에 MPEG-4 데이터를 구조화하여 MPEG-4 Over MPEG-2 TS 비트 스트림을 만드는 방법과 이를 저장 매체 포맷중 하나인 MP4 파일로 변환하는 방법에 관한 연구이다. MPEG-4는 객체 단위의 부호화 비트 스트림으로 구성되기 때문에 이들 객체의 속성을 표현하는 객체 기술자, 객체들간의 시공간 관계를 표현하는 장면 기술자가 필요하며 또한 모든 객체들간의 복호화 정보와 객체간의 동기화를 위해 다양한 여러 가지 기술자들이 필요한데 이런 다양한 MPEG-4 비트 스트림을 어떻게 MPEG-2 TS 규격에 맞게 전송하는가에 초점을 두었다. 또한 설계한 MPEG-4 Over MPEG-2 TS 비트 스트림을 저장매체를 대상으로 하는 새로운 파일 규격인 MP4 파일로 변환하는 알고리듬을 제시하고 구현 방법을 소개한다.

  • PDF

유효 잡음을 활용한 FTV 입체음향 개선방안 연구 (A Study on Immersive Audio Improvement of FTV using an effective noise)

  • 김종운;조현석;이윤배;여성대;김성권
    • 한국전자통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.233-238
    • /
    • 2015
  • 본 논문에서는 FTV(Free-viewpoint TV) 서비스에서, 몰입도를 향상시킬 수 있는 유효 잡음 이용 입체 음향효과 방법을 제안한다. 농구장에서 초지향성 마이크 및 무선 마이크를 사용하여 선수와 심판의 연속적인 음향 정보를 획득함으로써 주파수 스펙트럼을 관찰하였으며, 스펙트럼을 분석하여 시청자가 Zoom-in을 할 경우, 유효 주파수 여부를 판단하였다. 따라서 FTV 서비스에서 시청자가 피사체를 향해 Zoom-in 시, 제거대상이었던 잡음을 활용할 필요가 있음을 제시하였다. 본 연구는 향후 FTV의 입체 음향 연구에 활용될 것으로 기대된다.