• Title/Summary/Keyword: Audio Effect

Search Result 183, Processing Time 0.027 seconds

유효 잡음을 활용한 FTV 입체음향 개선방안 연구 (A Study on Immersive Audio Improvement of FTV using an effective noise)

  • 김종운;조현석;이윤배;여성대;김성권
    • 한국전자통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.233-238
    • /
    • 2015
  • 본 논문에서는 FTV(Free-viewpoint TV) 서비스에서, 몰입도를 향상시킬 수 있는 유효 잡음 이용 입체 음향효과 방법을 제안한다. 농구장에서 초지향성 마이크 및 무선 마이크를 사용하여 선수와 심판의 연속적인 음향 정보를 획득함으로써 주파수 스펙트럼을 관찰하였으며, 스펙트럼을 분석하여 시청자가 Zoom-in을 할 경우, 유효 주파수 여부를 판단하였다. 따라서 FTV 서비스에서 시청자가 피사체를 향해 Zoom-in 시, 제거대상이었던 잡음을 활용할 필요가 있음을 제시하였다. 본 연구는 향후 FTV의 입체 음향 연구에 활용될 것으로 기대된다.

비교사 토론 인덱싱을 위한 시청각 콘텐츠 분석 기반 클러스터링 (Audio-Visual Content Analysis Based Clustering for Unsupervised Debate Indexing)

  • 금지수;이현수
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.244-251
    • /
    • 2008
  • 본 연구에서는 시청각 정보를 이용한 비교사 토론 인덱싱 방법을 제안한다. 제안하는 방법은 BIC (Bayesian Information Criterion)에 의한 음성 클러스터링 결과와 거리기반 함수에 의한 영상 클러스터링 결과를 결합한다. 시청각 정보의 결합은 음성 또는 영상 정보를 개별적으로 사용하여 클러스터링할 때 나타나는 문제점을 줄일 수 있고, 토론 데이터의 효과적인 내용 기반의 분석이 가능하다. 제안하는 방법의 성능 평가를 위해 서로 다른 5종류의 토론 데이터에 대해 음성, 영상 정보를 개별적으로 사용할 때와 두 가지 정보를 동시에 사용할 때의 성능 평가를 수행하였다. 실험 결과 음성과 영상 정보를 결합한 방법이 음성, 영상 정보를 개별적으로 사용할 때 보다 토론 인덱싱에 효과적임을 확인하였다.

UHDTV를 위한 10.2 채널 기반 다채널 오디오 재현 기술 (Multichannel Audio Reproduction Technology based on 10.2ch for UHDTV)

  • 이태진;유재현;서정일;강경옥;김환우
    • 방송공학회논문지
    • /
    • 제17권5호
    • /
    • pp.827-837
    • /
    • 2012
  • 방송 환경이 점차 디지털로 발전해 나가면서, HDTV를 넘어서는 차세대 방송서비스에 관한 관심이 증대되고 있다. 차세대 방송 서비스는 2차원 영상 서비스에서 3차원 영상 서비스로, HD급 영상 서비스에서 UHD(Ultra High Definition)급 영상 시비스로, 5.1 채널 오디오 서비스에서 10 채널 이상의 다채널 오디오 서비스로 진화하여 고품질의 실감 방송 서비스를 제공하는 것을 목표로 하고 있다. 본 논문에서는 UHDTV 방송 서비스 환경에서 고품질의 오디오 서비스를 제공하기 위한 10.2 채널 기반의 다채널 오디오 재현 기술에 대해 설명한다. 10.2 채널 재현 시스템은 기존 5.1 채널 시스템을 기반으로 측면에 2개의 스피커를 추가하여 측면의 음상정위 성능을 향상시켰으며, 전면에 2개의 수직면 스피커와 후면에 1개의 천정 스피커를 추가하여 수평면 뿐 아니라 수직면에서의 음상정위가 가능하다. 10.2 채널 시스템에 대한 성능을 평가하기 위해 APM 모델을 활용한 객관적 음상정위 평가와 22.2 채널과 10.2 채널 재현시스템을 구축하여 청취자를 통한 실제 주관적 음상정위 평가를 수행하였다. 객관적, 주관적 음상정위 평가 결과 10.2 채널 시스템은 22.2 채널 시스템과 통계학적으로 동일한 음성정위 평가 결과를 보였고, 기존 5.1 채널 시스템 대비 우수한 음상정위 평가결과를 보여주었다.

시청각기록물의 기술요소 확장에 관한 연구 (A Study on the Extension of the Description Elements for Audio-visual Archives)

  • 남영준;문정현
    • 한국비블리아학회지
    • /
    • 제21권4호
    • /
    • pp.67-80
    • /
    • 2010
  • 정보산업의 발달로 다양한 기록매체가 출현함에 따라 시청각기록물의 생산량과 이용률이 급증하였으나, 시청각기록물에 대한 인식은 부수적인 가치를 지닌 별도의 기록물로 취급되고 있다. 이와 같이 시청각기록물을 소장하고 있는 기관들은 그 형태의 종류와 보관방법 등의 부분에서 상당히 취약한 면모를 보이고 있으며, 관리하는 방식도 모두 다르기 때문에 이용자들이 시청각기록물의 검색 및 활용에 불편을 겪고 있다. 따라서 본 연구는 국내 주요 기관에서 사용되고 있는 시청각기록물 기술요소의 비교 분석을 통해 시청각기록물의 통합관리 가능성을 조사하였다. 이를 통해 시청각기록물의 기관별 메타데이터 요소와 기관 간 통합관리 가능성을 파악하며, 각 기관에서의 효율적인 시청각기록물의 관리 검색 서비스 제공과 이용에 대한 효과를 제안하고, 시청각기록물의 통합 메타데이터 기술요소 개선안을 제시하였다.

정현파 모델을 이용한 오디오 신호의 심리음향적 분석 및 합성 (Analysis and Synthesis of Audio Signals using a Sinusoidal Model with Psychoacoustic Criteria)

  • 남승현;강경옥;홍진우
    • 한국음향학회지
    • /
    • 제18권2호
    • /
    • pp.77-82
    • /
    • 1999
  • 정현파 모델은 음성과 오디오 신호의 분석과 합성에 많이 활용되어 왔으며 최근 고음질 저비트율 오디오 부호화에 효율적인 방법의 하나로 대두되고 있다. 정현파 모델을 이용한 오디오 신호의 분석과 합성에서 중요한 단계 중의 하나는 순음의 검출이다. 본 논문은 정현파를 이용한 오디오 신호의 분석과 합성에 매스킹 효과와 매스킹 인덱스 그리고 JNDf(Just Noticeable Difference in Frequency) 등의 심리음향적 기준들을 활용하는 효율적인 방안을 제안하였다. 모의실험 결과, 심리음향적 기준을 사용하면 합성된 음질에 거의 영향을 주지 않으면서 합성에 사용되는 정현파의 개수를 현저하게 줄일 수 있었음을 알 수 있었다.

  • PDF

악기별 분리처리를 통한 고음질 오디오 시스템 구현 (Implementation of the High-Quality Audio System with the Separately Processed Musical Instrument Channels)

  • 김태훈;이상학;김대경;이상찬
    • 한국음향학회지
    • /
    • 제32권4호
    • /
    • pp.346-353
    • /
    • 2013
  • 본 논문에서는 노래반주기를 위한 고음질 오디오 시스템 구현에 관한 내용을 담고 있다. 노래반주기의 중요한 기능인 키/템포 변환 음질의 개선을 위하여 악기별 채널 분리를 수행하였다. 악기별로 채널을 분리하여 처리함으로 고음질의 변환이 수행됨을 상관계수의 변화와 MOS 평가를 통하여 확인할 수 있었다. 구현된 오디오 시스템은 TI사의 32비트 부동 소수점과 고정 소수점 연산이 모두 가능한 DSP인 TMS320C6747를 이용하였으며 다채널의 WMA 복호화, MP3 부호화와 복호화, wav, EQ 및 템포/키 변환을 실시간으로 수행 가능하다. WMA 10채널로 구성되어 악기별 분리 처리가 가능도록 하였다. 또한 MP3 부호화/복호화는 녹음과 재생 기능으로 이용되고 wav 채널은 효과음 등으로 사용 가능하다.

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

토널 특성을 이용한 브라인드 오디오 워터마킹 (A Blind Audio Watermarking using the Tonal Characteristic)

  • 이희숙;이우선
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.816-823
    • /
    • 2003
  • 이 논문에서는 토널 특성을 이용한 브라인드 오디오 워터마킹을 제안한다. 먼저 기존의 심리음향연구를 통해 토널의 인지영향에 대해 살펴보고, 토널 성분이 여러 신호처리 후 변동측면에서 매우 안정적인 특성을 가짐을 다른 워터마크에 이용되는 특성들과 비교하여 보였다. 이를 기반으로 토널 마스커를 구성하는 주파수 신호들의 관계를 이용한 브라인드 오디 오 워터마킹(blind audio watermarking) 기법을 제안하였다. 이 기법이 적용된 오디오에 대한 SDG(Subjective Diff-Grades) 음질평가에서 평균 SDG 0.27의 결과를 얻었고 이는 비지각성 면에서 토널의 인지 영향을 이용한 워터마킹이 유용하다고 볼 수 있다. 또한 time shift를 제외한 여러 신호처리 후의 워터마크 추출 결과는 98%이상으로 제안한 워터마킹의 강인성을 보였다. Time shift처리에 대해서는 시간 축 상에서 최적의 위치를 찾아 추출하는 새로운 방법을 적용하여 추출율 90%의 결과를 얻었다.

  • PDF

시간-주파수 구조에 근거한 지각적 오디오 부호화기 (A Perceptual Audio Coder Based on Temporal-Spectral Structure)

  • 김기수;서호선;이준용;윤대희
    • 방송공학회논문지
    • /
    • 제1권1호
    • /
    • pp.67-73
    • /
    • 1996
  • 일반적으로 고음질 오디오 부호화 방법은 전통적인 데이터 압축 기법과 인간의청각 모델을 결합한 구조를 갖고 있다. 고음질 오디오 부호화에 사용되는 주요한 청각 특성은 주파수 영역에서의 마스킹 현상이므로 서브밴드 부호화나 변환 부호화와 같은 주파수 영역 방법들이 널리 사용된다[1][2]. 그러나 지금까지의 고음질 오디오 부호화에서 시간 영역 마스킹과 시간 영역 중복성을 제거하는 방법은 적용되지 않았다. 본 논문에서 제안한 오디오 데이터 압축 방법은 시간 및 주파수 영역에서 통계적, 지각적 중복성을 제거한다. 주파수 영역으로 변환된 오디오 신호는 6프레임으로 구성된 패킷으로 나뉘어진다. 한 패킷은 1536 샘플 ($256{\times}6$)로 되어 있으며 패킷 내에서의 중복성은 시간 및 주파수 영역에서 존재한다. 각 패킷에서 두 중복성이 동시에 제거되어진다. 심리음향 모델에 있어서도 세밀한 주파수 마스킹과 함께 시간 영역 마스킹을 고려하여 보다 정확한 결과를 얻을 수 있도록 향상되었다. 양자화를 위해서 각 패킷은 비선형적인 임계 대역과 시간적인 청각 특성을 반영할 수 있도록 설계된 부블럭으로 분할되었다. 따라서 낮은 비트율에서 고음질의 복원음을 얻을 수 있었다.

  • PDF

MPEG-I AEP 기반 실시간 6 자유도 공간음향 렌더링 시스템 (A Real Time 6 DoF Spatial Audio Rendering System based on MPEG-I AEP)

  • 강경옥;유재현;장대영;이용주;이태진
    • 방송공학회논문지
    • /
    • 제28권2호
    • /
    • pp.213-229
    • /
    • 2023
  • 본 논문에서는 가상환경에 위치한 청취자의 움직임에 대응하여 실시간으로 6DoF 공간음향을 제공하는 공간음향 렌더링 시스템에 대해 소개한다. 본 시스템은 MPEG-I Immersive Audio CfP 대응을 위하여 MPEG-I AEP를 개발환경으로 사용하여 구현되었으며 인코더와, 디코더를 포함하는 렌더러로 구성된다. 인코더는 인코더 입력 포맷(EIF) 파일에 포함된 가상공간 장면의 공간적 오디오 파라미터와, SOFA 파일로 제공되는 음원의 지향성 정보 등의 메타데이터를 오프라인으로 부호화하여 비트스트림으로 전달하는 역할을 하며, 렌더러는 전달된 비트스트림을 수신하여 청취자의 위치에 따라 실시간으로 6DoF 공간음향 렌더링을 수행한다. 개발된 렌더링 시스템에 적용한 주요 공간음향 처리 기술로는 음원 효과 및 장애물 효과 처리 기술이 있으며, 그 외 시스템 동작에 필요한 기술로는 도플러 효과 및 음장효과 처리 기술 등이 있다. 개발된 시스템에 대한 성능평가 결과로서 자체 주관평가 결과를 소개한다.