• 제목/요약/키워드: audio spectrum

검색결과 83건 처리시간 0.022초

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.

시간축 변형을 고려한 디지털 오디오의 계층적 워터마크 (Robust Layered Watermarking of Digital Audio for Possible Timing Changes)

  • 정사라;홍진우
    • 한국음향학회지
    • /
    • 제21권8호
    • /
    • pp.719-726
    • /
    • 2002
  • 본 논문에서는 디지털 오디오 신호에 부가 정보를 삽입하는 기술로써 계층적 워터마크를 사용하여 시간축 변형을 감지할 수 있고, 필요에 따라 검출 복잡도를 조절할 수 있는 기법을 제안한다. 1계층 워터마크는 오디오신호의 시간축 변형을 감지할 수 있도록 오디오 신호의 반향을 이용하고, 2계층 워터마크는 1계층 워터마크된 오디오 신호를 기준으로 대역 확산 기법을 이용하여 저작권 정보 등의 요구량이 많은 부가 정보를 삽입한다. 이 때, 2계층 워터마크는 프레임의 동기 확보를 위한 동기 수열, 다른 하나는 부가 정보 삽입을 위한 데이터 수열, 두 개를 이용한다 검출기에서는 시스템의 요구 사항에 따라 1계층, 2계층 전단계, 2계층 본단계 등의 계층적 순서로 검출할 수 있으며, 각 계층은 데이터에 가해진 변형 정도를 추정하여 다음 계층의 검출단에 정보를 제공한다. 여러 가지 실험 결과를 통하여 제안한 방식이 다양한 신호 처리에 강인함을 보였다.

차분 특징을 이용한 평균-교사 모델의 음향 이벤트 검출 성능 향상 (Performance Improvement of Mean-Teacher Models in Audio Event Detection Using Derivative Features)

  • 곽진열;정용주
    • 한국전자통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.401-406
    • /
    • 2021
  • 최근 들어, 음향 이벤트 검출을 위하여 CRNN(: Convolutional Recurrent Neural Network) 구조에 기반 한 평균-교사 모델이 대표적으로 사용되고 있다. 평균-교사 모델은 두 개의 병렬 형태의 CRNN을 가진 구조이며, 이들의 출력들의 일치성을 학습 기준으로 사용함으로서 약-전사 레이블(label)과 비-전사 레이블 음향 데이터에 대해서도 효과적인 학습이 가능하다. 본 연구에서는 최신의 평균-교사 모델에 로그-멜 스펙트럼에 대한 차분 특징을 추가적으로 사용함으로서 보다 나은 성능을 이루고자 하였다. DCASE 2018/2019 Challenge Task 4용 학습 및 테스트 데이터를 이용한 음향 이벤트 검출 실험에서 제안된 차분특징을 이용한 평균-교사모델은 기존의 방식에 비해서 최대 8.1%의 상대적 ER(: Error Rate)의 향상을 얻을 수 있었다.

PW 도플러 시스템에서 Base Line 이동 기법을 이용한 오디오 신호 처리 방법 (Audio Processing Algorithm Using Base Line Shift Method in Pulsed Doppler Systems)

  • 김기덕;송태경
    • 대한의용생체공학회:의공학회지
    • /
    • 제20권3호
    • /
    • pp.275-281
    • /
    • 1999
  • 현재 널리 쓰이고 있는 PW 도플러 시스템 주파수가 나이퀴스트 주파수를 초과할 경우 스텍트럼 aliasing 현상에 의하여 정확한 혈류 속도의 측정을 할 수 없다는 문제점을 가지고 있다 . 도플러 스펙트럼의 aliasing 현상을 극복하기 위하여 통상적으로 기준선 (Base Line) 이동기법을 사용하고 있으나 도플러 오디오 신호는 aliasing 된채로 남게 된다. 이 논문에서는 주파수 천이 및 필터링 기법들을 적절히 적용하여 기준선 이동시 도플러 스텍트럼과 오디오 신호의 aliasing 현상을 함께 제거할 수 있는 기법을 제안한다. 제안된 방법은 단방향 혈류 성분을 검사하는 경우 aliasing 현상 없이 측정 가능한 도플러 주파수를 나이퀴스트 주파수의 두배인 PRF 까지 증가되도록 한다. 실제 시스템에서 얻어진 신호를 이용하여 제안된 방법을 실험적으로 검증하였다.

  • PDF

특정 주파수계수를 이용한 오디오 워터마킹 (Audio Watermarking Using Specific Frequency Coefficients)

  • 우동훈;정의필
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.269-275
    • /
    • 2003
  • 본 논문에서는 공격에 강인하면서 원본데이터의 변형을 작게 하는 워터마크삽입 방법을 제안하였다. 제안된 방법은 스프레드 스펙트럼 방법을 이용하여 워터마크를 삽입시 주파수 계수가 큰 값 순이 아닌 특정 범위의 값에 워터마크를 삽입함으로써 고음질의 워터마크가 삽입된 데이터를 얻을 수 있었으며, 워터마크가 삽입된 데이터에 MP3 압축, FFT 필터링, Cropping 및 Echo등의 공격을 가한 후 워터마크 추출실험을 해 본 결과 모든 공격에 대해 α가 0.5이상인 경우에는 워터마크 추출이 가능하였다. Cox가 제안한 방법보다 SNR면에서 훨씬 좋은 성능을 보였다.

복층 자기부호화기를 이용한 음향 신호 군집화 및 분리 (Audio signal clustering and separation using a stacked autoencoder)

  • 장길진
    • 한국음향학회지
    • /
    • 제35권4호
    • /
    • pp.303-309
    • /
    • 2016
  • 본 논문은 자기부호화기를 이용한 음향신호 분리방법을 제안한다. 사용된 복층구조 신경망 자기부호화기는 입력 신호의 효율적인 표현방법을 자동으로 학습하며, 유사한 특징을 가지고 있는 요소신호들을 군집함으로써 다른 특징의 신호들을 분리할 수 있다. 시간영역과 주파수영역의 변이특성을 추출하기 위하여 단구간푸리에변환(Short-Time Fourier Transform, STFT)을 수행하였으며, 정해진 크기의 사각형 창을 모든 가능한 위치에 적용하여 얻은 단구간 주파수 스펙트럼을 자기부호화기의 입력으로 사용하였다. 자기부호화기의 부호노드들의 값을 이용하여 유사한 스펙트럼 창들을 군집하고, 이를 이용하여 원래의 음원들로 분리해 낼 수 있었다. 분리된 원음들은 원래의 입력신호의 특징을 확실히 나타내었으며, 기존의 비음수 행렬분해(Non-negative Matrix Factorization, NMF) 결과와 주파수 스펙트럼 비교를 통해 그 유효성을 보일 수 있었다.

A Frequency-Domain Normalized MBD Algorithm with Unidirectional Filters for Blind Speech Separation

  • Kim Hye-Jin;Nam Seung-Hyon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제24권2E호
    • /
    • pp.54-60
    • /
    • 2005
  • A new multichannel blind deconvolution algorithm is proposed for speech mixtures. It employs unidirectional filters and normalization of gradient terms in the frequency domain. The proposed algorithm is shown to be approximately nonholonomic. Thus it provides improved convergence and separation performances without whitening effect for nonstationary sources such as speech and audio signals. Simulations using real world recordings confirm superior performances over existing algorithms and its usefulness for real applications.

Auditory Model Design for Objective Audio Quality Measurement

  • Dongil Seo;Park, Se-Hyoung;Ryu, Seung-wan;Jaeho Shin
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -3
    • /
    • pp.1717-1720
    • /
    • 2002
  • Objective quality measurement schemes that in- corporate properties of the human auditory system. The basilar membrane(BM) acts as a spectrum analyzer, spatially decomposing the signal into frequency components. Each filterbank is an implementation of the ERB, gam-machirp function. This filterbank is level-dependent asymmetric compensation filters. And for the validation of the auditory model, we calculate the CPD. Quality measurement is obtained from the result.

  • PDF

다채널 마이크로폰 음향장치에 관한 연구 (A Study on the Multi-Channel Microphone)

  • 김철운
    • 한국전기전자재료학회:학술대회논문집
    • /
    • 한국전기전자재료학회 2003년도 춘계학술대회 논문집 기술교육전문연구회
    • /
    • pp.96-102
    • /
    • 2003
  • Today, stage technology is developing highly by application of digital computer. Performance is composed of audio/video and acoustic technology takes very important position in field of stage technology. Generally speaking, four factors of sound are loudness, pitch, sound timbre and duration. Loudness depends on sound pressure level, yet partly related with spectrum and dulation. Pitch depends mainly on frequence and have a relation with sound pressure and duration. sound timbre depends strongly on spectrum and have a relation with frequence. In this paper, I designed a multi-microphone system which can used in broadcasting and performance stage with vicboss 200MHz-VHF wireless microphone and vicboss 900MHz-VHF wireless microphone. I also studied about multi-microphone which can use conveniently in the super play that needs many microphones. If this multi-microphone is prodused, we could expect better sound quality and a big progress in stereo recording technology.

  • PDF

공간 상에 원하는 음장형상을 만드는 방법 (How to make spatially focused sound shape: wavenumber spectrum matching)

  • 박진영;김양한
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2007년도 추계학술대회논문집
    • /
    • pp.1014-1017
    • /
    • 2007
  • Sound focusing technologies has been studied for various purposes from early 1990s. As a result, these technologies make us possible to apply in many uses. For example, we can treat tumors using focused ultrasonic waves without surgical knife and communicate in the ocean using time reversal array. Also applications for personal audio system become issues. Recently, as technologies are developing, in some applications, needs for regional focusing become increasing because previously suggested focusing methods, such as phase conjugation, time reversal and inverse filtering, were all about a point focusing. Therefore, studies on regional focusing method are essentially needed. Regional focusing method was firstly mentioned by Choi and Kim in 2002: acoustic contrast control. However, in regional focusing, physical interpretations between control variables and results are still not easy because of its complexity. In this regard, we tried to understand the relations between control variables and results in wavenumber domain and suggested a solution method for regional focusing: wavenumber spectrum matching. We also showed how to make spatially focused sound shape using the suggested method from the simplest case: line focusing.

  • PDF