• 제목/요약/키워드: 오디오 추출

검색결과 170건 처리시간 0.023초

오디오 전처리 방법에 따른 콘벌루션 신경망의 환경음 분류 성능 비교 (Comparison of environmental sound classification performance of convolutional neural networks according to audio preprocessing methods)

  • 오원근
    • 한국음향학회지
    • /
    • 제39권3호
    • /
    • pp.143-149
    • /
    • 2020
  • 본 논문에서는 딥러닝(deep learning)을 이용하여 환경음 분류 시 전처리 단계에서 사용하는 특징 추출 방법이 콘볼루션 신경망의 분류 성능에 미치는 영향에 대해서 다루었다. 이를 위해 환경음 분류 연구에서 많이 사용되는 UrbanSound8K 데이터셋에서 멜 스펙트로그램(mel spectrogram), 로그 멜 스펙트로그램(log mel spectrogram), Mel Frequency Cepstral Coefficient(MFCC), 그리고 delta MFCC를 추출하고 각각을 3가지 분포로 스케일링하였다. 이 데이터를 이용하여 4 종의 콘볼루션 신경망과 이미지넷에서 좋은 성능을 보였던 VGG16과 MobileNetV2 신경망을 학습시킨 다음 오디오 특징과 스케일링 방법에 따른 인식률을 구하였다. 그 결과 인식률은 스케일링하지 않은 로그 멜 스펙트럼을 사용했을 때 가장 우수한 것으로 나타났다. 도출된 결과를 모든 오디오 인식 문제로 일반화하기는 힘들지만, Urbansound8K의 환경음이 포함된 오디오를 분류할 때는 유용하게 적용될 수 있을 것이다.

오디오의 파형과 FFT 분석을 이용한 대표 선율 검색 (Representative Melodies Retrieval using Waveform and FFT Analysis of Audio)

  • 정명범;고일주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권12호
    • /
    • pp.1037-1044
    • /
    • 2007
  • 최근 내용 기반 음악 검색 시스템에서는 사용자의 응답 시간을 단축시키기 위해 음악의 대표성을 갖는 선율을 추출하여 색인하고, 검색 시 이를 사용한다. 기존 연구에서는 미디(midi) 데이타를 이용하여 대표 선율을 추출하는 방법이 제안되었으나, 미디 데이타에 한정되는 단점이 있었다. 따라서 본 논문에서는 디지털 신호처리를 이용하여 모든 오디오 파일 포맷에 적용 가능한 대표 선율 검색을 제안한다. 대표 선율 검색을 위해 FFT(Fast Fourier Transform)을 이용하여 박자와 마디를 찾고 각 마디들의 PCM 데이타로부터 높은 수치가 나타나는 빈도를 측정한다. 이때 높은 수치들이 가장 많이 뭉쳐 있는 영역에서 여덟 마디 간격이 오디오 데이타의 대표 선율 영역이다. 제안 방법의 유효성을 검증하기 위한 실험으로 총 1000곡을 선택하여 대표 선율을 추출하였고, 그 결과 템포를 찾아낸 737곡 중 79.5%의 정확성을 보였다.

비디오 의미 파악을 위한 멀티미디어 요약의 비동시적 오디오와 이미지 정보간의 상호 작용 효과 연구 (A Study on the Interactive Effect of Spoken Words and Imagery not Synchronized in Multimedia Surrogates for Video Gisting)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.97-118
    • /
    • 2011
  • 본 연구는 오디오 및 이미지 정보가 비동시적으로 결합된 오디오/이미지 요약이 오디오 요약 또는 이미지 요약만 사용했을 때 보다 어떤 상호 작용 효과를 가지고 있는지 살펴보았다. 이를 위해서 오디오/이미지 요약, 오디오 요약 및 이미지 요약을 비디오의 의미 추출에 있어서의 정확도 즉, 요약문 및 항목 선택의 정확도와 이용자들의 이 세 가지 요약에 대한 관점을 비교, 분석하였다. 분석 결과, 요약문 정확도에서는 비디오 유형에 관계없이 상호작용 효과를 확인하였으나 항목 선택의 정확도에서는 상호 작용 효과가 입증되지 못했다. 끝으로 이용자들은 오디오/이미지 요약에 대해 오디오와 이미지 정보를 병행하여 시청함으로서 비디오 내용에 대한 이해를 빠르게 하지만 때로는 이 두 정보간의 비동시성으로 인하여 비디오 의미 파악을 방해하는 경우도 생겨난다고 기술하였다.

스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술 (Audio Genre Classification based on Deep Learning using Spectrogram)

  • 장우진;윤호원;신성현;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.90-91
    • /
    • 2016
  • 본 논문에서는 스펙트로그램을 이용한 딥 러닝 기반의 오디오 장르 분류 기술을 제안한다. 기존의 오디오 장르 분류는 대부분 GMM 알고리즘을 이용하고, GMM의 특성에 따라 입력 성분들이 서로 직교한 성질을 갖는 MFCC를 오디오의 특성으로 사용한다. 그러나 딥 러닝을 입력의 성질에 제한이 없으므로 MFCC보다 가공되지 않은 특성을 사용할 수 있고, 이는 오디오의 특성을 더 명확히 표현하기 때문에 효과적인 학습을 할 수 있다. 본 논문에서는 딥 러닝에 효과적인 특성을 구하기 위하여 스펙트로그램(spectrogram)을 사용하여 오디오 특성을 추출하는 방법을 제안한다. 제안한 방법을 사용한면 MFCC를 특성으로 하는 딥 러닝보다 더 높은 인식률을 얻을 수 있다.

  • PDF

랜덤신호를 이용한 오디오 워터마킹 (Audio Watermarking by use of Random Sequences)

  • 박창목;신승원;김종원;신동환;최종욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2000년도 정기총회 및 학술대회
    • /
    • pp.37-41
    • /
    • 2000
  • 본 연구는 디지털 오디오 데이터의 전송 및 배포과정에서 필요한 워터마크기술에 관한 것이 다. 삽입 방법은 일종의 확산 스펙트럼 방식으로 특정 Key 에 의해 생성된 의사난수신호를 인간의 가청주파수모델과 오디오 신호의 특성에 따라 조작 한 후 삽입하게 된다. 이러한 주파수 조작은 데이터 은닉의 inaudibility 와 audio compression에의 견고성을 위하여 필요 한 사항이다. 워터마크 추출과정에서는 일정한 길이의 오디오 신호 앙상블 평균을 구하고, 이 신호와 워터마크와의 상호 상관함수를 구하여 워터마크의 삽입 유무를 판단하게 된다. 알고리즘의 테스트 결과 본 기술은 오디오 압축 및 오디오 조작에 강인한 것으로 나타났다.

  • PDF

미디어에서의 오디오 메타데이터 최적화 추출 및 분류 방안에 대한 연구 (A Research of Optimized Metadata Extraction and Classification of in Audio)

  • 윤민희;박효경;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.147-149
    • /
    • 2021
  • 최근 미디어의 시장의 급격한 성장과 그에 따른 사용자들의 기대감이 증가하고 있다. 이 연구에서는 미디어에서 추출한 오디오를 통하여 다양한 태그를 추출하고 인공지능을 활용하여 특정 카테고리로 분류한다. 이 카테고리는 감정에 대한 종류이며 기쁨, 분노, 슬픔, 즐거움, 사랑, 증오, 욕망 등이 있을 수 있다. 해당 연구를 수행하기 위하여 Jupyter Notebook 프로그램을 사용하며, Jupyter Notebook 내에서 LiBROSA 라이브러리를 이용하여 음성데이터를 분석하고 Keras와 계층 모델을 이용하여 Neural Network를 학습한다.

  • PDF

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

비디오의 오디오 정보 요약 기법에 관한 연구 (Investigating the Efficient Method for Constructing Audio Surrogates of Digital Video Data)

  • 김현희
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.169-188
    • /
    • 2009
  • 본 연구는 비디오의 오디오 정보를 추출하여 자동으로 요약하는 알고리즘을 설계하고, 제안된 알고리즘에 의해서 구성한 오디오 요약의 품질을 평가하여 효율적인 비디오 요약의 구현 방안을 제안하였다. 구체적인 연구 결과를 살펴보면 다음과 같다. 먼저, 제안 오디오 요약의 품질이 위치 기반 오디오 요약의 품질 보다 내재적 평가에서 더 우수하게 나타났다. 이용자 평가(외재적 평가)의 요약문 정확도에서는 제안 요약문이 위치 기반 요약문 보다 더 우수한 것으로 나타났지만, 항목 선택에서는 이 두 요약문간의 성능 차이는 없는 것으로 나타났다. 이외에 비디오 브라우징을 위한 오디오 요약에 대한 이용자 만족도를 조사하였다. 끝으로 이러한 조사 결과를 기초로 하여 제안된 오디오 요약 기법을 인터넷이나 디지털 도서관에 활용하는 방안들을 제시하였다.

3DTV 향 3D 영상 정보를 이용한 3D 오디오 원근감 재현 기술 (3D Audio Rendering Method based on 3D Video Information for 3DTV)

  • 김선민;이영우;김승훈;이승수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.204-207
    • /
    • 2011
  • 본 논문에서는 3DTV 의 입체감 향상을 위한 3D 음향의 원근감 재현 기술을 제안한다. 먼저, 3D 영상 객체의 깊이를 추출하고 영상 객체의 깊이에 따라 오디오 객체의 거리감을 조절한다. 오디오 거리감 재현을 위해 필요한 오디오 깊이 인자는 3D 영상의 좌/우 이미지의 차이 정보로부터 오디오에 맞도록 비선형 변환을 통해 구해진다. 3D 오디오 재현 알고리즘은 기존의 서라운드 입체음향 기술과 원근감 재현 기술로 구성된다. 원근감 재현 기술은 추정된 오디오 깊이 인자에 따라 신호크기, 초기 반사음, 근거리 머리전달함수, 위상 제어를 통해서 구현된다. 특히, 3D 영상 객체가 화면 앞으로 튀어 나올 때 소리도 튀어나오도록 함으로써 3D 영상 객체와 연동되는 입체 음향을 효과를 통해 3D 방송 시청 시 오디오/비디오 입체감을 향상시켜준다. 상용화된 3DTV 를 활용하여 음질 평가 전문가들의 주관 청취 평가를 통해 제안한 원근감 재현 기술이 3D 방송 시청에 적합함을 검증한다.

  • PDF

TV 광고 식별을 위한 Constant-Q 변환 기반의 오디오 핑거프린팅 방식 (Audio Fingerprinting Based on Constant Q Transform for TV Commercial Advertisement Identification)

  • 류상현;김형국
    • 한국음향학회지
    • /
    • 제33권3호
    • /
    • pp.210-215
    • /
    • 2014
  • 오디오 핑거프린팅 기술은 잡음과 에코 등으로 인한 왜곡에도 성공적으로 음원을 식별해야한다. 이러한 오디오 핑거프린팅 기술을 TV광고식별에 적용하고자 한다. 본 논문은 TV 광고 식별을 위한 강인한 오디오 핑거프린팅 방식을 제안한다. 제안된 방법에서 사용되는 Constant Q 변환 기반에서 추출된 현저한 오디오 피크 쌍 핑거프린트는 실제 다양한 잡음환경에서 오디오 핑거프린팅 시스템의 정확도를 향상시키고, 낮은 복잡도를 가진다. 실험결과는 제안된 방식이 기존의 오디오 핑거프린팅 방식에 비해 다양한 잡음환경에서도 안정적이며 신뢰할 수 있는 검색 정확도를 제공함을 보여준다.