• Title/Summary/Keyword: 오디오 추출

Search Result 170, Processing Time 0.028 seconds

Automatic Equalizer Control Method Using Music Genre Classification in Automobile Audio System (음악 장르 분류를 이용한 자동차 오디오 시스템에서의 이퀄라이저 자동 조절 방식)

  • Kim, Hyoung-Gook;Nam, Sang-Soon
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.8 no.4
    • /
    • pp.33-38
    • /
    • 2009
  • This paper proposes an automatic equalizer control method in automobile audio system. The proposed method discriminates the music segment from the consecutive real-time audio stream of the radio and the equalizer is controlled automatically according to the classified genre of the music segment. For enhancing the accuracy of the music genre classification in real-time, timbre feature and rhythm feature extracted from the consecutive audio stream is applied to GMM(Gaussian mixture model) classifier. The proposed method evaluates the performance of the music genre classification, which classified various audio segments segmented from the audio signal of the radio broadcast in automobile audio system into one of five music genres.

  • PDF

Search speed improved minimum audio fingerprinting using the difference of Gaussian (가우시안의 차를 이용하여 검색속도를 향상한 최소 오디오 핑거프린팅)

  • Kwon, Jin-Man;Ko, Il-Ju;Jang, Dae-Sik
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.12
    • /
    • pp.75-87
    • /
    • 2009
  • This paper, which is about the method of creating the audio fingerprint and comparing with the audio data, presents how to distinguish music using the characteristics of audio data. It is a process of applying the Difference of Gaussian (DoG: generally used for recognizing images) to the audio data, and to extract the music that changes radically, and to define the location of fingerprint. This fingerprint is made insensitive to the changes of sound, and is possible to extract the same location of original fingerprint with just a portion of music data. By reducing the data and calculation of fingerprint, this system indicates more efficiency than the pre-system which uses pre-frequency domain. Adopting this, it is possible to indicate the copyrighted music distributed in internet, or meta information of music to users.

Audio Event Detection Using Deep Neural Networks (깊은 신경망을 이용한 오디오 이벤트 검출)

  • Lim, Minkyu;Lee, Donghyun;Park, Hosung;Kim, Ji-Hwan
    • Journal of Digital Contents Society
    • /
    • v.18 no.1
    • /
    • pp.183-190
    • /
    • 2017
  • This paper proposes an audio event detection method using Deep Neural Networks (DNN). The proposed method applies Feed Forward Neural Network (FFNN) to generate output probabilities of twenty audio events for each frame. Mel scale filter bank (FBANK) features are extracted from each frame, and its five consecutive frames are combined as one vector which is the input feature of the FFNN. The output layer of FFNN produces audio event probabilities for each input feature vector. More than five consecutive frames of which event probability exceeds threshold are detected as an audio event. An audio event continues until the event is detected within one second. The proposed method achieves as 71.8% accuracy for 20 classes of the UrbanSound8K and the BBC Sound FX dataset.

Content Based Classification of Audio Signal using Discriminant Function (식별함수를 이용한 오디오신호의 내용기반 분류)

  • Kim, Young-Sub;Lee, Kwang-Seok;Koh, Si-Young;Hur, Kang-In
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.06a
    • /
    • pp.201-204
    • /
    • 2007
  • In this paper, we research the content-based analysis and classification according to the composition of the feature parameters pool for the auditory signals to implement the auditory indexing and searching system. Auditory data is classified to the primitive various auditory types. we described the analysis and feature extraction method for the feature parameters available to the auditory data classification. And we compose the feature parameters pool in the indexing group unit, then compare and analysis the auditory data centering around the including level and indexing criterion into the audio categories. Based on this result, we composit feature vectors of audio data according to the classification categories, then experiment the classification using discrimination function.

  • PDF

Robust Audio Fingerprinting Using Compressed-Domain Features (압축 도메인 특징을 이용한 강인한 오디오 핑거프린팅)

  • Seo, Jin-Soo;Lee, Seung-Jae
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.4
    • /
    • pp.375-382
    • /
    • 2009
  • This paper proposes a new audio fingerprinting method based on compressed-domain features. By basing on the compressed domain, the computational efficiency of the proposed method can be greatly enhanced. Especially we deal with MDCT domain, which is widely employed in audio compression, and extract three kinds of subband features; energy, centroid, and flatness. By taking signs after differentially filtering each feature, binary audio fingerprints are obtained. The identification performance of the three kinds of fingerprints are experimentally compared. Among the considered compressed-domain subband features, the subband energy showed the best performance for fingerprinting.

The Comparison of features for Speech/Music Discrimination (음성/음악 분류를 위한 특징 비교)

  • Lee Kyong Rok;Seo Bong Su;Kim Jin Young
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.157-160
    • /
    • 2000
  • 본 논문에서는 멀티미디어 정보에서 원하는 정보를 추출하는 멀티미디어 인덱싱 중 오디오 인덱싱의 전처리 부격인 음성/음악 분류실험을 하였다. 오디오 인덱싱에 있어서 음성/음악 분류기는 원 오디오 신호에서 정보를 가진 음성 부분을 분리하는 역할을 한다. 실험에서는 음성/음악 분류에서 널리 쓰이는 멜캡스트럼(Mel Cepstrum), 정규화 로그 에너지(normalized log energy), 영교차(Zero-Crossings)를 특징 파라미터로 사용하였다[l, 2, 3]. 특징공간은 GMM(Gaussian Mixture Model)에 의해 모델링 되었고, 오디오 신호의 분류는 각각 3가지 분류항목(음성, 음악, 음성+음악)과 2가지 분류항목(음성, 음악)을 적용하였다. 실험결과 3가지 분류항목 적용시와 2가지 분류항목 적용시 모두 멜캡스트럼을 사용하였을 때 가장 좋은 결과를 보였다.

  • PDF

A Study on the Watermarking Methods with Integer Wavelet Transforms (정수 웨이브릿변환을 이용한 워터마킹기법의 연구)

  • Kang, Hwan-Il;Kim, Kab-Il;Han, Seung-Soo
    • Proceedings of the KIEE Conference
    • /
    • 2001.11c
    • /
    • pp.442-445
    • /
    • 2001
  • 오디오 워터마킹기법에는 스프레드 스펙트럼방식, 패치워크방식과 echo hiding방식 등이 있다. 본 논문에서는 실시간 처리를 고려하여 오디오 워터마킹기법을 제안하고자 한다. 실시간 측면에서는 될 수 있으면 계산상의 간략화가 요구된다. 이와 관련하여 정수 웨이브릿 변환을 이용한 오디오 워터마킹 방법을 제안한다. 워터마킹을 추출할 때는 스프레드 스펙트럼을 이용한다. 이 오디오 알고리즘은 음악에 연동하는 전기기기를 구성할 때 유용한 알고리즘이 된다. 즉 음악에 워터마크를 삽입하여 이 워터마크를 전기기기 동작제어 비트열로 이용할 수 있다.

  • PDF

Performance Analysis of Watermarking using Audio and Image Watermark in Wireless Channel Environment (무선 전송 채널 환경에서 오디오와 로고 영상을 이용한 워터마킹 성능분석)

  • Kim, Yoon-Ho;Park, Ki-Hong
    • Journal of Advanced Navigation Technology
    • /
    • v.10 no.4
    • /
    • pp.406-412
    • /
    • 2006
  • In this paper, we analyzed the performance of digital watermarking by using audio signal as well as logo image watermark. By utilizing the OFDM/QPSK system under AWGN channel environment, watermarked image are transmitted and detected. Experimental results showed that audio signal-based watermark embedding scheme is superior to that of logo image-based, which is able to restore a signal at SNR=3[dB].

  • PDF

Segmentation and Classification Using Audio and Image Information (오디오와 영상 정보를 이용한 비디오 세그먼테이션 및 크래시피케이션)

  • Jung, Hae-Jun;Jung, Sung-Hwan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10b
    • /
    • pp.891-894
    • /
    • 2000
  • 본 논문에서는 효과적인 내용기반 비디오 검색을 위한 샷 경계 검출, 장면 경계 검출, 그리고 비디오 크래시피케이션 방법을 연구하였다. 먼저, 샷 경계 검출을 위해 칼라 히스토그램과 DCT 변환 계수를 통합하여 사용했다. 그리고 장면 경계 검출을 위해서는 영상 정보뿐만 아니라 오디오 정보를 함께 사용하여 장면 경계를 검출하였다. 또한 비디오 크래시피케이션에서는 장면 경계검출시 추출한 오디오 정보를 이용해 비디오를 내용별로 분류하는 연구를 제안하였다. 뉴스, 광고, 스포츠 등 다양한 3개 분야의 TV 프로그램으로 구성된 약 8,500개 영상 프레임과 약 50,000개의 오디오 프레임을 가진 실험 비디오 데이터베이스를 구성하여 제안된 시스템을 실험하였다. 실험한 결과, 약 88%의 정확도(Precision)를 가지는 장면 경계 검출과 약 85%의 평균 분류율을 보였다.

  • PDF

Multiple Classification of Audio Genre and Quality based on Deep Learning (딥 러닝 기반의 오디오 장르 및 품질의 다중 분류 기술)

  • Shin, Seonghyeon;Cho, Hyojin;Jang, Won;Park, Hochong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.53-54
    • /
    • 2018
  • 본 논문에서는 스펙트로그램을 이용하여 딥 러닝 기반으로 오디오 장르와 품질의 다중 정보를 동시에 분류하는 기술을 제안한다. 기존 딥 러닝 기반의 오디오 정보 인식 기술은 각각의 정보 인식을 목표로 독립 네트워크를 설계하고, 여러 정보를 동시에 인식하기 위하여 각각에 특화된 여러 네트워크를 사용한다. 이러한 문제점을 보완하기 위해 본 논문에서는 디지털 오디오의 대표 특성인 스펙트로그램을 기반으로 범용성이 있는 특성을 추출하고, 단일 네트워크로 학습시켜 장르 및 품질을 동시에 분류하는 다중 분류 기술을 제안한다. 제안하는 방법으로 단일 분류 성능과 유사한 다중 분류 성능을 얻을 수 있다.

  • PDF