• Title/Summary/Keyword: 오디오 특징 벡터 추출

Search Result 21, Processing Time 0.021 seconds

Content-based Music Information Retrieval using Pitch Histogram (Pitch 히스토그램을 이용한 내용기반 음악 정보 검색)

  • 박만수;박철의;김회린;강경옥
    • Journal of Broadcast Engineering
    • /
    • v.9 no.1
    • /
    • pp.2-7
    • /
    • 2004
  • In this paper, we proposed the content-based music information retrieval technique using some MPEG-7 low-level descriptors. Especially, pitch information and timbral features can be applied in music genre classification, music retrieval, or QBH(Query By Humming) because these can be modeling the stochasticpattern or timbral information of music signal. In this work, we restricted the music domain as O.S.T of movie or soap opera to apply broadcasting system. That is, the user can retrievalthe information of the unknown music using only an audio clip with a few seconds extracted from video content when background music sound greeted user's ear. We proposed the audio feature set organized by MPEG-7 descriptors and distance function by vector distance or ratio computation. Thus, we observed that the feature set organized by pitch information is superior to timbral spectral feature set and IFCR(Intra-Feature Component Ratio) is better than ED(Euclidean Distance) as a vector distance function. To evaluate music recognition, k-NN is used as a classifier

Automatic Music Summarization Method by using the Bit Error Rate of the Audio Fingerprint and a System thereof (오디오 핑거프린트의 비트에러율을 이용한 자동 음악 요약 기법 및 시스템)

  • Kim, Minseong;Park, Mansoo;Kim, Hoirin
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.4
    • /
    • pp.453-463
    • /
    • 2013
  • In this paper, we present an effective method and a system for the music summarization which automatically extract the chorus portion of a piece of music. A music summary technology is very useful for browsing a song or generating a sample music for an online music service. To develop the solution, conventional automatic music summarization methods use a 2-dimensional similarity matrix, statistical models, or clustering techniques. But our proposed method extracts the music summary by calculating BER(Bit Error Rate) between audio fingerprint blocks which are extracted from a song. But we could directly use an enormous audio fingerprint database which was already saved for a music retrieval solution. This shows the possibility of developing a various of new algorithms and solutions using the audio fingerprint database. In addition, experiments show that the proposed method captures the chorus of a song more effectively than a conventional method.

New Automatic Taxonomy Generation Algorithm for the Audio Genre Classification (음악 장르 분류를 위한 새로운 자동 Taxonomy 구축 알고리즘)

  • Choi, Tack-Sung;Moon, Sun-Kook;Park, Young-Cheol;Youn, Dae-Hee;Lee, Seok-Pil
    • The Journal of the Acoustical Society of Korea
    • /
    • v.27 no.3
    • /
    • pp.111-118
    • /
    • 2008
  • In this paper, we propose a new automatic taxonomy generation algorithm for the audio genre classification. The proposed algorithm automatically generates hierarchical taxonomy based on the estimated classification accuracy at all possible nodes. The estimation of classification accuracy in the proposed algorithm is conducted by applying the training data to classifier using k-fold cross validation. Subsequent classification accuracy is then to be tested at every node which consists of two clusters by applying one-versus-one support vector machine. In order to assess the performance of the proposed algorithm, we extracted various features which represent characteristics such as timbre, rhythm, pitch and so on. Then, we investigated classification performance using the proposed algorithm and previous flat classifiers. The classification accuracy reaches to 89 percent with proposed scheme, which is 5 to 25 percent higher than the previous flat classification methods. Using low-dimensional feature vectors, in particular, it is 10 to 25 percent higher than previous algorithms for classification experiments.

An Efficient Content-based Retrieval System using High-Dimensional Index Structure Image Database (대규모 이미지 데이터베이스에서 고차원 색인 구조를 이용한 효율적인 내용 기반 검색 시스템)

  • Lee, Dong-Ho;Park, Ju-Hong;Jeong, Jin-Wan;Kim, Hyeong
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.1
    • /
    • pp.52-65
    • /
    • 1999
  • 이미지나 비디오, 오디오와 같이 멀티미디어 데이터들은 기존의 단순한 텍스트 기반의 데이터에 비하여 대용량적인 특성과 비정형적인 특성을 가지고 있어서 검색시 많은 어려움이 따른다. 본 논문에서는 대규모의 이미지 데이터베이스에서 효율적이고 신속하게 사용자가 원하는 이미지를 검색할수 있는 내용 기반 검색 시스템을 제시한다. 이를 위해서 본 논문에서는 최근 여러 장점으로 인하여 신호 분석이나 이미지 압축 분야에 많이 사용되는 웨이브릿 변환을 이용하여 이미지 데이터로부터 내용 기반 검색에 사용되는 특징 벡터를 효율적으로 추출하는 기법과 유사성 측정 방법을 제안한다. 그리고, 이러한 특징 추출방법과 유사성 측정 방법을 이용하여 내용 기반 질의 및 검색을 수행할 경우, 검색 조건을 만족하는 객체인데 실수로 검색해내지 못하는 경우인 false dismissals 이 발생하지 않음을 보인다. 또한 대규모 이미지 데이터베이스에서 신속한 내용 기반 검색을 지원하기 위하여 고차원 데이터에 대한 효율적인 색인을 제공하는 X-tree를 이용한 이미지 색인 방법을 보이며 이것이 기존의 순차 검색이나 R*-tree를 이용한 색인 방법보다 신속하게 이미지 데이터들을 검색할 수 있다는 것을 다양한 실험을 통해 보인다. 마지막으로 QBIC에서 제안한 검색 적합성 측정 방법을 이용하여 본 논문에서 제안하는 내용 기반 이미지 검색시스템의 검색 적합성을 보인다.

Improving Highlight Prediction Models Using GAN (GAN을 이용한 하이라이트 영상 예측 모델의 성능 개선)

  • Lee, Hansol;Lee, Gyemin
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.11a
    • /
    • pp.225-227
    • /
    • 2019
  • 최근 다양한 개인방송 플랫폼에 의해 엄청난 양의 콘텐츠가 업로드 되고 있으며 그 중 축구와 야구와 같은 스포츠 영상이 차지하는 비율이 상당하다. 방송사에서는 시청자들이 편의를 위해 경기 영상 중 흥미를 끌거나 또는 중요한 장면을 모아 하이라이트 영상을 만들어 제공하는데, 이는 시간과 비용이 많이 소요되는 문제가 있다. 이에 본 논문에서는 스포츠 영상에서 자동으로 하이라이트를 예측하는 모델을 제안하다. 우리의 모델은 오디오와 이미지 정보를 함께 사용하며, 영상의 단기적 전후관계와 중장기적 흐름을 동시에 파악하는 모델을 제시한다. 또한 좋은 특징벡터를 추출하기 위해 GAN을 결합하는 방법을 설명한다. 제안하는 모델들을 야구 경기 영상을 이용하여 평가한다.

  • PDF

Design of Cough Detection System Based on Mutimodal Learning & Wearable Sensor to Predict the Spread of Influenza (독감 확산 예측을 위한 멀티모달 학습과 웨어러블 센서 기반의 기침 감지 시스템 설계)

  • Kang, Jae-Sik;Back, Moon-Ki;Choi, Hyung-Tak;Lee, Kyu-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.428-430
    • /
    • 2018
  • 본 논문에서는 독감확산 예측을 위한 웨어러블 센서를 이용한 기침 감지 모델을 제안한다. 서로 상이한 기침 신체데이터를 사용하고 기침 감지 알고리즘의 구현없이 기계가 학습하는 방식인 멀티모달 DNN을 이용하여 설계하였다. 또한 웨어러블 센서를 통해 실생활의 기침 오디오 데이터와 기침 3축 가속도 데이터를 수집하였고, 두 개의 데이터중 하나의 데이터만으로도 감지를 위한 학습이 가능토록하기 위해 각각 MFCC와 FFT를 이용하여 특징 벡터를 추출하는 방법을 이용하였다.

Design and Implementation of Illegal Content Tracking System Using Hybrid Content Recognition (하이브리드 인식을 이용한 불법 콘텐츠 추적시스템 설계 및 구현)

  • Kim, Won-Gyum;Park, Kyung-Soo;Kim, Sang-Jin;Yu, Won-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1555-1558
    • /
    • 2011
  • 본 논문에서는 멀티미디어 데이터에 대한 내용기반 인식 기법을 이용하여 인터넷에 불법으로 배포되어 있는 콘텐츠를 추적하는 기법을 소개한다. 내용기반 인식 기법은 콘텐츠의 원신호에서 내용기반 해쉬나 혹은 축약된 형태의 특징벡터를 추출하여 콘텐츠를 인식하는 기술로 저작권보호 분야에서 불법 저작물을 필터링하는데 많이 활용되고 있다. 불법 콘텐츠 추적시스템은 인터넷에서 광범위하게 유포되어 있는 저작물을 검색하여 그 내용을 기반으로 인식하여 불법 여부를 판단한 후 삭제메일이나 재전송 중지 등의 후속 조치를 자동으로 수행하는 저작권보호 시스템이다. 본 논문에서는 오디오, 비디오, 어문, 게임 콘텐츠에 대해 내용을 기반으로 인식을 수행하고 불법 여부를 판단하여 재전송 중지 조치를 취하는 능동적 저작물 추적 시스템을 제안한다. 제안된 시스템에서는 검색모듈에 의해 수집된 다양한 저작물에 대해 저작물별 독립적으로 인식 기능을 수행하는 기능을 제공한다.

Music Genre Classification using Time Delay Neural Network (시간 지연 신경망을 이용한 음악 장르 분류)

  • 이재원;조찬윤;김상균
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.5
    • /
    • pp.414-422
    • /
    • 2001
  • This paper proposes a classifier of music genre using time delay neural network(TDNN) fur an audio data retrieval systems. The classifier considers eight kinds of genres such as Blues, Country, Hard Core, Hard Rock, Jazz, R&B(Soul), Techno and Trash Metal. The comparative unit to classify the genres is a melody between bars. The melody pattern is extracted based un snare drum sound which represents the periodicity of rhythm effectively. The classifier is constructed with the TDNN and uses fourier transformed feature vector of the melody as input pattern. We experimented the classifier on eighty training data from ten musics for each genres and forty test data from five musics for each genres, and obtained correct classification rates of 92.5% and 60%, respectively.

  • PDF

A New Tempo Feature Extraction Based on Modulation Spectrum Analysis for Music Information Retrieval Tasks

  • Kim, Hyoung-Gook
    • The Journal of The Korea Institute of Intelligent Transport Systems
    • /
    • v.6 no.2
    • /
    • pp.95-106
    • /
    • 2007
  • This paper proposes an effective tempo feature extraction method for music information retrieval. The tempo information is modeled by the narrow-band temporal modulation components, which are decomposed into a modulation spectrum via joint frequency analysis. In implementation, the tempo feature is directly extracted from the modified discrete cosine transform coefficients, which is the output of partial MP3(MPEG 1 Layer 3) decoder. Then, different features are extracted from the amplitudes of modulation spectrum and applied to different music information retrieval tasks. The logarithmic scale modulation frequency coefficients are employed in automatic music emotion classification and music genre classification. The classification precision in both systems is improved significantly. The bit vectors derived from adaptive modulation spectrum is used in audio fingerprinting task That is proved to be able to achieve high robustness in this application. The experimental results in these tasks validate the effectiveness of the proposed tempo feature.

  • PDF

The Vocabulary Recognition Optimize using Acoustic and Lexical Search (음향학적 및 언어적 탐색을 이용한 어휘 인식 최적화)

  • Ahn, Chan-Shik;Oh, Sang-Yeob
    • Journal of Korea Multimedia Society
    • /
    • v.13 no.4
    • /
    • pp.496-503
    • /
    • 2010
  • Speech recognition system is developed of standalone, In case of a mobile terminal using that low recognition rate represent because of limitation of memory size and audio compression. This study suggest vocabulary recognition highest performance improvement system for separate acoustic search and lexical search. Acoustic search is carry out in mobile terminal, lexical search is carry out in server processing system. feature vector of speech signal extract using GMM a phoneme execution, recognition a phoneme list transmission server using Lexical Tree Search algorithm lexical search recognition execution. System performance as a result of represent vocabulary dependence recognition rate of 98.01%, vocabulary independence recognition rate of 97.71%, represent recognition speed of 1.58 second.