• 제목/요약/키워드: Audio Information Retrieval

검색결과 74건 처리시간 0.023초

Music Information Retrieval(MIR)을 활용한 음악적 리듬의 시각화 연구 -Onset 검출(Onset Detection) 알고리즘에 의한 시각화 어플리케이션 (A Study on Visualization of Musical Rhythm Based on Music Information Retrieval)

  • 최수환
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.1075-1080
    • /
    • 2009
  • 이 글은 Music Information Retrieval(MIR) 기법을 사용하여 오디오 콘텐츠의 리듬 정보를 자동으로 분석하고 이를 시각화하는 방법에 대해 다룬다. 특히 MIR을 활용한 간단한 시각화(sound visualization) 어플리케이션을 소개함으로써 음악 정보 분석이 디자인, 시각 예술에서 다양하게 활용될 수 있음을 보이고자 한다. 음악적 정보를 시각 예술로 담아내려는 시도는 20세기 초 아방가르드 화가들에 의해 본격적으로 시작되었다. 80년대 이후에는 컴퓨터 기술의 급속한 발전으로 사운드와 이미지를 디지털 영역에서 쉽게 하나로 다룰 수 있게 되었고, 이에 따라 다양한 오디오 비주얼 예술작품들이 등장하였다. MIR은 오디오 콘텐츠로부터 음악적 정보를 분석하는 DSP(Digital Signal Processing) 기술로 최근 디지털 콘텐츠 시장의 확장과 더불어 연구가 활발히 진행되고 있다. 특히 웹이나 모바일에서는 이미 다양한 상용 어플리케이션이 적용되고 있는데 query-by-humming과 같은 음악 인식 어플리케이션이 대표적인 경우이다. 이 글에서는 onset 검출(onset detection)을 중심으로 음악적 리듬을 분석하는 알고리즘을 살펴보고 기본적인 조형원리에 따라 이를 시각화하는 어플리케이션의 예를 소개한다.

  • PDF

오디오의 Peak 특징을 이용한 동일 영화 콘텐츠 검색 (Similar Movie Contents Retrieval Using Peak Features from Audio)

  • 정명범;성보경;고일주
    • 한국멀티미디어학회논문지
    • /
    • 제12권11호
    • /
    • pp.1572-1580
    • /
    • 2009
  • 검색을 위해 동영상 데이터 전체를 이용하면 많은 시간과 저장 공간이 필요하다. 이를 보완하고자 기존의 동일 영화 검색은 영상 정보의 일부를 이용하여 동일한 영상 검색에 사용해 왔다. 그러나 이 방법은 같은 영상임에도 비디오 부호화기이나 해상도가 다른 경우 전혀 다른 영상으로 인식한다. 따라서 본 논문에서는 동영상의 오디오 정보를 이용하여 동일한 동영상을 찾는 알고리즘을 제안한다. 제안 방법은 부호화율, 부호화기, 샘플링 수의 변화에도 유사한 파형을 형성하는 Peak 정보를 바탕으로 데이터베이스에 색인하고, 검색한다. 논문에서는 제안 방법의 성능을 확인하기 위해 1,000개의 동영상 데이터를 검색 실험하였으며, 92.1%의 성공률을 나타내었다.

  • PDF

음악 특징점간의 유사도 측정을 이용한 동일음원 인식 방법 (Same music file recognition method by using similarity measurement among music feature data)

  • 성보경;정명범;고일주
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.99-106
    • /
    • 2008
  • 최근 다양한 분야에서(웹 포털, 유료 음원서비스 등) 디지털 음악의 검색이 사용되고 있다. 기존의 디지털 음악의 검색은 음악 데이터에 포함된 자체 메타 정보를 이용하여 이루어진다. 하지만 메타 정보가 다르게 작성되었거나 작성되지 않은 경우 정확한 검색은 어렵다. 요즘 이러한 문제의 보완 방안으로 음악자체를 이용하는 내용기반정보 검색 기법에 대한 연구가 이루어지고 있다. 본 논문에서는 음악의 파형에서 추출된 특징 정보간의 유사도 측정을 통하여 동일음원을 인식하는 방법에 대해 논하고자 한다. 디지털 음악의 특징 정보는 단순화시킨 MFCC (Mel Frequency Cepstral Coefficient)를 이용하여 음악의 파형으로부터 추출하였다. 디지털 음악간의 유사도는 Vision 및 Speech Recognition 분야에서 사용되던 DTW (Dynamic Time Warping) 기법을 활용하여 측정하였다. 제안된 동일 음원 인식 방법의 검증을 위한 같은 장르에서 무작위 추출된 1000곡에서 시행한 500번의 검색은 모두 성공했다. 검색에 사용된 500개의 디지털 오디오는 60개의 디지털음원을 압축방식과 비트율을 다르게 조합하여 만들었다. 실험의 결과로 DTW을 이용한 유사도 측정법이 동일음원을 인식할 수 있음을 증명하였다.

  • PDF

내용기반 오디오 장르 분류를 위한 신호 처리 연구 (A Study on the Signal Processing for Content-Based Audio Genre Classification)

  • 윤원중;이강규;박규식
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.271-278
    • /
    • 2004
  • 본 논문에서는 디지털 신호처리를 이용하여 Classic, Hiphop, Jazz, Rock, Speech 등 5개의 오디오 장르를 자동적으로 분류하는 내용기반 오디오 장르 분류기를 제안하였다. 20초 분량의 질의 오디오로부터 23ms 크기의 Hamming window를 이동시켜 가며 Spectral Centroid, Rolloff, Flux 등 STFT 기반의 특징 계수들과 MFCC, LPC 등의 계수들을 구하여 총 54차에 해당하는 특징 벡터 열을 추출하였으며 분류 알고리즘으로는 k-NN, Gaussian, GMM 분류기를 사용하였다. 최적의 특징 벡터를 선별하는 알고리즘으로 총 54차의 특징벡터 중 가장 성능이 좋은 특징 계수들을 찾아 순차적으로 재배치하는 SFS(Sequential Forward Selection)방법을 사용하였고, 이를 이용하여 최적화 된 10차의 특징 벡터만을 선정해서 오디오 장르 분류에 사용하였다. SFS를 적용한 실험 결과 약 90% 가까운 분류 성공률을 보이고 있어 기존 연구에 비하여 약 10%∼20% 정도의 성능 향상을 꾀 할 수 있었다. 한편 실제 사용자들이 오디오 자동 장르 분류 시스템을 사용할 때 일어날 수 있는 상황을 가정하여 임의 구간에서 질의 데이터를 추출하여 실험을 수행하였으며 실험 결과 오디오 파일의 맨 앞과 맨 뒤 등 worst-case 질의를 제외하고는 약 80%대의 분류 성공률을 얻을 수 있었다.

선율의 음높이와 리듬 정보를 이용한 음악의 유사도 계산 알고리즘 (A Similarity Computation Algorithm Based on the Pitch and Rhythm of Music Melody)

  • 모종식;김소영;구경이;한창호;김유성
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3762-3774
    • /
    • 2000
  • 컴퓨터 하드웨어 및 멀티미디어 정보 처리 기술의 발달로 인하여 멀티미디어 정보 검색 시스템에 대한 요구가 증대되고 있다. 멀티미디어 정보 검색 시스템은 텍스트와 이미지 위주로 발전하였으나 비디오와 오디오 정보, 특히 음악 정보를 위한 멀티미디어 정보 검색 시스템에 대한 요구가 점차 증대되고 있다. 최근의 음악 정보 검색 시스템에서는 해당 음악 정보의 작곡가, 곡명 등과 같은 메타 정보만을 이용한 메타 정보 기반의 검색뿐만 아니라 음악의 내용을 기반으로 하는 내용 기반 검색까지도 가능하다. 음악의 내용 기반 검색에서는 메타 정보 기반 검색에서 흔히 볼 수 있는 문자열에 대한 패턴 매칭보다는 멀티미디어 데이타간의 유사도를 기반으로 검색한다. 본 논문에서는 음악을 일정한 선율에 따른 음들의 배합으로 정의하고, 선율을 구성하는 음의 높이와 음의 길이 정보를 복합적으로 이용하여 두 음악 정보간의 유사도를 계산하는 알고리즘을 제안한다. 또한, 본 논문에서는 제안된 유사도 계산 알고리즘의 검증을 위해 동요를 대상으로 실험을 하였다. 실험 결과에 따르면 제안된 유사도 계산 알고리즘이 기존에 제안된 내용기반 음악 정보 검색 시스템과 비교하여 음악의 선율 정보를 기준으로 음악들간의 유사도를 보다 정확하게 효과적으로 계산하였다.

  • PDF

시청각기록물의 기술요소 확장에 관한 연구 (A Study on the Extension of the Description Elements for Audio-visual Archives)

  • 남영준;문정현
    • 한국비블리아학회지
    • /
    • 제21권4호
    • /
    • pp.67-80
    • /
    • 2010
  • 정보산업의 발달로 다양한 기록매체가 출현함에 따라 시청각기록물의 생산량과 이용률이 급증하였으나, 시청각기록물에 대한 인식은 부수적인 가치를 지닌 별도의 기록물로 취급되고 있다. 이와 같이 시청각기록물을 소장하고 있는 기관들은 그 형태의 종류와 보관방법 등의 부분에서 상당히 취약한 면모를 보이고 있으며, 관리하는 방식도 모두 다르기 때문에 이용자들이 시청각기록물의 검색 및 활용에 불편을 겪고 있다. 따라서 본 연구는 국내 주요 기관에서 사용되고 있는 시청각기록물 기술요소의 비교 분석을 통해 시청각기록물의 통합관리 가능성을 조사하였다. 이를 통해 시청각기록물의 기관별 메타데이터 요소와 기관 간 통합관리 가능성을 파악하며, 각 기관에서의 효율적인 시청각기록물의 관리 검색 서비스 제공과 이용에 대한 효과를 제안하고, 시청각기록물의 통합 메타데이터 기술요소 개선안을 제시하였다.

식별함수를 이용한 오디오신호의 내용기반 분류 (Content Based Classification of Audio Signal using Discriminant Function)

  • 김영섭;이광석;고시영;허강인
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 춘계종합학술대회
    • /
    • pp.201-204
    • /
    • 2007
  • 본 논문은 오디오 색인 검색 시스템을 구현하기 위하여 오디오 신호에 대한 특징 파라미터 풀(pool)을 구성하고, 구성되어진 특징 파라미터 풀을 이용한 오디오 데이터의 내용분석 및 분류에 관한 연구이다. 오디오 데이터는 기본적으로 다양한 형태의 오디오 신호로서 분류되어진다. 본 논문에서는 오디오 데이터의 분류에 이용 가능한 특징 파라미터를 분석하고 추출하는 방법에 대하여 논한다. 그리고 특징 파라미터 풀을 색인 그룹 단위로 구성하여 오디오 카테고리에 대한, 설정된 특징들의 포함 정도와 색인기준을 오디오 데이터의 내용을 중심으로 비교, 분석한다. 그리고 마지막으로 위의 결과를 바탕으로 분류카테고리 별로 오디오 데이터의 특징 벡터를 구성한 뒤 이를 이용하여 식별함수 분류기를 통한 분류를 실험한다.

  • PDF

음악검색을 위한 가변임계치 기반의 음성 질의 변환 기법 (A Threshold Adaptation based Voice Query Transcription Scheme for Music Retrieval)

  • 한병준;노승민;황인준
    • 전기학회논문지
    • /
    • 제59권2호
    • /
    • pp.445-451
    • /
    • 2010
  • This paper presents a threshold adaptation based voice query transcription scheme for music information retrieval. The proposed scheme analyzes monophonic voice signal and generates its transcription for diverse music retrieval applications. For accurate transcription, we propose several advanced features including (i) Energetic Feature eXtractor (EFX) for onset, peak, and transient area detection; (ii) Modified Windowed Average Energy (MWAE) for defining multiple small but coherent windows with local threshold values as offset detector; and finally (iii) Circular Average Magnitude Difference Function (CAMDF) for accurate acquisition of fundamental frequency (F0) of each frame. In order to evaluate the performance of our proposed scheme, we implemented a prototype music transcription system called AMT2 (Automatic Music Transcriber version 2) and carried out various experiments. In the experiment, we used QBSH corpus [1], adapted in MIREX 2006 contest data set. Experimental result shows that our proposed scheme can improve the transcription performance.

스토리 기반의 정보 검색 연구 (Story-based Information Retrieval)

  • 유은순;박승보
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.81-96
    • /
    • 2013
  • 웹의 발전과 콘텐츠 산업의 팽창으로 비디오 데이터가 폭발적으로 증가함에 따라 데이터의 정보 검색은 매우 중요한 문제가 되었다. 그동안 비디오 데이터의 정보 검색과 브라우징을 위해 비디오의 프레임(frame)이나 숏(shot)으로부터 색채(color)와 질감(texture), 모양(shape)과 같은 시각적 특징(features)들을 추출하여 비디오의 내용을 표현하고 유사도를 측정하는 내용 기반(content-based)방식의 비디오 분석이 주를 이루었다. 영화는 하위 레벨의 시청각적 정보와 상위 레벨의 스토리 정보를 포함하고 있다. 저차원의 시각적 특징을 통해 내용을 표현하는 내용 기반 분석을 영화에 적용할 경우 내용 기반 분석과 인간이 인지하는 영화의 내용 사이에는 의미적 격차(semantic gap)가 발생한다. 왜냐하면 영화의 스토리는 시간의 진행에 따라 그 내용이 변하고, 관점에 따라 주관적 해석이 가능한 고차원의 의미정보이기 때문이다. 따라서 스토리 차원의 정보 검색을 위해서는 스토리를 모델링하는 정형화된 모형이 필요하다. 최근 들어 소셜 네트워크 개념을 활용한 스토리 기반의 비디오 분석 방법들이 등장하고 있다. 그러나 영화 속 등장인물들의 소셜 네트워크를 통해 스토리를 표현하는 이 방법들은 몇 가지 문제점들을 드러내고 있다. 첫째, 등장인물들의 관계에만 초점이 맞추어져 있으며, 스토리 진행에 따른 등장인물들의 관계 변화를 역동적으로 표현하지 못한다. 둘째, 등장인물의 정체성과 심리상태를 보여주는 감정(emotion)과 같은 심층적 정보를 간과하고 있다. 셋째, 등장인물 이외에 스토리를 구성하는 사건과 배경에 대한 정보들을 반영하지 못하고 있다. 따라서 본 연구는 기존의 스토리 기반의 비디오 분석 방법들의 한계를 살펴보고, 문제 해결을 위해 문학 이론에서 제시하고 있는 서사 구조에 근거하여 스토리 모델링에 필요한 요소들을 인물, 배경, 사건의 세 가지 측면에서 제시하고자 한다.

비디오 문서 관리시스템의 설계 및 구현 (Design and Implementation of Video Documents Management System)

  • 권재길;배종민
    • 한국정보처리학회논문지
    • /
    • 제7권8호
    • /
    • pp.2287-2297
    • /
    • 2000
  • 시청각 정보 및 의미적 정보 등을 포함하는 비디오 문서는 미디어들간에 복잡한 관계성을 가지며, 내용에 대한 주제별 검색과 문서에 나타나는 객체 정보를 이용한 특정 영역별 검색을 요구하는 등 사용자의 질의가 다양해지고 있으나, 기존의 정보 검색 설계 방법으로는 이러한 내용을 충분히 수용하기 어렵다. 따라서 비디오 문서를 체계적으로 관리하고 다양한 검색을 지원하기 위해서는 자동 혹은 수동으로 추출된 문서의 의미적 정보 및 구조적 정보 등을 활용한 구조적이고 체계적인 메타데이터 모델을 정립해야 한다. 본 논문은 비디오 문서가 가지는 특성들을 분석하여 다양한 질의를 수용할 수 있고, 다른 비디오 응용의 기반 구조로 제공될 수 있는 일반저인 메타데이터를 분류하고 이를 통합적으로 관리하는 일반 통합 메타데이터 모델(GIMM)을 제안한다. 그리고 GIMM을 이용하여 비디오 문서 관리 시스템(VDMS)을 설계하고 구현한다.

  • PDF