• 제목/요약/키워드: Speech/Music Classification

검색결과 28건 처리시간 0.02초

판소리 자동채보를 위한 구조분석 알고리즘 (Structural Analysis Algorithm for Automatic Transcription 'Pansori')

  • 주영호;김준철;서경숙;이준환
    • 한국콘텐츠학회논문지
    • /
    • 제14권2호
    • /
    • pp.28-38
    • /
    • 2014
  • 서양 음악의 경우 자동채보와 내용기반 음악검색을 위한 음악 정보 분석연구가 활발하게 진행되고 있다. 그러나 한국 전통음악에서는 유사한 연구사례를 찾아보기 어렵다. 본 논문에서는 한국의 전통음악인 판소리 구조를 자동으로 분석하기 위한 알고리즘들을 제안한다. 제안된 알고리즘은 음성과 비음성의 시간 간격비율을 이용하여 '소리' 부분과 '아니리' 부분을 자동으로 구분한다. 뿐만 아니라 알고리즘은 '장단'이라 칭하는 리듬을 템플릿 이용한 다수결 결정 방법으로 강건하게 구분한다. 또한 알고리즘은 칼만 필터를 이용하여 '소리' 부분의 마디 지점을 검지해낸다. 본 논문에서 제안된 알고리즘들은 판소리 샘플들에서 양호하게 동작하였으며 자동채보의 전단계의 구조분석에 유용할 수 있다.

컴뮤트 타임 기반의 다양체 임베딩을 이용한 파형 신호 인식에 관한 연구 (A Study on Classification of Waveforms Using Manifold Embedding Based on Commute Time)

  • 한희일
    • 전자공학회논문지
    • /
    • 제51권2호
    • /
    • pp.148-155
    • /
    • 2014
  • 본 논문에서는 파형 신호에서 패치를 추출하고 이를 패치 그래프로 구성한 다음, 이로부터 대표적인 다양체 임베딩 방식인 컴뮤트 타임 임베딩 기법을 구현하고, 이의 특성을 분석한다. 특히 음성 신호나 악기 음 등, 시간에 따라 스펙트럼이 가변적인 신호를 임베딩하면 스펙트럼의 변화에도 불구하고 그 신호 고유의 기하 구조를 생섬함을 실험으로 확인한다. 다양체 임베딩은 비선형 공간에 놓여 있는 고차원 데이터를 저차원 공간으로의 효율적인 맵을 가능하게 하지만 그래프 구성에 이용된 데이터에 대한 정보만 알 수 있고 그렇지 않은 데이터(out-of-sample data)에 대해서는 정보를 얻기 어렵다. 따라서 다양체 임베딩은 데이터 클러스터링에 적절히 적용 가능하지만, 훈련 과정을 통해 얻은 정보를 기초로 유추 기능이 요구되는 인식 등에는 응용하기 어려운 제약이 따른다. 이를 해결하기 위하여 본 논문에서는 다양체 임베딩이 인식 분야에도 적용 가능하도록 새로운 알고리즘을 제안하고 악기 음 분류 실험을 통하여 그 특성을 분석한다.

내러티브 프로세스 분류 모델 기반 애니메이션 OST의 음악적 요소 분석 (Animation OST Musical Element Analysis based on A Narrative Process Classification Model)

  • 장소은;성봉선;이장훈;김재호
    • 한국멀티미디어학회논문지
    • /
    • 제17권10호
    • /
    • pp.1239-1252
    • /
    • 2014
  • The OST (Original Sound Track) in the film plays a vital role in increasing consensus and concentration to the storyline. The selected 4 animations are classified into 17 Narrative Processes (NP) by using NP Classification Model [1]. For the NPs each having OSTs, the authors have investigated 6 kinds of objective musical elements of the OST such as sound (speech, music, effect), tonality, tempo, range, intensity, and instrumentation. It is found that there are 33.3% common musical elements among all of them for the NPs with OSTs commonly. Among them, it is also found that there are 71.9% of common properties of the musical element. This research is meaningful by firstly showing that there are common properties of objective musical elements in each NP and the corresponding OST.

서포트 벡터 머신과 퍼지 클러스터링 기법을 이용한 오디오 분할 및 분류 (Audio Segmentation and Classification Using Support Vector Machine and Fuzzy C-Means Clustering Techniques)

  • ;강명수;김철홍;김종면
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.19-26
    • /
    • 2012
  • 최근 멀티미디어 정보가 급증함에 따라 콘텐츠 관리에 대한 요구도 함께 증가되고 있다. 이에 오디오 분할 및 분류는 멀티미디어 콘텐츠를 효과적으로 관리할 수 있는 대안이 될 수 있다. 따라서 본 논문에서는 동영상에서 취득한 오디오 신호를 분할하고, 분할된 오디오 신호를 음악, 음성, 배경 음악이 포함된 음성, 잡음이 포함된 음성, 묵음(silence)으로 분류하는 정확도가 높은 오디오 분할 및 분류 알고리즘을 제안한다. 제안하는 알고리즘은 오디오 분할을 위해 서포트 벡터 머신(support vector machine, SVM)을 이용하였다. 오디오 신호의 분류를 위해서는 분할된 오디오 신호의 특징을 추출하고 이를 퍼지 클러스터링 알고리즘(fuzzy c-means, FCM)의 입력으로 사용하여 각 계층으로 오디오 신호를 분류하였다. 제안하는 알고리즘의 평가는 분할과 분류에 대해 각각 그 성능을 평가하였으며, 분할 성능 평가는 정확도율(precesion rate)과 오차율(recall rate)을 이용하였으며, 분류 성능 평가는 정확성(classification accuracy)을 사용하였다. 또한 오디오 분할의 경우는 이진 분류기와 퍼지 클러스터링을 이용한 기존의 알고리즘과 그 성능을 비교하였다. 모의 실험 결과, 제안한 알고리즘의 분류 성능이 기존 알고리즘 보다 정확도율과 오차율 면에서 모두 우수하였다.

계층구조의 분류를 통한 서포트벡터머신 기반의 음성/음악 분류기의 실용도 향상기법 (A Technique to Improve the Practicality of SVM-based Speech/Music Classifiers Through Hierarchical Classification)

  • 최석환;조용옥;조지우;임정수;이연우;이성로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1033-1034
    • /
    • 2012
  • 본 논문은 제한된 대역폭의 효율적인 활용을 위한 가변 전송률 코덱을 목표로 제안된 서포트벡터머신 기반의 음성/음악 분류기의 실용도를 높이기 위한 기법을 제안한다. 서포트벡터머신 기반의 음성/음악 분류기는 높은 분류능력을 가지고 있지만 많은 계산량을 요구하기 때문에 실시간으로 사용하기에는 부적합한 면이 있다. 따라서 계층적 분류를 통해 서포트벡터머신 기반의 음성/음악 분류기의 실용성을 향상시키는 기법을 제안한다.

깊은 신경망 기반의 전이학습을 이용한 사운드 이벤트 분류 (Sound event classification using deep neural network based transfer learning)

  • 임형준;김명종;김회린
    • 한국음향학회지
    • /
    • 제35권2호
    • /
    • pp.143-148
    • /
    • 2016
  • 깊은 신경망은 데이터의 특성을 효과적으로 나타낼 수 있는 방법으로 최근 많은 응용 분야에서 활용되고 있다. 하지만, 제한적인 양의 데이터베이스는 깊은 신경망을 훈련하는 과정에서 과적합 문제를 야기할 수 있다. 본 논문에서는 풍부한 양의 음성 혹은 음악 데이터를 이용한 전이학습을 통해 제한적인 양의 사운드 이벤트에 대한 깊은 신경망을 효과적으로 훈련하는 방법을 제안한다. 일련의 실험을 통해 제안하는 방법이 적은 양의 사운드 이벤트 데이터만으로 훈련된 깊은 신경망에 비해 현저한 성능 향상이 있음을 확인하였다.

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 (Automatic Indexing Algorithm of Golf Video Using Audio Information)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.441-446
    • /
    • 2009
  • 본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.

시간적 근접성 향상을 통한 효율적인 SVM 기반 음성/음악 분류기의 구현 방법 (Efficient Implementation of SVM-Based Speech/Music Classifier by Utilizing Temporal Locality)

  • 임정수;장준혁
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.149-156
    • /
    • 2012
  • 서포트벡터머신 (support vector machine)을 이용한 음성/음악 분류기는 높은 분류 정확도로 주목받고 있으나 많은 계산 량과 저장 공간을 요구하므로 특히 임베디드 시스템과 같이 자원이 제한 적인 경우에는 효율적인 구현이 필수적이다. 특히, 서포트벡터 (support vector)의 차원과 개수에 의해 결정되는 서포트벡터의 저장 공간의 크기는 일반적으로 임베디드 프로세서의 캐시 (cache)의 크기보다 훨씬 크므로 캐시에 존재하지 않는 서포트벡터를 메인 메모리로부터 읽어야 하는 경우가 많다. 메모리에서 데이터를 가져오는 데는 캐시나 레지스터와 비교했을 때 상대적으로 긴 시간과 많은 에너지가 소비되어 분류기의 실행시간과 에너지 소비를 증가시키는 요인이 된다. 본 논문에서는 분류기의 데이터 접근 양식을 보다 시간적 근접성을 가지게 변환하여 일단 프로세서 칩으로 불려진 데이터를 최대한 활용함으로써 메모리의 접근 횟수를 줄여 전체적인 서포트벡터의 실행시간의 단축시키는 기법을 제안한다. 실험을 통해 메모리로의 접근 회수의 감소와 이에 따른 실행시간 그리고 에너지 소비의 감소를 확인하였다.