• 제목/요약/키워드: Classification of Speech/Music

검색결과 27건 처리시간 0.022초

3GPP2 SMV의 실시간 음성/음악 분류 성능 향상을 위한 Gaussian Mixture Model의 적용 (Analysis and Implementation of Speech/Music Classification for 3GPP2 SMV Based on GMM)

  • 송지현;이계환;장준혁
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.390-396
    • /
    • 2007
  • 본 논문에서는 음성 인식과 음악 인식에서 뛰어난 성능을 보이는 Expectation-Maximization(EM) 알고리즘 기반의 패턴인식기법인 가우시안 혼합모델(Gaussian Mixture Model, GMM)을 이용하여 기존의 3GPP2 Selectable Mode Vocoder(SMV)의 실시간 음성/음악 분류 성능을 향상 시키는 방법을 제안한다 SMV의 음성/음악 실시간 분류 알고리즘에서 사용된 특징벡터와 분류방법을 분석하고, 이를 기반으로 분류성능향상을 위해 패턴인식 알고리즘인 GMM을 도입한다. 구체적으로, SMV의 음성/음악 분류알고리즘에서 사용되어진 특징벡터만을 선택적으로 사용하여 효과적인 GMM을 구성한 실시간 분류기법이 제시되었다. SMV의 음성/음악 분류에 적용한 GMM의 성능 평가를 위해 SMV 원래의 분류알고리즘과 비교하였으며, 다양한 음악장르에 대해 시스템의 성능을 평가한 결과 GMM을 이용하였을 때 기존의 SMV의 방법보다 우수한 음성/음악 분류 성능을 보였다.

MUSIC 스펙트럼을 이용한 잡음환경에서의 목표 신호 구간 검출 (Target signal detection using MUSIC spectrum in noise environments)

  • 박상준;정상배
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.103-110
    • /
    • 2012
  • In this paper, a target signal detection method using multiple signal classification (MUSIC) algorithm is proposed. The MUSIC algorithm is a subspace-based direction of arrival (DOA) estimation method. Using the inverse of the eigenvalue-weighted eigen spectra, the algorithm detects the DOAs of multiple sources. To apply the algorithm in target signal detection for GSC-based beamforming, we utilize its spectral response for the DOA of the target source in noisy conditions. The performance of the proposed target signal detection method is compared with those of the normalized cross-correlation (NCC), the fixed beamforming, and the power ratio method. Experimental results show that the proposed algorithm significantly outperforms the conventional ones in receiver operating characteristics (ROC) curves.

MUSIC 및 반향 성분 제거 기법을 이용한 음성신호의 입사각 추정 (Direction-of-Arrival Estimation of Speech Signals Based on MUSIC and Reverberation Component Reduction)

  • 장형욱;정상배;김영일
    • 한국정보통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1302-1309
    • /
    • 2014
  • 본 논문에서는 다중 신호 분류 기반의 음성신호의 입사각 추정 향상 방법을 제안한다. 기본적으로 제안한 방식은 복소 대역통과 필터를 이용하여 신호 분석을 위한 협대역 신호를 생성한다. 또한, 공간 스펙트럼에서의 반향 성분 제거 및 2차 함수 기반의 응답 근사화를 사용하여 추정 각도의 정확도를 향상시켰다. 실험결과 제안한 방법은 일반화된 상호상관도 방식의 입사각 추정 알고리즘보다 검출 오차 및 검출 성공률 측면에서 더 좋은 성능을 보였다.

스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 (On-Line Audio Genre Classification using Spectrogram and Deep Neural Network)

  • 윤호원;신성현;장우진;박호종
    • 방송공학회논문지
    • /
    • 제21권6호
    • /
    • pp.977-985
    • /
    • 2016
  • 본 논문은 스펙트로그램과 심층 신경망을 이용한 온라인 오디오 장르 분류 방법을 제안한다. 제안한 방법은 온라인 동작을 위하여 1초 단위로 신호를 입력하여 speech, music, effect 중 하나의 장르로 분류하고, 동작의 범용성을 위하여 기존 오디오 분석에 널리 사용되는 MFCC 대신에 스펙트로그램 기반의 특성 벡터를 사용한다. 실제 TV 방송 신호를 사용하여 장르 분류 성능을 측정하였고, 제안 방법이 기존 방법보다 각 장르에 대하여 우수한 성능을 제공하는 것을 확인하였다. 특히 제안 방법은 기존 방법에서 나타나는 music과 effect 사이를 잘못 분류하는 문제점을 감소시킨다.

딥 러닝을 이용한 오디오 장르 분류 (Audio genre classification using deep learning)

  • 신성현;장우진;윤호원;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.80-81
    • /
    • 2016
  • 본 논문에서는 딥 러닝을 이용한 오디오 장르 분류 기술을 제안한다. 장르는 music, speech, effect 3가지로 정의하여 분류한다. 기존의 GMM을 이용한 장르 분류 기술은 speech의 인식률에 비해 music과 effect에 대한 인식률이 낮아 각 장르에 대한 인식률의 차이를 보인다. 이러한 문제를 해결하기 위해 본 논문에서는 딥 러닝을 이용해 높은 수준의 추상화 과정을 거쳐 더 세분된 학습을 진행한다. 제안한 방법을 사용하면 미세한 차이의 특성까지 학습해 장르에 대한 인식률의 차이를 줄일 수 있으며, 각 장르에 대해 GMM을 이용한 오디오 장르 분류보다 높은 인식률을 얻을 수 있다.

  • PDF

발생/소멸 패턴을 이용한 비정형 혼합 오디오의 주성분 검출 (Detecting Prominent Content in Unstructured Audio using Intensity-based Attack/release Patterns)

  • 김사무엘
    • 전자공학회논문지
    • /
    • 제50권12호
    • /
    • pp.224-231
    • /
    • 2013
  • 이 논문에서는 비정형 혼합 오디오 신호에서 청취자에게 전달 되도록 의도된 주된 신호의 종류를 검출해 낼 수 있는 방법을 제안한다. 주된 신호의 종류는 음성, 음악, 음향효과로 정하였으며, 인텐서티 기반의 발생/소멸 패턴에서 추출할 수 있는 특징을 사용하여 그들을 구별할 수 있는 방법을 소개한다. 청취자가 주어진 오디오 신호에서 주된 신호를 받아들이는 주관적인 평가를 반영하기 위해서, 웹기반의 평가시스템을 도입하여 18시간의 다양한 종류의 장르 비디오의 오디오를 평가하였다. 실험을 통하여 비디오의 장르별로 각기 다른 성능을 보이지만 가능성 있는 (음성위주의 토크쇼의 경우 86.7%, 액션 영화 49.3%)정확도를 보였다.

사운드 분류기를 이용한 영상검색에 관한 연구 (A Study on Image Retrieval Using Sound Classifier)

  • 김승한;이명순;노승용
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년 학술대회 논문집 정보 및 제어부문
    • /
    • pp.419-421
    • /
    • 2006
  • The importance of automatic discrimination image data has evolved as a research topic over recent years. We have used forward neural network as a classifier using sound data features within image data, our initial tests have shown encouraging results that indicate the viability of our approach.

  • PDF

온라인 오디오 장르 분류의 성능 분석 (The Performance Analysis of On-line Audio Genre Classification)

  • 윤호원;장우진;신성현;박호종
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 추계학술대회
    • /
    • pp.23-24
    • /
    • 2016
  • 본 논문에서는 온라인 오디오 장르 분류의 성능을 비교 분석한다. 온라인 동작을 위해 1초 단위의 오디오 신호를 입력하여 music, speech, effect 중 하나의 장르로 판단한다. 학습 방법은 GMM과 심층 신경망을 사용하며, 특성은 MFCC와 스펙트로그램을 포함하는 네 가지 종류의 벡터를 사용한다. 각 성능을 비교 분석하여 장르 분류에 적합한 학습 방법과 특성 벡터를 확인한다.

  • PDF

인공 신경망을 이용한 보청기용 실시간 환경분류 알고리즘 (Real Time Environmental Classification Algorithm Using Neural Network for Hearing Aids)

  • 서상완;육순현;남경원;한종희;권세윤;홍성화;김동욱;이상민;장동표;김인영
    • 대한의용생체공학회:의공학회지
    • /
    • 제34권1호
    • /
    • pp.8-13
    • /
    • 2013
  • Persons with sensorineural hearing impairment have troubles in hearing at noisy environments because of their deteriorated hearing levels and low-spectral resolution of the auditory system and therefore, they use hearing aids to compensate weakened hearing abilities. Various algorithms for hearing loss compensation and environmental noise reduction have been implemented in the hearing aid; however, the performance of these algorithms vary in accordance with external sound situations and therefore, it is important to tune the operation of the hearing aid appropriately in accordance with a wide variety of sound situations. In this study, a sound classification algorithm that can be applied to the hearing aid was suggested. The proposed algorithm can classify the different types of speech situations into four categories: 1) speech-only, 2) noise-only, 3) speech-in-noise, and 4) music-only. The proposed classification algorithm consists of two sub-parts: a feature extractor and a speech situation classifier. The former extracts seven characteristic features - short time energy and zero crossing rate in the time domain; spectral centroid, spectral flux and spectral roll-off in the frequency domain; mel frequency cepstral coefficients and power values of mel bands - from the recent input signals of two microphones, and the latter classifies the current speech situation. The experimental results showed that the proposed algorithm could classify the kinds of speech situations with an accuracy of over 94.4%. Based on these results, we believe that the proposed algorithm can be applied to the hearing aid to improve speech intelligibility in noisy environments.

판소리 자동채보를 위한 구조분석 알고리즘 (Structural Analysis Algorithm for Automatic Transcription 'Pansori')

  • 주영호;김준철;서경숙;이준환
    • 한국콘텐츠학회논문지
    • /
    • 제14권2호
    • /
    • pp.28-38
    • /
    • 2014
  • 서양 음악의 경우 자동채보와 내용기반 음악검색을 위한 음악 정보 분석연구가 활발하게 진행되고 있다. 그러나 한국 전통음악에서는 유사한 연구사례를 찾아보기 어렵다. 본 논문에서는 한국의 전통음악인 판소리 구조를 자동으로 분석하기 위한 알고리즘들을 제안한다. 제안된 알고리즘은 음성과 비음성의 시간 간격비율을 이용하여 '소리' 부분과 '아니리' 부분을 자동으로 구분한다. 뿐만 아니라 알고리즘은 '장단'이라 칭하는 리듬을 템플릿 이용한 다수결 결정 방법으로 강건하게 구분한다. 또한 알고리즘은 칼만 필터를 이용하여 '소리' 부분의 마디 지점을 검지해낸다. 본 논문에서 제안된 알고리즘들은 판소리 샘플들에서 양호하게 동작하였으며 자동채보의 전단계의 구조분석에 유용할 수 있다.