• 제목/요약/키워드: 음성분류

검색결과 624건 처리시간 0.026초

음성/음악 분류를 위한 특징 비교 (The Comparison of features for Speech/Music Discrimination)

  • 이경록;서봉수;김진영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.157-160
    • /
    • 2000
  • 본 논문에서는 멀티미디어 정보에서 원하는 정보를 추출하는 멀티미디어 인덱싱 중 오디오 인덱싱의 전처리 부격인 음성/음악 분류실험을 하였다. 오디오 인덱싱에 있어서 음성/음악 분류기는 원 오디오 신호에서 정보를 가진 음성 부분을 분리하는 역할을 한다. 실험에서는 음성/음악 분류에서 널리 쓰이는 멜캡스트럼(Mel Cepstrum), 정규화 로그 에너지(normalized log energy), 영교차(Zero-Crossings)를 특징 파라미터로 사용하였다[l, 2, 3]. 특징공간은 GMM(Gaussian Mixture Model)에 의해 모델링 되었고, 오디오 신호의 분류는 각각 3가지 분류항목(음성, 음악, 음성+음악)과 2가지 분류항목(음성, 음악)을 적용하였다. 실험결과 3가지 분류항목 적용시와 2가지 분류항목 적용시 모두 멜캡스트럼을 사용하였을 때 가장 좋은 결과를 보였다.

  • PDF

다자간 영상통화의 오디오 게인콘트롤을 위한 저연산 음성분류방식 (Multi-party video telephony of audio gain control for low computation voice classification method)

  • 류상현;김형국
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2012년도 춘계학술발표대회논문집
    • /
    • pp.349-350
    • /
    • 2012
  • 본 논문에서는 다자간 영상통화의 오디오 게인콘트롤을 위한 저연산 음성분류방식을 제안한다. 제안된 음성분류방식은 입력되는 음성신호를 음성신호의 특징에 따라서 묵음/무성음/유성음으로 분류한다. 입력된 음성신호의 에너지를 이용해서 음성구간과 비음성구간을 판별한다. 음성구간으로 판별된 구간에 대해서 ZCR(Zeor Crossing Rate)를 이용하여 유성음과 무성음으로 분류한다. 제안된 방식의 성능을 측정을 위해 음성분류 정확도와 연산시간을 측정하여 성능을 측정하였다.

  • PDF

새로운 음성/비음성 분류함수에 기반한 스펙트럼 차감법에 의한 차량잡음제거 (Car Noise Cancellation by Using Spectral Subtraction Method Based on a New Speech/nonspeech Classification Function)

  • 박영식;이준재;이응주;하영호
    • 한국통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.994-1003
    • /
    • 1994
  • 본 논문에서는 차량 잡음 환경하에서 하나의 마이크로폰 구조를 사용하여 스펙트럼 차감법을 이용한 잡음 제거 방법을 제안하였다. 변화하는 잡음에 의하여 손상된 음성신호에서 잡음의 성분을 제거하기 위하여 여러 상황에서의 차량 잡음을 분석하고 특성을 알아보았다. 음성/비음성의 분류와 잡음의 스펙트럼을 추정하기 위하여 잡음 분석을 바탕으로 음성/비음성 분류함수를 제안하였다. 이 분류함수에 의하여 적은 계산량으로 간단하게 정확한 음성/비음성의 분류가 가능하다. 또한 정확한 잡음의 스펙트럼 추정이 가능하다. 제안된 음성/비음성 분류함수에 의한 잡음의 스펙트럼 추정으로 인하여 왜곡이 거의 없는 깨끗한 음성신호를 추출할 수 있었다.

  • PDF

오디오 인덱싱을 위한 음성/음악 분류 특징 비교 (A Comparison of Speech/Music Discrimination Features for Audio Indexing)

  • 이경록;서봉수;김진영
    • 한국음향학회지
    • /
    • 제20권2호
    • /
    • pp.10-15
    • /
    • 2001
  • 본 논문에서 우리는 음향신호에서 음성과 음악을 분류하는 음성/음악 분류실험에 사용되는 특징들간의 상호조합을 비교하였다. 음향신호는 3가지 (음성, 음악, 음성+음악)와 2가지 (음성, 음악)로 분류하였다. 실험은 멜캡스트럼, 에너지, 영교차를 특징으로 사용하였고, 음성/음악 분류성능이 가장 좋은 특징간 상호조합을 모색하였다. 분류 알고리즘으로는 Gaussian Mixture Model (GMM)을 이용하였으며, GMM에 의한 데이터 모델링 전에 각기 다른 특징들을 하나의 특징공간에서 결합하였다. 실험결과 3가지 분류기준 적용시에는 멜캡스트럼, 영교차 조합이 가장 좋은 결과 (음성: 95.1%, 음악: 61.9%, 음성+음악: 55.5%)를 보였고, 2가지 분류기준 적용시에는 멜캡스트럼, 에너지 조합과 멜캡스트럼, 에너지, 영교차 조합이 가장 좋은 결과 (음성: 98.9%, 음악: 100%)를 보였다.

  • PDF

음성특징의 다양한 조합과 문장 정보를 이용한 감정인식 (Emotion Recognition using Various Combinations of Audio Features and Textual Information)

  • 서승현;이보원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.137-139
    • /
    • 2019
  • 본 논문은 다양한 음성 특징과 텍스트를 이용한 멀티 모드 순환신경망 네트워크를 사용하여 음성을 통한 범주형(categorical) 분류 방법과 Arousal-Valence(AV) 도메인에서의 분류방법을 통해 감정인식 결과를 제시한다. 본 연구에서는 음성 특징으로는 MFCC, Energy, Velocity, Acceleration, Prosody 및 Mel Spectrogram 등의 다양한 특징들의 조합을 이용하였고 이에 해당하는 텍스트 정보를 순환신경망 기반 네트워크를 통해 융합하여 범주형 분류 방법과 과 AV 도메인에서의 분류 방법을 이용해 감정을 이산적으로 분류하였다. 실험 결과, 음성 특징의 조합으로 MFCC Energy, Velocity, Acceleration 각 13 차원과 35 차원의 Prosody 의 조합을 사용하였을 때 범주형 분류 방법에서는 75%로 다른 특징 조합들 보다 높은 결과를 보였고 AV 도메인 에서도 같은 음성 특징의 조합이 Arousal 55.3%, Valence 53.1%로 각각 가장 높은 결과를 보였다.

  • PDF

실험에 의한 음성·음악 분류 특징의 비교 분석 (Comparison & Analysis of Speech/Music Discrimination Features through Experiments)

  • 이경록;류시우;곽재영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2004년도 추계 종합학술대회 논문집
    • /
    • pp.308-313
    • /
    • 2004
  • 본 논문에서는 각 특징 파라미터 조합의 음성/음악 분류 성능을 비교 분석하였다. 음향신호는 3가지(음성, 음악, 음성+음악)로 분류하였다. 본 실험에서는 분류 특징으로 멜캡스트럼, 에너지, 영교차 3가지 형태가 사용되었다. 음성/음악 분류 성능이 가장 좋은 특징간의 상호 조합을 비교 분석하였다. 실험결과 멜캡스트럼, 영교차 조합이 가장 좋은 결과(음성: 95.1%, 음악: 61.9%, 음성+음악: 55.5%)를 보인다는 것을 확인할 수 있었다.

  • PDF

3GPP2 SMV의 실시간 음성/음악 분류 성능 향상을 위한 Gaussian Mixture Model의 적용 (Analysis and Implementation of Speech/Music Classification for 3GPP2 SMV Based on GMM)

  • 송지현;이계환;장준혁
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.390-396
    • /
    • 2007
  • 본 논문에서는 음성 인식과 음악 인식에서 뛰어난 성능을 보이는 Expectation-Maximization(EM) 알고리즘 기반의 패턴인식기법인 가우시안 혼합모델(Gaussian Mixture Model, GMM)을 이용하여 기존의 3GPP2 Selectable Mode Vocoder(SMV)의 실시간 음성/음악 분류 성능을 향상 시키는 방법을 제안한다 SMV의 음성/음악 실시간 분류 알고리즘에서 사용된 특징벡터와 분류방법을 분석하고, 이를 기반으로 분류성능향상을 위해 패턴인식 알고리즘인 GMM을 도입한다. 구체적으로, SMV의 음성/음악 분류알고리즘에서 사용되어진 특징벡터만을 선택적으로 사용하여 효과적인 GMM을 구성한 실시간 분류기법이 제시되었다. SMV의 음성/음악 분류에 적용한 GMM의 성능 평가를 위해 SMV 원래의 분류알고리즘과 비교하였으며, 다양한 음악장르에 대해 시스템의 성능을 평가한 결과 GMM을 이용하였을 때 기존의 SMV의 방법보다 우수한 음성/음악 분류 성능을 보였다.

변별적 가중치 학습을 이용한 3GPP2 SVM의 실시간 음성/음악 분류 성능 향상 (Enhancement of Speech/Music Classification for 3GPP2 SMV Codec Employing Discriminative Weight Training)

  • 강상익;장준혁;이성로
    • 한국음향학회지
    • /
    • 제27권6호
    • /
    • pp.319-324
    • /
    • 2008
  • 본 논문에서는 변별적 가중치 학습 (discriminative weight training) 기반의 3GPP2 Selectable Mode Vocoder (SMV) 실시간 음성/음악 분류 성능을 향상 시키는 방법을 제안한다. SMV의 음성/음악 실시간 분류 알고리즘에서 사용된 특징벡터와 분류방법을 분석하고, 이를 기반으로 분류성능향상을 위해 MCE (minimum classification error)방법을 도입하여, 각 특징 백터별로 다른 가중치를 적용하는 음성/음악 결정법 (decision rule)을 제시한다. 구체적으로 SMV의 음성/음악 분류알고리즘에서 사용되어진 특징벡터만을 선택적으로 사용하여 가중치를 적용한 값을 기하 평균한 값을 문턱값과 비교하는 실시간 분류기법이 제시되었다. SMV의 음성/음악 분류에 제안한 방법의 성능 평가를 위해 SMV 원래의 분류알고리즘과 비교하였으며, 다양한 음악장르에 대해 시스템의 성능을 평가한 결과 가중치를 적용하였을 때 기존의 SMV의 방법보다 우수한 음성/음악 분류 성능을 보였다.

음성 분석 정보값 비교를 통한 사상체질 태음인의 분류 (Classification of Sasang Constitution Taeumin by Comparative of Speech Signals Analysis)

  • 김봉현;이세환;조동욱
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.17-24
    • /
    • 2008
  • 본 논문에서는 사상 체질 분류를 음성 분석 정보값의 비교, 분석을 통해 제안하고자 한다. 이를 위해 본 논문에서는 사상체질의 객관적 지표를 마련하기 위한 전체 시스템 구성 중 1차 단계로써 피부 진단을 통한 소음인의 분류 과정과 연계하여 음성 신호 분석에서 발생하는 정보의 출력값에 의해 태음인을 분류하는 방법을 제안하고자 한다. 우선 각 사상 체질별로 뚜렷한 특징을 보유하고 있는 집단군을 구성하고 이들의 음성 특성을 분류하여 음성학적 요소를 추출하고자 한다. 또한 출력된 결과값을 토대로 체질 집단별 차이점과 유사점을 통하여 태음인을 분류하고자 한다. 끝으로 실험에 의해 제안한 방법의 유용성을 입증하고자 한다.

다중 응답 분류회귀트리를 이용한 음성 개성 변환 (Voice Personality Transformation Using a Multiple Response Classification and Regression Tree)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.253-261
    • /
    • 2004
  • 본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.