• 제목/요약/키워드: Voice classification

검색결과 149건 처리시간 0.027초

피처벡터 축소방법에 기반한 장애음성 분류 (Classification of pathological and normal voice based on dimension reduction of feature vectors)

  • 이지연;정상배;최홍식;한민수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.123-126
    • /
    • 2007
  • This paper suggests a method to improve the performance of the pathological/normal voice classification. The effectiveness of the mel frequency-based filter bank energies using the fisher discriminant ratio (FDR) is analyzed. And mel frequency cepstrum coefficients (MFCCs) and the feature vectors through the linear discriminant analysis (LDA) transformation of the filter bank energies (FBE) are implemented. This paper shows that the FBE LDA-based GMM is more distinct method for the pathological/normal voice classification than the MFCC-based GMM.

  • PDF

A Voice Controlled Service Robot Using Support Vector Machine

  • Kim, Seong-Rock;Park, Jae-Suk;Park, Ju-Hyun;Lee, Suk-Gyu
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1413-1415
    • /
    • 2004
  • This paper proposes a SVM(Support Vector Machine) training algorithm to control a service robot with voice command. The service robot with a stereo vision system and dual manipulators of four degrees of freedom implements a User-Dependent Voice Control System. The training of SVM algorithm that is one of the statistical learning theories leads to a QP(quadratic programming) problem. In this paper, we present an efficient SVM speech recognition scheme especially based on less learning data comparing with conventional approaches. SVM discriminator decides rejection or acceptance of user's extracted voice features by the MFCC(Mel Frequency Cepstrum Coefficient). Among several SVM kernels, the exponential RBF function gives the best classification and the accurate user recognition. The numerical simulation and the experiment verified the usefulness of the proposed algorithm.

  • PDF

산업용 로보트의 동작제어 명령어의 인식에 관한 연구 (A study on the voice command recognition at the motion control in the industrial robot)

  • 이순요;권규식;김홍태
    • 대한인간공학회지
    • /
    • 제10권1호
    • /
    • pp.3-10
    • /
    • 1991
  • The teach pendant and keyboard have been used as an input device of control command in human-robot sustem. But, many problems occur in case that the usef is a novice. So, speech recognition system is required to communicate between a human and the robot. In this study, Korean voice commands, eitht robot commands, and ten digits based on the broad phonetic analysis are described. Applying broad phonetic analysis, phonemes of voice commands are divided into phoneme groups, such as plosive, fricative, affricative, nasal, and glide sound, having similar features. And then, the feature parameters and their ranges to detect phoneme groups are found by minimax method. Classification rules are consisted of combination of the feature parameters, such as zero corssing rate(ZCR), log engery(LE), up and down(UD), formant frequency, and their ranges. Voice commands were recognized by the classification rules. The recognition rate was over 90 percent in this experiment. Also, this experiment showed that the recognition rate about digits was better than that about robot commands.

  • PDF

음성 분석을 이용한 사상 체질 분류에 관한 연구 (A Study on Sasang Constitution Classification Using Voice Analysis)

  • 조동욱;김봉현;이세환
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 추계 종합학술대회 논문집
    • /
    • pp.513-517
    • /
    • 2005
  • 우리나라 전통의학이며, 세계 의료시장에서 경쟁력이 있는 독특한 체질의학이 사상의학이다. 사상의학은 누구나 쉽게 접근할 수 있으며, 체질에 맞는 생활 습관으로 건강한 삶을 누릴 수 있다. 본 논문에서는 음성 분석을 통한 사상 체질의 분류 방법을 제안하고자 한다. 이를 위해 음성 분석으로 각 사상체질에 나타나는 특성들을 살펴보았으며, 이를 통해 사람의 목소리만으로 간단히 사상 체질을 분류해 보는 방법에 대해 기술하고자 한다.

  • PDF

영상 및 음성 신호 처리를 이용한 장년기 여성의 사상체질 분류 방법의 제안 (A Proposal of Sasang Constitution Classification in Middle-aged Women Using Image and Voice Signals Process)

  • 이세환;김봉현;가민경;조동욱;곽지현;오상영;배영래
    • 한국산학기술학회논문지
    • /
    • 제9권5호
    • /
    • pp.1210-1217
    • /
    • 2008
  • 사상의학은 개인별 체질의 분류에 따른 맞춤형 의학으로 우리나라 고유의 독특한 전통 의학이다. 이와 같은 사상의학에서 가장 중요하게 여겨지는 것이 사상체질의 정확한 분류이다. 따라서 사상체질 분류에 대한 객관적 요소의 확보 및 진단 지표 마련이 시급하게 해결되어야 할 과제이다. 이를 위해 본 논문에서는 사상체질 분류의 객관화, 정량화 및 시각화를 위해 얼굴 영상 신호와 음성 신호를 분석하여 결과값을 추출하고 체질별 집단군간의 차이점을 비교하여 사상체질 분류 시스템을 구현하고자 한다. 특히 영상 및 음성 신호는 성별, 연령별, 지역별 등의 구분에 따라 달라지기 때문에 본 논문에서는 40에서 50대 사이의 장년 여성을 대상으로 서울지역 거주자에 한해 사상체질 집단군을 구성하고 이들의 영상 및 음성 신호를 추출하여 체질간 비교, 분석을 수행하고자 한다. 최종적으로 실험을 통한 연구 결과의 유의성을 입증하고자 한다.

다중 응답 분류회귀트리를 이용한 음성 개성 변환 (Voice Personality Transformation Using a Multiple Response Classification and Regression Tree)

  • 이기승
    • 한국음향학회지
    • /
    • 제23권3호
    • /
    • pp.253-261
    • /
    • 2004
  • 본 논문에서는 음성 신호가 지니고 있는 화자 의존적 특징 변수를 변환 시키는 음성 개성 변환 기법이 새롭게 제안되었다. 제안된 방법은 성도 전달 함수의 특성을 반영하는 켑스트럼 벡터와 여기 신호의 특성을 반영하는 피치 값을 변환 대상 변수로 삼았으며, 이들에 대한 변환 기법으로 다중 응답 분류 회귀 트리를 사용하였다. 다중 응답 분류 회귀 트리는 기존의 분류 회귀 트리를 다차원 확장시킨 형태로서, 반응값이 벡터 형태로 존재하는 분류 회귀 트리를 의미한다. 본 논문에서는 기존의 코드북 메핑 방법과 비교하여 제안된 기법의 성능을 평가하였으며, 분류 회귀 트리에 입력되는 관찰값을 다양하게 변화시켜 트리의 복잡도와 변환 성능을 정량적으로 분석하였다. 네 명의 화자를 이용한 음성 개성 변환 실험에서, 기존의 코드북 메핑과 비교하여 객관적으로 우수한 성능을 나타내었으며, 청취 테스트에서도 변환음이 목표로 하는 화자의 음성과 유사함을 관찰할 수 있었다.

음질, 운율, 발음 특징을 이용한 마비말장애 중증도 자동 분류 (Automatic severity classification of dysarthria using voice quality, prosody, and pronunciation features)

  • 여은정;김선희;정민화
    • 말소리와 음성과학
    • /
    • 제13권2호
    • /
    • pp.57-66
    • /
    • 2021
  • 본 논문은 말 명료도 기준의 마비말장애 중증도 자동 분류 문제에 초점을 둔다. 말 명료도는 호흡, 발성, 공명, 조음, 운율 등 다양한 말 기능 특징의 영향을 받는다. 그러나 대부분의 선행연구는 한 개의 말 기능 특징만을 중증도 자동분류에 사용하였다. 본 논문에서는 음성의 장애 특성을 효과적으로 포착하기 위해 마비말장애 중증도 자동 분류에서 음질, 운율, 발음의 다양한 말 기능 특징을 반영하고자 하였다. 음질은 jitter, shimmer, HNR, voice breaks 개수, voice breaks 정도로 구성된다. 운율은 발화 속도(전체 길이, 말 길이, 말 속도, 조음 속도), 음높이(F0 평균, 표준편차, 최솟값, 최댓값, 중간값, 25 사분위값, 75 사분위값), 그리고 리듬(% V, deltas, Varcos, rPVIs, nPVIs)을 포함한다. 발음에는 음소 정확도(자음 정확도, 모음 정확도, 전체 음소 정확도)와 모음 왜곡도[VSA(vowel space area), FCR (formant centralized ratio), VAI(vowel articulatory index), F2 비율]가 있다. 본 논문에서는 다양한 특징 조합을 사용하여 중증도 자동 분류를 시행하였다. 실험 결과, 음질, 운율, 발음 특징 세 가지 말 기능 특징 모두를 분류에 사용했을 때 F1-score 80.15%로 가장 높은 성능이 나타났다. 이는 마비말장애 중증도 자동 분류에는 음질, 운율, 발음 특징이 모두 함께 고려되어야 함을 시사한다.

음성신호기반의 감정분석을 위한 특징벡터 선택 (Discriminative Feature Vector Selection for Emotion Classification Based on Speech)

  • 최하나;변성우;이석필
    • 전기학회논문지
    • /
    • 제64권9호
    • /
    • pp.1363-1368
    • /
    • 2015
  • Recently, computer form were smaller than before because of computing technique's development and many wearable device are formed. So, computer's cognition of human emotion has importantly considered, thus researches on analyzing the state of emotion are increasing. Human voice includes many information of human emotion. This paper proposes a discriminative feature vector selection for emotion classification based on speech. For this, we extract some feature vectors like Pitch, MFCC, LPC, LPCC from voice signals are divided into four emotion parts on happy, normal, sad, angry and compare a separability of the extracted feature vectors using Bhattacharyya distance. So more effective feature vectors are recommended for emotion classification.

가성구와 흉성구의 객관적인 음성분석 (Voice Analysis of Highest Falsetto and Lowest Modal Voice)

  • 진성민;송윤경;권기환;이경철;반재호
    • 대한후두음성언어의학회지
    • /
    • 제13권2호
    • /
    • pp.151-154
    • /
    • 2002
  • Background and Objectives : The pitch range of the human voice is variable, extending from chest register to falsetto register. Although numerous studies have investigated after laryngeal mechanism description of falsetto tone, systematic and objective studies were lack. The purpose of this study was to systematically analyze and compare modal with falsetto voice. Materials and Methods : Seven adult baritones were selected from a larger population of volunteers at choir. Simultaneous measurements of acoustic, electroglottographic and aerodynamic study were made during /e/ sustained in two vocal registers, lowest modal and highest falsetto. Statistical analysis was performed using Wilkoxson signed rankes test. Results : In the acoustic analysis, shimmer was increased in flasetto voice(p<0.05). In the electroglottographic analysis, closed quotient(CQ), speed quotient(SQ) at the modal voice were higher than at the falsetto voice(p<0.05). In the aerodynamic analysis, and airflow rate(MFR) of falsetto voice was higher than modal voice(p<0.05). Conclusions : In the results of the study indicate that, falsetto register ineffective, inefficient, generally unpleasant because it was produced by incomplete clousure of true vocal cord. We anticipated that further study with large samples can provide an objective criteria for status and classification of singer's modal and falsetto voice.

  • PDF

Classification of Pathological Voice Signal with Severe Noise Component

  • Li, Ta-O;Jo, Cheol-Woo
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.107-115
    • /
    • 2003
  • In this paper we tried to classify the pathological voice signal with severe noise component based on two different parameters, the spectral slope and the ratio of energies in the harmonic and noise components (HNR), The spectral slope is obtained by using a curve fitting method and the HNR is computed in cepstrum quefrency domain. Speech data from normal peoples and patients are collected, diagnosed and divided into three different classes (normal, relatively less noisy and severely noisy data), The mean values and the standard deviations of the spectral slope and the HNR are computed and compared with in the three kinds of data to characterize and classify the severely noisy pathological voice signals from others.

  • PDF