• 제목/요약/키워드: MFCC

검색결과 272건 처리시간 0.023초

마이크로폰어레이를 이용한 사용자 정보추출 (Personal Information Extraction Using A Microphone Array)

  • 김혜진;윤호섭
    • 로봇학회논문지
    • /
    • 제3권2호
    • /
    • pp.131-136
    • /
    • 2008
  • This paper proposes a method to extract the personal information using a microphone array. Useful personal information, particularly customers, is age and gender. On the basis of this information, service applications for robots can satisfy users by offering services adaptive to the special needs of specific user groups that may include adults and children as well as females and males. We applied Gaussian Mixture Model (GMM) as a classifier and Mel Frequency Cepstral coefficients (MFCCs) as a voice feature. The major aim of this paper is to discover the voice source parameters of age and gender and to classify these two characteristics simultaneously. For the ubiquitous environment, voices obtained by the selected channels in a microphone array are useful to reduce background noise.

  • PDF

정규혼합모델을 이용한 수중 천이신호 식별 (Classification of Underwater Transient Signals Using Gaussian Mixture Model)

  • 오상환;배건성
    • 한국정보통신학회논문지
    • /
    • 제16권9호
    • /
    • pp.1870-1877
    • /
    • 2012
  • 천이신호는 지속시간이 짧으면서 길이의 변화가 크고, 시변성 및 비정재성 특성을 갖는다. 이러한 천이신호의 식별에는 분석 프레임 단위로 참조신호에 대한 기준패턴을 만들어 입력신호와의 유사도를 비교하는 방법이 효과적일 수 있다. 본 연구에서는 참조신호의 기준패턴으로 프레임 기반의 특징벡터들에 대해 확률통계 모형인 정규혼합모델을 적용하는 방법을 제안하고, 다양한 수중 천이신호에 대한 식별 실험을 통해 제안한 방법의 타당성을 검증하였다.

잡음환경의 ASR 성능개선을 위한 음성강조 파라미터 (Using speech enhancement parameter for ASR)

  • 차영동;김영섭;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
    • /
    • pp.63-66
    • /
    • 2006
  • 음성인식시스템은 사람이 별도의 장비 없이 음성만으로 시스템의 사용이 가능한 편리한 장점을 지니고 있으나 여러 가지 기술적인 어려움과 실제 환경의 낮은 인식률로 폭넓게 사용되지 못한 상황이다. 그 중 배경잡음은 음성인식의 인식률을 저하시키는 원인으로 지적 받고 있다. 이러한 잡음환경에 있는 ASR(Automatic Speech Recognition)의 성능 향상을 위해 외측억제 기능 이 추가된 파라미터를 제안한다. ASR 에서 널리 사용되는 파라미터인 MFCC을 본 논문에서 제안한 파라미터와 HMM를 이용하여 인식률을 비교하여 성능을 비교하였다. 실험결과를 통해 제안된 파라미터의 사용을 통해 잡음환경에 있는 ASR의 성능 향상을 확인할 수 있었다.

  • PDF

A Study on the Optimal Mahalanobis Distance for Speech Recognition

  • Lee, Chang-Young
    • 음성과학
    • /
    • 제13권4호
    • /
    • pp.177-186
    • /
    • 2006
  • In an effort to enhance the quality of feature vector classification and thereby reduce the recognition error rate of the speaker-independent speech recognition, we employ the Mahalanobis distance in the calculation of the similarity measure between feature vectors. It is assumed that the metric matrix of the Mahalanobis distance be diagonal for the sake of cost reduction in memory and time of calculation. We propose that the diagonal elements be given in terms of the variations of the feature vector components. Geometrically, this prescription tends to redistribute the set of data in the shape of a hypersphere in the feature vector space. The idea is applied to the speech recognition by hidden Markov model with fuzzy vector quantization. The result shows that the recognition is improved by an appropriate choice of the relevant adjustable parameter. The Viterbi score difference of the two winners in the recognition test shows that the general behavior is in accord with that of the recognition error rate.

  • PDF

Dysarthric speaker identification with different degrees of dysarthria severity using deep belief networks

  • Farhadipour, Aref;Veisi, Hadi;Asgari, Mohammad;Keyvanrad, Mohammad Ali
    • ETRI Journal
    • /
    • 제40권5호
    • /
    • pp.643-652
    • /
    • 2018
  • Dysarthria is a degenerative disorder of the central nervous system that affects the control of articulation and pitch; therefore, it affects the uniqueness of sound produced by the speaker. Hence, dysarthric speaker recognition is a challenging task. In this paper, a feature-extraction method based on deep belief networks is presented for the task of identifying a speaker suffering from dysarthria. The effectiveness of the proposed method is demonstrated and compared with well-known Mel-frequency cepstral coefficient features. For classification purposes, the use of a multi-layer perceptron neural network is proposed with two structures. Our evaluations using the universal access speech database produced promising results and outperformed other baseline methods. In addition, speaker identification under both text-dependent and text-independent conditions are explored. The highest accuracy achieved using the proposed system is 97.3%.

한국어 숫자음 전화음성의 채널왜곡에 따른 특징파라미터의 변이 분석 (Variation Analysis of Feature Parameters According to the Channel Distortion of Korean Telephone Digit Speech)

  • 정성윤;손종목;김민성;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.191-194
    • /
    • 2002
  • The final purpose of this paper is the enhancement of speech recognition rate under the matched telephone environment between training data and test data. To analyze the effect by the distortion of the changing telephone channel on every call, MFCC is used as the feature parameter and CMN, RTCN, and RASTA are used as channel compensation techniques. For each case, the variation of feature parameters of all phones is analyzed. And, we find recognition rates according to each compensation method using the continuous HMM recognizer, and examine the relationship between variation and recognition rate.

  • PDF

TMS320F28335 DSP를 이용한 화자독립 음성인식기 구현 (Implementation of a Speaker-independent Speech Recognizer Using the TMS320F28335 DSP)

  • 정익주
    • 산업기술연구
    • /
    • 제29권A호
    • /
    • pp.95-100
    • /
    • 2009
  • In this paper, we implemented a speaker-independent speech recognizer using the TMS320F28335 DSP which is optimized for control applications. For this implementation, we used a small-sized commercial DSP module and developed a peripheral board including a codec, signal conditioning circuits and I/O interfaces. The speech signal digitized by the TLV320AIC23 codec is analyzed based on MFCC feature extraction methed and recognized using the continuous-density HMM. Thanks to the internal SRAM and flash memory on the TMS320F28335 DSP, we did not need any external memory devices. The internal flash memory contains ADPCM data for voice response as well as HMM data. Since the TMS320F28335 DSP is optimized for control applications, the recognizer may play a good role in the voice-activated control areas in aspect that it can integrate speech recognition capability and inherent control functions into the single DSP.

  • PDF

딥러닝 기반 모창가수 구분에서 특징 추출 방법 -히든싱어 컨테스트 (Feature Extraction Method for Deep Learning-based Singer Identification - Hidden Singer Contest)

  • 채다인;서다빈;이영경;최대선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.629-632
    • /
    • 2016
  • 본 논문에서는 원가수와 모창가수를 구분하는 방법과 여기에 사용되는 특징 추출 방법을 제안한다. 구분 방법은 컴퓨터에게 원가수의 원곡 음원을 학습시킨 후 원가수와 모창가수 음원 5개를 비교하여 가장 유사도가 높은 것을 원가수로 분류한다. 특징 추출은 MFCC 를 사용하는데 파라메터인 주파수 대역과 윈도우 사이즈에 따라 성능이 달라지므로, 파라메터 선택을 위해 30곡의 테스트 셋을 구성하여 실험을 실시하였다.

The Classification of Music Styles on the Basis of Spectral Contrast Features

  • Wang, Yan-bing
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.9-14
    • /
    • 2017
  • In this paper, we propose that the contrast features of octave spectrum can be used to show spectral contrast features of some music clips. It shows the relative spectral distribution rather than average spectrum. From the experiment, it can be seen the method of spectral contrast features has a good performance in classification of music styles. Another comparative experiment shows that the method of spectral contrast features can better distinguish different music styles than the method of MFCC features that commonly used previously in the classification system of music styles.

전화망 환경에서의 연속숫자음 인식 성능평가 (Performance Evaluation of Telephone Continuous Digit Recognition)

  • 김성탁;김상진;정호영;김회린;한민수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.253-256
    • /
    • 2002
  • 한국어 숫자는 단음절로 이루어져 있고, 연속적으로 발음할 때 조음현상에 의해 발음이 심하게 변하고, 숫자간의 경계를 규정하기가 어려워진다. 특히 잡음환경에서는 한국어의 무성음인 자음구간의 주파수 특징이 많이 왜곡되어 성능이 저하된다. 본 논문에서는 전화망에서의 고성능 연속숫자음 인식기 개발을 위하여 그 첫 단계로서 다양한 조건에서 MFCC 특징계수를 구하는 방법들과 문맥독립 및 문맥종속 HMM의 상태수 및 각 상태에서의 mixture 수 변화에 대한 성능을 분석해본다. 음향모델로는 문맥독립 모델인 음소와 문맥종속 모델인 triphone 모델을 모두 평가하였다.

  • PDF