• 제목/요약/키워드: LPCC

검색결과 28건 처리시간 0.026초

가중된 예측 오차 파라미터를 사용한 화자 확인 성능 개선 (Speaker Verification Performance Improvement Using Weighted Residual Cepstrum)

  • 위진우;강철호
    • 한국음향학회지
    • /
    • 제20권5호
    • /
    • pp.48-53
    • /
    • 2001
  • LPC분석 기반 화자 확인에서 잔여성분(residue) 예측은 보통 무시되고, LPCC(LPC-cepstrum)만이 특징 파라미터로 사용된다. 본 연구에서는 잔여성분으로부터 추출된 예측파라미터인 잔여 켑스트럼(residual cepstrum)을 LPCC와 함께 여러 환경에서 구축된 데이터 베이스에서 화자특징 파라미터로 사용하였다. 또한, 잔여 켑스트럼에 포함되어있는 화자 고유성분인 피치(pitch)성분에 큰 가중치(weighting)를 줌으로써 화자간 변이(inter-speaker variation)가 커지도록 하는 가중치 함수를 제안한다. 실험 결과, LPCC만을 특징 파라미터로 사용하였을 경우보다 잔여 켑스트럼 (RCEP)과 LPCC를 동시에 사용했을 경우 약 6%가량의 인식 오류율이 향상 되었으며, 제안한 가중치 함수를 적용한 잔여 켑스트럼 (RCEP)과 LPCC를 동시에 사용했을 경우 인식 오류율이 가중치를 주지 않은 경우보다 약 2.45%가량 개선되었다.

  • PDF

피보호자 모니터링 시스템을 위한 환경음 기반 상황 인식 (Context Recognition Using Environmental Sound for Client Monitoring System)

  • 지승은;조준영;이충근;오시원;김우일
    • 한국정보통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.343-350
    • /
    • 2015
  • 본 논문에서는 모바일 기반의 피보호자 모니터링 시스템 적용을 위한 환경음 기반의 상황 인식 기술을 소개한다. 상황 인식 실험을 위해 총 7가지의 음향 환경으로 나누어 환경음을 취득한다. 환경음 인식 성능 비교를 위해 MFCC와 LPCC 특징 추출 기법을 이용한다. 통계적 기반의 패턴인식 기법을 적용하기 위해 GMM 및 HMM 음향 모델을 기반으로 인식기를 설계한다. 인식 실험 결과에서는 LPCC 특징 추출 기법이 MFCC 기법 보다 우수하고, 음향 모델은 HMM이 GMM에 비해 높은 인식 성능을 나타낸다. LPCC 특징을 사용하고 HMM 모델을 채용함으로써 최고 96.03%의 인식률을 나타낸다. 이와 같은 결과는 음성에 비하여 다양한 주파수 성분이 존재하는 환경음을 표현하는데 MFCC 보다는 LPCC가 효과적임을 나타내며, 시간에 따라 변하는 특성을 갖는 환경음은 GMM 보다 HMM이 효과적임을 입증한다.

Incremental Neural Network 과 LPCC을 이용한 화자인식 (Speaker Identification using Incremental Neural Network and LPCC)

  • 허광승;박창현;이동욱;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.341-344
    • /
    • 2002
  • 음성은 화자들의 특징을 가지고 있다. 이 논문에서는 신경망에 기초한 Incremental Learning을 이용하여 화자인식시스템을 소개한다. 컴퓨터를 통하여 녹음된 문장들은 FFT를 거치면서 Frequency 영역으로 바뀌고, 모음들의 특징을 가지고 있는 Formant를 이용하여 모음들을 추출한다. 추출된 모음들은 LPC처리를 통하여 화자의 특성을 가지고 있는 Coefficient값들을 얻는다. LPCC과정과 Vector Quantization을 통해 10개의 특징 점들은 학습을 위한 Input으로 들어가고 화자 수에 따라 증가되는 Hidden Layer와 Output Layer들을 가지고 있는 신경망을 통해 화자인식을 수행한다.

화자식별을 위한 파라미터의 잡음환경에서의 성능비교 (Parameters Comparison in the speaker Identification under the Noisy Environments)

  • 최홍섭
    • 음성과학
    • /
    • 제7권3호
    • /
    • pp.185-195
    • /
    • 2000
  • This paper seeks to compare the feature parameters used in speaker identification systems under noisy environments. The feature parameters compared are LP cepstrum (LPCC), Cepstral mean subtraction(CMS), Pole-filtered CMS(PFCMS), Adaptive component weighted cepstrum(ACW) and Postfilter cepstrum(PF). The GMM-based text independent speaker identification system is designed for this target. Some series of experiments show that the LPCC parameter is adequate for modelling the speaker in the matched environments between train and test stages. But in the mismatched training and testing conditions, modified parameters are preferable the LPCC. Especially CMS and PFCMS parameters are more effective for the microphone mismatching conditions while the ACW and PF parameters are good for more noisy mismatches.

  • PDF

보안 시스템을 위한 비명 검출 엔진 설계 (A Design of a Scream Detecting Engine for Surveillance Systems)

  • 서지훈;이혜인;이석필
    • 전기학회논문지
    • /
    • 제63권11호
    • /
    • pp.1559-1563
    • /
    • 2014
  • Recently, the prevention of crime using CCTV draws special in accordance with the higher crime incidence rate. Therefore security systems like a CCTV with audio capability are developing for giving an instant alarm. This paper proposes a scream detecting engine from various ambient noises in real environment for surveillance systems. The proposed engine detects scream signals among the various ambient noises using the features extracted in time/frequency domain. The experimental result shows the performance of our engine is very promising in comparison with the traditional engines using the model based features like LPC, LPCC and MFCC. The proposed method has a low computational complexity by using FFT and cross correlation coefficients instead of extracting complex features like LPC, LPCC and MFCC. Therefore the proposed engine can be efficient for audio-based surveillance systems with low SNRs in real field.

SOM과 LVQ에 의한 자음의 분류 (Classification of Consonants by SOM and LVQ)

  • 이채봉;이창영
    • 한국전자통신학회논문지
    • /
    • 제6권1호
    • /
    • pp.34-42
    • /
    • 2011
  • 음성타자기의 구현에 접근하려는 노력의 일환으로서, 우리는 본 논문에서 자음의 분류에 대해 연구한다. 많은 자음들은 시간에 따른 주기적 거동을 보이지 않고 따라서 그들에 대한 푸리에 해석의 타당성에 확신을 갖기 어렵다. 그러므로, 우선 음성 신호로부터 추출되는 MFCC와 LPCC 특징벡터들이 자음에 대해 어느 정도의 의미가 있는지를 파악하기 위하여 LBG 클러스터링을 통한 벡터양자화를 수행한다. VQ의 실험적 결과는 자음에 대한 푸리에 해석의 타당성에 관해 분명한 결론을 내리는 것이 쉽지 않음을 보여주었다. 자음의 분류를 위해 SOM과 LVQ의 두 가지 신경망이 사용되었다. SOM의 결과는 몇 쌍의 자음들이 나뉘어 분류되지 않음을 보여주었다. LVQ에서는 본질적으로 이 문제가 사라지지만 자음의 분류 정확도는 낮은 수준이었다. 이로부터, LVQ에 의한 자음 분류에 있어서는 MFCC 및 다른 특징 벡터들이 함께 사용되어야 함이 사료된다. 하지만 본 연구에서 도입한 MFCC/LVQ의 결합은 기존의 언어모델을 기반으로 하는 음소 분류에 비해 그 결과가 나쁘지 않은 것으로 나타났다. 모든 경우에 LPCC 특징벡터는 MFCC에 비해 그 결과가 좋지 않았다.

Audio Fingerprint Retrieval Method Based on Feature Dimension Reduction and Feature Combination

  • Zhang, Qiu-yu;Xu, Fu-jiu;Bai, Jian
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권2호
    • /
    • pp.522-539
    • /
    • 2021
  • In order to solve the problems of the existing audio fingerprint method when extracting audio fingerprints from long speech segments, such as too large fingerprint dimension, poor robustness, and low retrieval accuracy and efficiency, a robust audio fingerprint retrieval method based on feature dimension reduction and feature combination is proposed. Firstly, the Mel-frequency cepstral coefficient (MFCC) and linear prediction cepstrum coefficient (LPCC) of the original speech are extracted respectively, and the MFCC feature matrix and LPCC feature matrix are combined. Secondly, the feature dimension reduction method based on information entropy is used for column dimension reduction, and the feature matrix after dimension reduction is used for row dimension reduction based on energy feature dimension reduction method. Finally, the audio fingerprint is constructed by using the feature combination matrix after dimension reduction. When speech's user retrieval, the normalized Hamming distance algorithm is used for matching retrieval. Experiment results show that the proposed method has smaller audio fingerprint dimension and better robustness for long speech segments, and has higher retrieval efficiency while maintaining a higher recall rate and precision rate.

음성신호기반의 감정분석을 위한 특징벡터 선택 (Discriminative Feature Vector Selection for Emotion Classification Based on Speech)

  • 최하나;변성우;이석필
    • 전기학회논문지
    • /
    • 제64권9호
    • /
    • pp.1363-1368
    • /
    • 2015
  • Recently, computer form were smaller than before because of computing technique's development and many wearable device are formed. So, computer's cognition of human emotion has importantly considered, thus researches on analyzing the state of emotion are increasing. Human voice includes many information of human emotion. This paper proposes a discriminative feature vector selection for emotion classification based on speech. For this, we extract some feature vectors like Pitch, MFCC, LPC, LPCC from voice signals are divided into four emotion parts on happy, normal, sad, angry and compare a separability of the extracted feature vectors using Bhattacharyya distance. So more effective feature vectors are recommended for emotion classification.

A Method of Evaluating Korean Articulation Quality for Rehabilitation of Articulation Disorder in Children

  • Lee, Keonsoo;Nam, Yunyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권8호
    • /
    • pp.3257-3269
    • /
    • 2020
  • Articulation disorders are characterized by an inability to achieve clear pronunciation due to misuse of the articulators. In this paper, a method of detecting such disorders by comparing to the standard pronunciations is proposed. This method defines the standard pronunciations from the speeches of normal children by clustering them with three features which are the Linear Predictive Cepstral Coefficient (LPCC), the Mel-Frequency Cepstral Coefficient (MFCC), and the Relative Spectral Analysis Perceptual Linear Prediction (RASTA-PLP). By calculating the distance between the centroid of the standard pronunciation and the inputted pronunciation, disordered speech whose features locates outside the cluster is detected. 89 children (58 of normal children and 31 of children with disorders) were recruited. 35 U-TAP test words were selected and each word's standard pronunciation is made from normal children and compared to each pronunciation of children with disorders. In the experiments, the pronunciations with disorders were successfully distinguished from the standard pronunciations.

후두질환 음성의 자동 식별 성능 비교 (Performance Comparison of Automatic Detection of Laryngeal Diseases by Voice)

  • 강현민;김수미;김유신;김형순;조철우;양병곤;왕수건
    • 대한음성학회지:말소리
    • /
    • 제45호
    • /
    • pp.35-45
    • /
    • 2003
  • Laryngeal diseases cause significant changes in the quality of speech production. Automatic detection of laryngeal diseases by voice is attractive because of its nonintrusive nature. In this paper, we apply speech recognition techniques to detection of laryngeal cancer, and investigate which feature parameters and classification methods are appropriate for this purpose. Linear Predictive Cepstral Coefficients (LPCC) and Mel-Frequency Cepstral Coefficients (MFCC) are examined as feature parameters, and parameters reflecting the periodicity of speech and its perturbation are also considered. As for classifier, multilayer perceptron neural networks and Gaussian Mixture Models (GMM) are employed. According to our experiments, higher order LPCC with the periodic information parameters yields the best performance.

  • PDF