• Title/Summary/Keyword: cepstrum

Search Result 274, Processing Time 0.023 seconds

A Study on Design and Implementation of Embedded System for speech Recognition Process

  • Kim, Jung-Hoon;Kang, Sung-In;Ryu, Hong-Suk;Lee, Sang-Bae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.2
    • /
    • pp.201-206
    • /
    • 2004
  • This study attempted to develop a speech recognition module applied to a wheelchair for the physically handicapped. In the proposed speech recognition module, TMS320C32 was used as a main processor and Mel-Cepstrum 12 Order was applied to the pro-processor step to increase the recognition rate in a noisy environment. DTW (Dynamic Time Warping) was used and proven to be excellent output for the speaker-dependent recognition part. In order to utilize this algorithm more effectively, the reference data was compressed to 1/12 using vector quantization so as to decrease memory. In this paper, the necessary diverse technology (End-point detection, DMA processing, etc.) was managed so as to utilize the speech recognition system in real time

Classification of pathological and normal voice based on dimension reduction of feature vectors (피처벡터 축소방법에 기반한 장애음성 분류)

  • Lee, Ji-Yeoun;Jeong, Sang-Bae;Choi, Hong-Shik;Hahn, Min-Soo
    • Proceedings of the KSPS conference
    • /
    • 2007.05a
    • /
    • pp.123-126
    • /
    • 2007
  • This paper suggests a method to improve the performance of the pathological/normal voice classification. The effectiveness of the mel frequency-based filter bank energies using the fisher discriminant ratio (FDR) is analyzed. And mel frequency cepstrum coefficients (MFCCs) and the feature vectors through the linear discriminant analysis (LDA) transformation of the filter bank energies (FBE) are implemented. This paper shows that the FBE LDA-based GMM is more distinct method for the pathological/normal voice classification than the MFCC-based GMM.

  • PDF

Experimental identification of multiple faults in rotating machines

  • Mahfoud, Jarir;Breneur, Claire
    • Smart Structures and Systems
    • /
    • v.4 no.4
    • /
    • pp.429-438
    • /
    • 2008
  • The aim of this paper is to define the required measurements and processing tools necessary for developing a maintenance approach applied to rotating machines in the presence of multiple faults. The system responses measured were accelerations and transmission errors. Acceleration measurements provide most of the information on bearing conditions, while transmission error measurements provide pertinent information on gear conditions. The measurements were carried out for several operating conditions (loads and speeds). System responses were processed in several analyzing domains (Time, Spectrum, and Cepstrum domains). The approach developed enables the detection and identification of combined faults and it can be applied to other types of rotating machines once the critical elements and their associated faults have been defined.

Phoneme Segmentation Using Voice/Unvoiced/Silence Classifier and Spectral Information (유성/무성/묵음 분류기와 주파수 스펙트럼을 이용한 음소 경계 검출)

  • Lee Sang-Rae;Han Hyun-Bae;Hahn Minsoo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.86-91
    • /
    • 1999
  • 본 논문에서는 유성/무성/묵음 분류기와 주파수 스펙트럼 비교를 통하여 음소 경계 검출기를 구현하였다. 음소경계 검출은 음성 인식, 합성 및 분석 둥의 분야에서 매우 중요하다 유성/무성/묵음 분류기를 이용하여 유성음으로 판별되는 구간은 스펙트럼 비교를 통하여 음소 단위로 세분하였고 무성음으로 판별되는 구간은 한국어의 음성 특성을 고려하여 하나의 음소 단위로 간주하였다. 유성음 구간에 대한 스펙트럼 비교는 수정된 Itakura-Saito distance measure 와 Euclidean MFCC(Mel Frequency Cepstrum Coeffcients) distance measure를 사용하였고 비교 프레임은한 프레임을 건너 윈 경우가 가장 결과가 좋았다. 최종적으로 평균 음소 길이 정보를 이용하여 음소의 경계로 검출된 구간을 더 세분하거나 통합하였다. 유성/무성/묵음 분류기의 경우는 사무실에서 녹음한 고립단어에 대하여 $94.247\%$의 정확도를 보였고 음소 경계 검출의 경우는 $72.8\%$의 정확도를 보였다.

  • PDF

Automatic Synthesis Method Using Prosody-Rich Database (대용량 운율 음성데이타를 이용한 자동합성방식)

  • 김상훈
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.87-92
    • /
    • 1998
  • In general, the synthesis unit database was constructed by recording isolated word. In that case, each boundary of word has typical prosodic pattern like a falling intonation or preboundary lengthening. To get natural synthetic speech using these kinds of database, we must artificially distort original speech. However, that artificial process rather resulted in unnatural, unintelligible synthetic speech due to the excessive prosodic modification on speech signal. To overcome these problems, we gathered thousands of sentences for synthesis database. To make a phone level synthesis unit, we trained speech recognizer with the recorded speech, and then segmented phone boundaries automatically. In addition, we used laryngo graph for the epoch detection. From the automatically generated synthesis database, we chose the best phone and directly concatenated it without any prosody processing. To select the best phone among multiple phone candidates, we used prosodic information such as break strength of word boundaries, phonetic contexts, cepstrum, pitch, energy, and phone duration. From the pilot test, we obtained some positive results.

  • PDF

ON IMPROVING THE PERFORMANCE OF CODED SPECTRAL PARAMETERS FOR SPEECH RECOGNITION

  • Choi, Seung-Ho;Kim, Hong-Kook;Lee, Hwang-Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.250-253
    • /
    • 1998
  • In digital communicatioin networks, speech recognition systems conventionally reconstruct speech followed by extracting feature [parameters. In this paper, we consider a useful approach by incorporating speech coding parameters into the speech recognizer. Most speech coders employed in the networks represent line spectral pairs as spectral parameters. In order to improve the recognition performance of the LSP-based speech recognizer, we introduce two different ways: one is to devise weighed distance measures of LSPs and the other is to transform LSPs into a new feature set, named a pseudo-cepstrum. Experiments on speaker-independent connected-digit recognition showed that the weighted distance measures significantly improved the recognition accuracy than the unweighted one of LSPs. Especially we could obtain more improved performance by using PCEP. Compared to the conventional methods employing mel-frequency cepstral coefficients, the proposed methods achieved higher performance in recognition accuracies.

  • PDF

Speech Modification and Concatenative Speech Synthesis by using Analysis-By-Synthesis/OverLap-Add(ABS/OLA) Sinusoidal Model (Analysis- By-Synthesis/OverLap- Add( ABS/OLA) Sinusoidal Model 을 이용한 음성변환과 연결음성합성)

  • 구자형
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.339-343
    • /
    • 1998
  • Sinusoidal model 은 음성신호처리의 넓은 분야에 적용되고 있는 방법으로 고음질의 합성음을 생성해 낼 수 있고, 조작이 용이하다는 장점을 가지고 있다. 본 논문에서는 Analysis-by-synthesis/Overlap-add Sinusoidal model 이라는 방법을 이용하여 시간축 변환과 dam성 변환을 수행하였다. 특히 본 논문에서는 음질향상을 위하여 시간축 변환시에는 정적인 구간과 변화하는 구간을 구별하여 서로 다른 시간축 변환비를 이용하였고, 기존의 LPC 방법에 비해 스펙트럼 포락선을 보다 잘 추정하는 Improved Cepstrum을 이용하여 음정변환에 적용하였다. 또 서로 다른 문맥에서 얻어진 음성단위들을 결합할 때 생기는 위상차이를 극복하기 위하여, 기본주파수 성분이 일치하도록 시간축을 이동하여 합성하였다. 실험결과 본 논문에서 적용한 방법들을 통해 기존 방식에 비해 개선된 음질을 얻을 수 있었다.

  • PDF

Study on Automatic Vergence Control of Horizontal-Moving Axis Stereo Camera (수평식 입체영상 카메라의 자동 주시각 제어 연구)

  • 이용범;권기철;윤종건;최영수
    • Proceedings of the IEEK Conference
    • /
    • 1999.06a
    • /
    • pp.1067-1070
    • /
    • 1999
  • 본 논문에서는 수평식 입체영상카메라의 주시각 자동제어를 위한 고속, 고정밀 시차추출 알고리즘을 제안한다. 제안된 알고리듬은 수평식 입체영상 카메라의 초점과 주시각의 선형적 관계에 따라 사람의 눈에서와 같은 자연스럽고도 선명한 입체영상을 획득할 수 있도록 주시각 및 초점제어를 동시에 자동 제어하며, 입체영상에 포함되어 있는 평면 및 상하 불일치 영역을 최소화하기 위한 전처리 과정과 고속, 고정밀 시차추출을 위한 프로젝션 및 켑스트럼(Cepstrum) 필터링 과정이 포함되어 있다. 제안된 알고리듬은 수평식 입체카메라의 실시간 제어를 가능하게 하며 카메라 조작자의 초점 및 주시각 제어에 대한 부담을 줄여 준다.

  • PDF

Performance Comparison of Automatic Detection of Laryngeal Diseases by Voice (후두질환 음성의 자동 식별 성능 비교)

  • Kang Hyun Min;Kim Soo Mi;Kim Yoo Shin;Kim Hyung Soon;Jo Cheol-Woo;Yang Byunggon;Wang Soo-Geun
    • MALSORI
    • /
    • no.45
    • /
    • pp.35-45
    • /
    • 2003
  • Laryngeal diseases cause significant changes in the quality of speech production. Automatic detection of laryngeal diseases by voice is attractive because of its nonintrusive nature. In this paper, we apply speech recognition techniques to detection of laryngeal cancer, and investigate which feature parameters and classification methods are appropriate for this purpose. Linear Predictive Cepstral Coefficients (LPCC) and Mel-Frequency Cepstral Coefficients (MFCC) are examined as feature parameters, and parameters reflecting the periodicity of speech and its perturbation are also considered. As for classifier, multilayer perceptron neural networks and Gaussian Mixture Models (GMM) are employed. According to our experiments, higher order LPCC with the periodic information parameters yields the best performance.

  • PDF

Echo Field Analysis Using Power Spectral Density Function and Cepstrum (자기주파수 밀도함수와 켑스트럼을 이용한 반사음장 해석)

  • 이병철;한상보
    • Proceedings of the Korean Society for Noise and Vibration Engineering Conference
    • /
    • 1995.10a
    • /
    • pp.68-73
    • /
    • 1995
  • 반사음이 포함된 신호의 계측을 통하여 원음의 크기와 반사계수의 크기, 지연시간 등의 추출을 수치적 예를 사용하여 규명해 보았다. 반사계수의 측정시, 폐쇄된 음장에서는 정상파비로 표시되는 단일 주파수 신호를 사용하는 것이 실제 계측시 가장 손쉬운 방법이며, 광역의 주파수 성분에 걸쳐 그 값을 파악할 필요가 있는 경우에는 켑스트럼 상에서 반사파의 효과가 원음과 확연히 구분되는 신호를 사용하는 것이 신호처리 과정에서 불필요한 부담을 제거시켜 준다. 개방 음장에서는 반사파가 1개 밖에 포함되지 않으므로 이 경우에는 PSD 상의데이터 처리를 통하든지 또는 캡스트럼의 재편집을 통하여 원음의 크기와 성분 그리고 반사계수 등을 손쉽게 추출해 낼 수 있다. 광대역 주파수 성분을 가진 음원을 계측에 사용할 경우에는 comb lifter의 적용에 보다 세심한 주의를 기울일 필요가 있으며 켑스트럼 상의 추가 충격응답함수의 식별에 보다 더 합리적인 방법이 강구되어야 할 것이다.

  • PDF