• 제목/요약/키워드: cepstrum

검색결과 274건 처리시간 0.03초

구개상의 형태 변화가 발음에 미치는 영향에 관한 음향학적 연구 -/ㅅ/을 중심으로한 컴퓨터 분석- (AN ACOUSTIC STUDY IN RELATION TO THE SOUND DISTORTION BY THE ALTERATION OF PALATAL PLATE -FOCUSSED ON/ㅅ(s)/. BY COMPUTER ANALYSIS-)

  • 최창규;우이형;박남수
    • 대한치과보철학회지
    • /
    • 제27권1호
    • /
    • pp.83-102
    • /
    • 1989
  • This study was done to analyze the sound distortion, before and after insertion of the palatal palates. For this study, 4 healthy subjects (3 males and 1 female, each 24-year-old), who were born in Seoul were recruited from K university, and 3 type palatal plates were fabricated, each palatal thickness being 1.0mm, 2.5mm, dentoalveolar portion 2.5mm and elsewhere 1.0mm, named B,C,D-type repectively, and informants's sounds of /사(sa), 서(se), 소(so), 수(su), 스($s\.{+}$), 시(si)/ were recorded, without plate, and with palatal plates of different types, in succession. A series of analysis were adminstered through a 16 Bit IBM PC/AT using linear combination methods. These experiments were analyzed by the Cepstrum (Weighted and Euclidian), Log Area Ratio, Linear prediction correlation methods The findings led to the following conclusions : 1. It was confirmed that the same consonant, /ㅅ(s)/, variously distorted by the following vowel. 2. By and large, 시($s\.{+}$) was the most distorted in all conditions, and (sa), 소(so) were the least distorted in each condition. 3. There were no persistant correlation of the palatal plate types, and sound distortions of each informant were diverse with no regularities. 4. There were persistent correaltion to the Cepstrum (Weighted, Euclidian), Log Area Ratio. However, Linear prediction correlation has a different alteration pattern.

  • PDF

멀티모달 인터페이스를 위한 음성 및 문자 공용 인식시스템의 구현 (An On-line Speech and Character Combined Recognition System for Multimodal Interfaces)

  • 석수영;김민정;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제6권2호
    • /
    • pp.216-223
    • /
    • 2003
  • 본 논문에서는 음성과 온라인 문자를 단일시스템으로 인식할 수 있는 음성 문자 공용인식 시스템을 제안한다. 일반적으로 CHMM(Continuous Hidden Markov Model)은 음성인식과 온라인 문자인식을 위해 매우 유용한 도구로 잘 알려져 있으나, 인식을 위해서는 각각을 독립 시스템으로 구현하고 있어 추가적인 메모리와 계산량을 요구한다. 제안한 공용인식 시스템은 음성인식과 문자인식을 결합하기 위하여 이들을 동일한 CHMM모델로 구성한 후 상태단위로 지속정보를 제어하는 OPDP(One Pass Dynamic Programming) 알고리즘을 통하여 음성과 문자를 인식할 수 있는 확률 통계적 시스템을 구현하였다. 음성은 MFCC(Mel Frequency Cepstrum Coefficient) 파라미터, 문자는 위치 변화량 파라미터와 비트맵 파라미터를 사용하였으며, MLE(Maximum Likelihood Estimation) 추정법을 이용하여 음소와 자소를 결합한 115개의 3상태 9천이 CHMM모델을 구성하였다. 공용인식기의 실험결과 음소 인식률 51.65%, 음성 단어 인식률 88.6%, 자소 인식률 85.3%, 필기체 단어인식률 85.6%를 나타내어 공용인식의 유효함을 확인할 수 있었다.

  • PDF

고음질 음성합성을 위한 LSP를 이용한 피치검출 성능향상에 관한 연구 (A Study on the Pitch Extraction Improvement Using LSP for the Synthesis of High Speech Quality)

  • 서지호;김종국;배명진
    • 한국음향학회지
    • /
    • 제29권1호
    • /
    • pp.69-75
    • /
    • 2010
  • 본 논문에서는 스펙트럼 신호를 최대한 평탄화시킴으로써 포만트의 영향을 제거하고 고조파 성분을 분리해 내어 이를 피치검출에 사용한다. 스펙트럼 신호로부터 포만트의 영향과 천이진폭의 영향을 제거하기 위해 주파수 대역을 LSP(Line Spectrum Pair)를 기준으로 서브밴드로 나누고 각각의 서브밴드에서 기울기를 취한 후에 역기울기로 스펙트럼을 보상한다. 실험 결과 제안한 방법이 LPC법, Lifter법, Cepstrum법을 이용하여 평탄화시킬 때 보다 평탄화 정도가 좋아짐을 알 수 있다. 또한 제안한 방법 이외에 가장 양호한 성능을 나타낸 LPC법을 이용하여 피치를 구했을 때 제안한 방법의 조오율이 평균 1.30% 감소하였다. 또한 제안한 방법은 잡음을 부가한 음성의 경우에도 낮은 에러율을 보여 배경잡음에 강하다는 것을 알 수 있었다.

치차진단기술의 현상 (The situation of diagnosis techniques for gears)

  • 오재응;이정철
    • 오토저널
    • /
    • 제8권3호
    • /
    • pp.1-8
    • /
    • 1986
  • 자동차 동력전달계통의 중요부분을 이루고 있는 치차장치는 고장의 영향도가 대단히 높은 장치일 뿐만 아니라 점검과 열화, 손상검지가 곤란한 장치이다. 지금까지, 치차진단기술의 연구는, 구미 에서는 성행하고 있음에도 불구하고, 국내에서는 그다지 되고있지 않다. 이와 같은 상황을 근거로 하여, 본 연구실에서는 치차진단기술의 연구개발에 착수하여, 그 첫 번째 단계로서, 현상의 기술 및 연구내용을 조사하였다. 그들중에서 중요하다고 생각되는 것을 여기에 소개한다. 치차장치의 내부에 이상이 생기면, 진동과 이음이 생기기도 하고 속도변동 등을 일으킨다. 또, 윤활유 중의 금속분이 증가하거나, 온도가 상승하기도 한다. 이와같은 이상의 정보를 포함하는 것을 징후 parameter라고 말한다. 이들 몇 개인가의 parameter중, 치차결함의 검출은, 진동과 음이 가장 좋은 parameter라고 생각되고 있다. 따라서 진단기술의 연구는, 거의 대개가 치차로부터 나오는 진동과 음의 발생기구와 신호처리에 관한 것이다. 전자로는 (1) 치차의 마모모델과 발생진동수 (2) 각종 결함고 발생진동수 후자로는 (3) 시간평균화처리 (4) Cepstrum (5) fluctuation 분석 등이 있다.

  • PDF

G.718 초광대역 코덱의 음질 향상을 위한 개선된 Generic Mode Coding 방법 (Modified Generic Mode Coding Scheme for Enhanced Sound Quality of G.718 SWB)

  • 조근석;정상배
    • 말소리와 음성과학
    • /
    • 제4권3호
    • /
    • pp.119-125
    • /
    • 2012
  • This paper describes a new algorithm for encoding spectral shape and envelope in the generic mode of G.718 super-wide band (SWB). In the G.718 SWB coder, generic mode coding and sinusoidal enhancement are used for the quantization of modified discrete cosine transform (MDCT)-based parameters in the high frequency band. In the generic mode, the high frequency band is divided into sub-bands and for every sub-band the most similar match with the selected similarity criteria is searched from the coded and envelope normalized wideband content. In order to improve the quantization scheme in high frequency region of speech/audio signals, the modified generic mode by the improvement of the generic mode in G.718 SWB is proposed. In the proposed generic mode, perceptual vector quantization of spectral envelopes and the resolution increase for spectral copy are used. The performance of the proposed algorithm is evaluated in terms of objective quality. Experimental results show that the proposed algorithm increases the quality of sounds significantly.

A Voice Controlled Service Robot Using Support Vector Machine

  • Kim, Seong-Rock;Park, Jae-Suk;Park, Ju-Hyun;Lee, Suk-Gyu
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1413-1415
    • /
    • 2004
  • This paper proposes a SVM(Support Vector Machine) training algorithm to control a service robot with voice command. The service robot with a stereo vision system and dual manipulators of four degrees of freedom implements a User-Dependent Voice Control System. The training of SVM algorithm that is one of the statistical learning theories leads to a QP(quadratic programming) problem. In this paper, we present an efficient SVM speech recognition scheme especially based on less learning data comparing with conventional approaches. SVM discriminator decides rejection or acceptance of user's extracted voice features by the MFCC(Mel Frequency Cepstrum Coefficient). Among several SVM kernels, the exponential RBF function gives the best classification and the accurate user recognition. The numerical simulation and the experiment verified the usefulness of the proposed algorithm.

  • PDF

대화형 음성인식 이동로봇에 관한 연구 (A study on the interactive speech recognition mobile robot)

  • 이재영;윤석현;홍광석
    • 전자공학회논문지B
    • /
    • 제33B권11호
    • /
    • pp.97-105
    • /
    • 1996
  • This paper is a study on the implementation of speech recognition mobile robot to which the interactive speech recognition techniques is applied. The speech command uttered the sentential connected word and is asserted through the wireless mic system. This speech signal transferred LPC-cepstrum and shorttime energy which are computed from the received signal on the DSP board to notebook PC. In notebook PC, DP matching technique is used for recognizer and the recognition results are transferred to the motor control unit which output pulse signals corresponding to the recognized command and drive the stepping motor. Grammar network applied to reduce the recognition speed of the recogniger, so that real time recognition is realized. The misrecognized command is revised by interface revision through the conversation with mobile robot. Therefore, user can move the mobile robot to the direction which user wants.

  • PDF

웨이블릿 페킷을 이용한 잡음에 손상된 음성신호 인식에 관한 연구 (Recognition of Corrupted Speech by Noise using Wavelet Packets)

  • 고광현;장성욱;양성일;권영헌
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.89-92
    • /
    • 1999
  • 인식기 훈련과정에서 발생하지 않았던 잡음이 인식과정에서 신호를 손상할 경우 인식률의 저하가 발생한다. 본 논문에서는 음성의 질을 떨어뜨리는 이러한 잡음을 Wavelet Packets을 이용하여 전처리함으로서 인식률을 향상시키는 방법을 제안한다. 인식기로는 Hidden Markov Model을 사용하였고, 시스템에 사용된 특징 파라미터로는 15차 Cepstrum을 사용하였다. 11 kHz로 샘플링된 숫자음에 Additive White Gaussian Noise를 첨가한 손상된 음성신호를 인식실험에 사용하였다. 화자독립으로 진행된 실험에서 잡음에 의해 손상된 SNR 20dB의 음성신호에 대하여 Wavelet Packets로 잡음을 제거한 후 복원된 음성신호 의 인식률은 약 $10\%$ 향상됨을 확인하였다.

  • PDF

캡스트럼법에 의한 B-모드 영상분해능 향상에 관한 기초적 연구 - 두께측정을 통한 가능성 검토 - (A Basic Study on Improvement of Resolution in B-mode Acoustical Images by the Cepstrum Technique - Feasibility Consideration by Thickness Measurement -)

  • 현병국;박은주;하강열;김무준
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.269-272
    • /
    • 1999
  • 물체내부의 단층구조를 나타내는 B-모드 영상은, 물체의 내부 경계로부터의 반사신호를 직접 비디오 신호로 변환하여 그 진폭에 비례하는 휘도 또는 색상으로 나타내고 있다. 그러한 시간영역 파형에 의한 처리에 있어서는 각 신호가 시간적으로 근접해 있을 경우 영상화가 곤란하다. 본 연구에서는 B-모드 영상에 있어서 거리분해능을 향상시키기 위한 방법으로 캡스트럼법을 이용하는 것을 제안하고, 그 방법에 의해 음속이 알려진 얇은 물체의 두께를 보다 정확하게 측정, 표시함으로써 B-모드 영상화에 있어서의 분해능 향상 가능성을 보였다.

  • PDF

한국어 음소분리에 관한 연구 (A Study on the Phonemic Analysis for Korean Speech Segmentation)

  • Lee, Sou-Kil;Song, Jeong-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권4E호
    • /
    • pp.134-139
    • /
    • 2004
  • It is generally known that accurate segmentation is very necessary for both an individual word and continuous utterances in speech recognition. It is also commonly known that techniques are now being developed to classify the voiced and the unvoiced, also classifying the plosives and the fricatives. The method for accurate recognition of the phonemes isn't yet scientifically established. Therefore, in this study we analyze the Korean language, using the classification of 'Hunminjeongeum' and contemporary phonetics, with the frequency band, Mel band and Mel Cepstrum, we extract notable features of the phonemes from Korean speech and segment speech by the unit of the phonemes to normalize them. Finally, through the analysis and verification, we intend to set up Phonemic Segmentation System that will make us able to adapt it to both an individual word and continuous utterances.