• Title/Summary/Keyword: 연속음성

Search Result 420, Processing Time 0.028 seconds

음성인식을 위한 은닉마코프모형 연구

  • 손건태;정상화;박민욱
    • Communications for Statistical Applications and Methods
    • /
    • v.5 no.1
    • /
    • pp.155-165
    • /
    • 1998
  • 음성자동인식을 위한 통계적 방법으로 은닉마코프모형이 널리 사용되고 있다. 이산형 은닉마코프모형보다 인식률이 우수한 연속형 은닉마코프모형을 고려하였으며, 인식을 위한 비터비(Viterbi) 알고리즘을 병렬화시켜 인식속도를 빠르게 하는 인식 알고리즘을 제안하였다. 제안된 방법으로 실험을 통하여 인식률과 인식속도 개선률(speed-up)을 살펴보았다.

  • PDF

Performance Improvement of Connected Digit Recognition with Channel Compensation Method for Telephone speech (채널보상기법을 사용한 전화 음성 연속숫자음의 인식 성능향상)

  • Kim Min Sung;Jung Sung Yun;Son Jong Mok;Bae Keun Sung
    • MALSORI
    • /
    • no.44
    • /
    • pp.73-82
    • /
    • 2002
  • Channel distortion degrades the performance of speech recognizer in telephone environment. It mainly results from the bandwidth limitation and variation of transmission channel. Variation of channel characteristics is usually represented as baseline shift in the cepstrum domain. Thus undesirable effect of the channel variation can be removed by subtracting the mean from the cepstrum. In this paper, to improve the recognition performance of Korea connected digit telephone speech, channel compensation methods such as CMN (Cepstral Mean Normalization), RTCN (Real Time Cepatral Normalization), MCMN (Modified CMN) and MRTCN (Modified RTCN) are applied to the static MFCC. Both MCMN and MRTCN are obtained from the CMN and RTCN, respectively, using variance normalization in the cepstrum domain. Using HTK v3.1 system, recognition experiments are performed for Korean connected digit telephone speech database released by SITEC (Speech Information Technology & Industry Promotion Center). Experiments have shown that MRTCN gives the best result with recognition rate of 90.11% for connected digit. This corresponds to the performance improvement over MFCC alone by 1.72%, i.e, error reduction rate of 14.82%.

  • PDF

Study of Speech Recognition System Using the Java (자바를 이용한 음성인식 시스템에 관한 연구)

  • Choi, Kwang-Kook;Kim, Cheol;Choi, Seung-Ho;Kim, Jin-Young
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.6
    • /
    • pp.41-46
    • /
    • 2000
  • In this paper, we implement the speech recognition system based on the continuous distribution HMM and Browser-embedded model using the Java. That is developed for the speech analysis, processing and recognition on the Web. Client sends server through the socket to the speech informations that extracting of end-point detection, MFCC, energy and delta coefficients using the Java Applet. The sewer consists of the HMM recognizer and trained DB which recognizes the speech and display the recognized text back to the client. Because of speech recognition system using the java is high error rate, the platform is independent of system on the network. But the meaning of implemented system is merged into multi-media parts and shows new information and communication service possibility in the future.

  • PDF

Development of a Speech Recognition System uSing e++ Language and Standard library (C++ 언어와 Standard Library 를 이용한 음성인식기 개발)

  • 황규웅
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.74-77
    • /
    • 1998
  • 우리는 C++를 이용하여 음성인식기를 구현하여 기존의 C를 이용한 경우에 비하여 30% 수준의 소스로 표현하였고 인식기의 공동개발, 확장 및 개선, 기술 전수 등이 용이하게 되었으며 이를 음성인식 엔진 및 음성인식 연구를 위한 툴로 사용할 수 있게 되었다. 이 인식기의 특징으로는 연속 음성 및 대화체 음성을 인식할 수 있으며 trigram 언어 모델을 사용하였고 문맥 종속 음소 모델링에서는 기존의 triphone 보다 넓은 문맥을 고려한 n-phone context modeling을 사용하였으며 모델의 선정에는 음성학적 지식을 기반으로 한 질문을 사용한 decision tree를 사용하여 훈련에 나타나지 않은 단어나 문맥인 경우라도 가장 가까운 모델을 선정할 수 있게 하였다. 또, tree lexicon을 사용하여 속도를 개선하였으며 state 단위의 모델 공유를 통해 제한된 데이터를 이용하여 더 많은 모델을 훈련할 수 있어 성능을 개선하였다. 상용화를 염두에 두고 pc에서 구현하였다.

  • PDF

Postprocessing of A Speech Recognition using the Morphological Anlaysis Technique (형태소 분석 기법을 이용한 음성 인식 후처리)

  • 박미성;김미진;김계성;김성규;이문희;최재혁;이상조
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.36C no.4
    • /
    • pp.65-77
    • /
    • 1999
  • There are two problems which will be processed to graft a continuous speech recognition results into natural language processing technique. First, the speaking's unit isn't consistent with text's spacing unit. Second, when it is to be pronounced the phonological alternation phenomena occur inside morphemes or among morphemes. In this paper, we implement the postprocessing system of a continuous speech recognition that above all, solve two problems using the eo-jeol generator and syllable recoveror and morphologically analyze the generated results and then correct the failed results through the corrector. Our system experiments with two kinds of speech corpus, i.e., a primary school text book and editorial corpus. The successful percentage of the former is 93.72%, that of the latter is 92.26%. As results of experiment, we verified that our system is stable regardless the sorts of corpus.

  • PDF

Automatic Recognition of Korean Broadcast News Using Flexible Vocabulary Recognition Models (가변 어휘 인식 모델을 이용한 한국어 방송 뉴스 음성의 인식)

  • 유하진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.70-73
    • /
    • 1998
  • 본 논문에서는 한국어 방송 뉴스 인식 시스템에 관하여 기술한다. 인식 실험 과정에서는 실제로 방송된 음성을 인식하였으나, 인식을 위한 음향 모델은 본 연구소에서 갭라한 고립단어 인식용 가변 어휘 인식모델을 이용하였다. 가변 어휘 인식기는 방송 음성의 연속 문장을 이용하지 않고, 음향학적으로 고르게 분포된 고립 단어를 이용하여 학습되었다. 본 연구에서는 한국어의 특성상 문장이 영어권과 같이 단어 단위가 아닌 어절로 나누어 지는 점을 고려하여, 다양한 형태의 사전 표제어를 대상으로 실험하였다. 또한 탐색과정의 초기단계에 장거리 언어모델을 사용함으로써 인식 오류를 줄일 수 있었다.

  • PDF

Videokymographic Findings of Benign Vocal Fold Lesions (성대양성질환에서 Videokymography 소견)

  • 안철민;윤선영;정덕희
    • Proceedings of the KSLP Conference
    • /
    • 1998.11a
    • /
    • pp.183-183
    • /
    • 1998
  • 음성이 성대진동에 의해서 생성된다는 것이 밝혀진 이래로 이것을 확인해 보기 위한 많은 노력이 있어왔다. 특히 성대의 빠른 진동을 느린 움직임으로 정확하게 관찰하기 위해서 후두스트로보스코프같은 기구가 사용되고 있지만, 이것은 실제 시간에 따른 성대움직임을 보는 것이 아니고, 또 불규칙한 진동이 나타날 경우에는 성대점막의 움직임을 관찰하는 것이 불가능한 단점이 있었다. 저자들은 초 당 8000 개의 연속된 영상을 기록할 수 있는 videokymography를 이용하여 성대점막의 실제 시간에 따른 움직임을 관찰해보고, 후두질환에서 나타나는 영상을 확인해 보기 위하여 본 연구를 시작하였다. (중략)

  • PDF

A Study on Hybrid Structure of Semi-Continuous HMM and RBF for Speaker Independent Speech Recognition (화자 독립 음성 인식을 위한 반연속 HMM과 RBF의 혼합 구조에 관한 연구)

  • 문연주;전선도;강철호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.8
    • /
    • pp.94-99
    • /
    • 1999
  • It is the hybrid structure of HMM and neural network(NN) that shows high recognition rate in speech recognition algorithms. And it is a method which has majorities of statistical model and neural network model respectively. In this study, we propose a new style of the hybrid structure of semi-continuous HMM(SCHMM) and radial basis function(RBF), which re-estimates weighting coefficients probability affecting observation probability after Baum-Welch estimation. The proposed method takes account of the similarity of basis Auction of RBF's hidden layer and SCHMM's probability density functions so as to discriminate speech signals sensibly through the learned and estimated weighting coefficients of RBF. As simulation results show that the recognition rates of the hybrid structure SCHMM/RBF are higher than those of SCHMM in unlearned speakers' recognition experiment, the proposed method has been proved to be one which has more sensible property in recognition than SCHMM.

  • PDF

A Comparative Study on the phoneme recognition rate with regard to HMM training algorithms (HMM 훈련 알고리즘에 따른 음소인식률 비교 연구)

  • 구명완
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.298-301
    • /
    • 1998
  • HMM 훈련 방법에 따른 음소인식률의 변화에 대하여 기술한다. 음성모델은 이산 확률 밀도 혹은 연속 확률 밀도를 갖는 HMM을 사용하였으며, 훈련 알고리즘으로서는 forward-backward 와 segmental K-means 알고리즘을 사용하였다. 연속 확률 밀도는 N개의 mixture로 구성되어 있는데 1개의 mixture로 확장할 경우에서는 이진 트리 방식과 one-by-one 방식을 사용하였다. 여러 가지의 조합을 이용하여 음소인식 실험을 수행한 결과 연속 확률 분포를 사용하고 one-by-one 방식을 사용한 forward-backward 알고리즘이 가장 우수한 결과를 나타내었다.

  • PDF

Improvement of Price Sentence Recognition Using Grammatical Constraint (문법적 제약을 이용한 금액 문장 인식의 성능 향상)

  • 함정표;양태영;신원호;이충용;차일환
    • Journal of Broadcast Engineering
    • /
    • v.3 no.2
    • /
    • pp.180-186
    • /
    • 1998
  • 연속음 인식에서의 인식 대상이 가지는 규칙을 적용했을 경우 성능 향상을 가져올 수 있다. 본 논문에서는 연속음 중에서 연결 숫자음을 인식 대상으로 하는 음성 인식 시스템의 성능 향상을 위하여 프레임 동기 네트워크(Frame Synchronous Network)을 이용하였다. 연결 숫자음이 가지는 반복적인 특성과 자릿수의 상하 관계가 인식 성능에 미치는 효과를 이용하여 다양한 수준의 제약을 갖는 FSN을 제안하였다. 본 논문에서는 연속 숫자음 중에서 금액을 대상으로 인식 결과 제안된 FSN을 이용하여 금액 어휘의 인식 성능을 향상시킬 수 있었다.

  • PDF