• Title/Summary/Keyword: Phoneme recognition

Search Result 237, Processing Time 0.027 seconds

음소 유사율 오류 보정을 이용한 어휘 인식 후처리 시스템 (Vocabulary Recognition Post-Processing System using Phoneme Similarity Error Correction)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.83-90
    • /
    • 2010
  • 어휘 인식 시스템에서 인식률 저하의 요인으로는 유사한 음소 인식과 부정확한 어휘 제공으로 인해 오인식 오류가 존재한다. 부정확한 어휘의 입력으로 특징을 추출하여 인식할 경우 오인식의 결과가 나타나거나 유사한 음소로 인식되며 특징 추출이 제대로 이루어지지 않으면 음소 인식 시 유사한 음소로 인식하게 된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 음소 유사율을 이용한 어휘 인식 후처리에서의 오류 보정 후처리 시스템을 제안하였다. 음소 유사율은 모노폰으로 훈련시킨 훈련 데이터를 각각의 음소에 MFCC와 LPC 특징 추출 방법을 이용하여 구하였다. 유사한 음소는 정확한 음소로 인식할 수 있도록 유도하여 부정확한 어휘 제공으로 인하여 오인식되는 오류를 최소화하였다. 음소 유사율과 신뢰도를 이용하여 오류 보정율을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러패턴 학습을 이용한 시스템과 의미기반을 이용한 시스템에 비해 시스템 성능 평가 결과 MFCC와 LPC는 각각 7.5%와 5.3%의 인식 향상률을 보였다.

한국어 음소 인식을 위한 신경회로망에 관한 연구 (A Study on Neural Networks for Korean Phoneme Recognition)

  • 최영배
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1992년도 학술논문발표회 논문집 제11권 1호
    • /
    • pp.61-65
    • /
    • 1992
  • This paper presents a study on Neural Networks for Phoneme Recognition and performs phoneme recognition using TDNN(Time Delay Neural Network). Also, this paper proposes new training algorithm for speech recognition using neural nets that proper to large scale TDNN. Because phoneme recognition is indispensable for continuous speech recognition, this paper uses TDNN to get accurate recognition result of phoneme. And this paper proposes new training algorithm that can converge TDNN to optimal state regardless of the number of phoneme to be recognized. The result of recognition on three phoneme classes shows recognition rate of 9.1%. And this paper proves that proposed algorithm is a efficient method for high performance and reducing convergence time.

  • PDF

바타챠랴 거리 측정법을 이용한 음소 유사율 오류 보정 개선 시스템 (Phoneme Similarity Error Correction System using Bhattacharyya Distance Measurement Method)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.73-80
    • /
    • 2010
  • 어휘 인식 시스템은 부정확한 어휘 제공과 유사한 음소 인식으로 인식률이 저하되며 이는 유사한 음소인식 오인식과 효율적 특징 추출 처리를 위한 방법을 필요로 한다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 바타챠랴 거리 측정법을 이용한 음소 유사율 오류 보정 개선 시스템을 제안하였다. 음소 유사율은 모노폰으로 훈련시킨 훈련 데이터의 음소에 HMM 특징 추출 방법을 이용하였으며 유사한 음소는 바타챠랴 거리 측정법을 이용하여 정확한 음소로 인식할 수 있도록 유도하여 인식률 향상 효과를 얻을 수 있었다. 이를 유클리디안 거리 측정법과 동적타임 워핑 시스템에 비교한 시스템 성능 평가 결과 1.2%의 향상된 97.91% 인식률을 보였다.

A Study on Grapheme and Grapheme Recognition Using Connected Components Grapheme for Machine-Printed Korean Character Recognition

  • Lee, Kyong-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권9호
    • /
    • pp.27-36
    • /
    • 2016
  • Recognition of grapheme is a very important process in the recognition within 'Hangul(Korean written language)' letters using phoneme recognition. It is because the success or failure in the recognition of phoneme greatly affects the recognition of letters. For this reason, it is reported that separation of phonemes is the biggest difficulty in the phoneme recognition study. The current study separates and suggests the new phonemes that used the connective elements that are helpful for dividing phonemes, recommends the features for recognition of such suggested phonemes, databases this, and carried out a set of experiments of recognizing phonemes using the suggested features. The current study used 350 letters in the experiment of phoneme separation and recognition. In this particular kind of letters, there were 1,125 phonemes suggested. In the phoneme separation experiment, the phonemes were divided in the rate of 100%, and the phoneme recognition experiment showed the recognition rate of 98% in recognizing only 14 phonemes into different ones.

The Study on Korean Phoneme for Korean Speech Recogintion

  • Hwang, Young-Soo
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 ITC-CSCC -2
    • /
    • pp.629-632
    • /
    • 2000
  • In this paper, we studied on the phoneme classification for Korean speech recognition. In the case of making large vocabulary speech recognition system, it is better to use phoneme than syllable or word as recognition unit. And, In order to study the difference of speech recognition according to the number of phoneme as recognition unit, we used the speech toolkit of OGI in U.S.A as recognition system. The result showed that the performance of diphthong being unified was better than that of seperated diphthongs, and we required the better result when we used the biphone than when using mono-phone as recognition unit.

  • PDF

조음 특성과 음소 대표 구간을 이용한 우리말 파열음의 인식 (Plosive consonants recognition using acoustic properties with the frames representing each phoneme)

  • 박찬응;이쾌희
    • 전자공학회논문지S
    • /
    • 제34S권4호
    • /
    • pp.33-41
    • /
    • 1997
  • Korean unvoiced phonemes consist of nonstationary parts comparing that the vowels and nasal consonants consist of quasi-stationary part. And some phonemes, which have smae point of articulation but differnt manner of articulation, has similar characteristics, so it makes to be hard to distinguish each other. A new method usin gchanges and characteristics of acoustic properties of these phonemes to improve recognition rate are proposed. And because these changes and cahracteristics evidently occur in continuous speech except some unvoiced consonants are articulated as voiced phoneme in case to be used as an midial between voiced phonemes, this method can be applied easily. The features of the frames extracted to represent each phonemes are used asinputs to the hierarchical neural network. And with these results final decision for phoneme recognition is made thorugh post processing which the new method is applied to. Through the experimental recognition results for 9 unvoiced consonants which belong to bilabial, alveolar, and velar phoneme series, 89.4% recognition rate to distinguish in same phoneme series is obtained, and 85.6% recognition rate is obtained in case of including cistinguishing phoneme series.

  • PDF

계층구조 시간지연 신경망을 이용한 한국어 변이음 인식에 관한 연구 (A Study on Korean Allophone Recognition Using Hierarchical Time-Delay Neural Network)

  • 김수일;임해창
    • 전자공학회논문지B
    • /
    • 제32B권1호
    • /
    • pp.171-179
    • /
    • 1995
  • In many continuous speech recognition systems, phoneme is used as a basic recognition unit However, the coarticulation generated among neighboring phonemes makes difficult to recognize phonemes consistently. This paper proposes allophone as an alternative recognition unit. We have classified each phoneme into three different allophone groups by the location of phoneme within a syllable. For a recognition algorithm, time-delay neural network(TDNN) has been designed. To recognize all Korean allophones, TDNNs are constructed in modular fashion according to acoustic-phonetic features (e.g. voiced/unvoiced, the location of phoneme within a word). Each TDNN is trained independently, and then they are integrated hierarchically into a whole speech recognition system. In this study, we have experimented Korean plosives with phoneme-based recognition system and allophone-based recognition system. Experimental results show that allophone-based recognition is much less affected by the coarticulation.

  • PDF

음성인식 후처리에서 음소 유사율을 이용한 오류보정에 관한 연구 (A Study on Error Correction Using Phoneme Similarity in Post-Processing of Speech Recognition)

  • 한동조;최기호
    • 한국ITS학회 논문지
    • /
    • 제6권3호
    • /
    • pp.77-86
    • /
    • 2007
  • 최근 텔레매틱스 단말기 등과 같이 음성인식을 인터페이스로 하는 음성기반 검색시스템들이 많이 개발되고 있다. 그러나 음성인식에는 여전히 많은 오류가 존재하며, 이에 오류보정에 대한 여러 가지 연구가 진행되고 있다. 본 논문에서는 한국어의 음소가 갖는 특징을 기반으로 음성인식 후처리에서의 오류보정을 제안하였다. 이를 위해 한국어 음소의 특징을 고려한 음소 유사율을 사용하였다. 음소 유사율은 훈련데이터를 모노폰으로 훈련시켜 한국어 음소 각각에 대하여 MFCC와 LPC 특징추출방법을 사용하여 특징추출을 수행하고, 바타차랴 거리 측정법을 사용하여 각 음소 사이의 유사율을 구하였다. 음소 유사율과 신뢰도를 이용하여 오류보정률을 구하였으며, 이를 사용하여 음성인식 과정에서 오류로 판명된 어절에 대하여 오류보정을 수행하고, 음절 복원과 형태소 분석을 재수행하는 과정을 거쳤다. 실험 결과 MFCC와 LPC 각각 7.5%와 5.3%의 인식 향상률을 보였다.

  • PDF

음성 인식에서 음소 클러스터 수의 효과 (The Effect of the Number of Phoneme Clusters on Speech Recognition)

  • 이창영
    • 한국전자통신학회논문지
    • /
    • 제9권11호
    • /
    • pp.1221-1226
    • /
    • 2014
  • 본 논문에서는 음성 인식의 효율을 높이기 위하여 음소 클러스터 개수의 효과에 대해 연구하였다. 이를 위하여 음소 클러스터 개수를 바꾸어 가면서 수정된 k-평균 군집 알고리듬을 사용하여 코우드북을 작성하였다. 그런 다음, 퍼지 벡터 양자화와 은닉 마코브 모델을 사용하여 음성인식 테스트를 수행하였다. 실험 결과 두 개의 영역이 구분되어 나타났다. 음소 클러스터 개수가 클 때 인식 성능은 대체로 그와 무관하지만, 개수가 작을 때에는 그 감소와 더불어 인식 오류율이 비선형적으로 증가하는 것으로 나타났다. 수치 해석적 계산으로부터, 이 비선형 영역은 멱승함수에 의해 모델링 될 수 있었다. 또한 300개의 고립단어 인식의 경우에, 166개의 음소클러스터가 최적의 수임을 보일 수 있었다. 이는 음소당 3개 정도의 변화에 해당하는 값이다.

음소 인식을 위한 스파이크그램 기반의 음성 특성 추출 기술 (Speech Feature Extraction based on Spikegram for Phoneme Recognition)

  • 한석현;김재원;안순호;신성현;박호종
    • 방송공학회논문지
    • /
    • 제24권5호
    • /
    • pp.735-742
    • /
    • 2019
  • 본 논문에서는 스파이크그램을 기반으로 음소 인식을 위한 특성을 추출하는 방법을 제안한다. 음소 인식에 널리 사용되는 푸리에 변환 기반의 특성은 청각 기관의 동작에 부합하는 과정으로 구해지지 않으며 프레임 단위로 추출되어 높은 시간 해상도를 가지지 못한다. 따라서 음소 인식의 성능 향상을 위해 높은 시간 해상도를 가지면서 인간의 청각기관을 모델링 하는 새로운 음성 특성 추출 기술이 요구된다. 본 논문에서는 청각 기관의 특성 추출 및 전달 과정을 모델링 하는 기법인 스파이크그램을 사용하여 음성 신호를 분석하고, 이로부터 음소 인식을 위한 특성을 추출하는 방법을 제안한다. 심층 신경망 기반의 음소 인식기를 사용하여 제안한 특성의 음소 인식 성능을 측정하였고, 짧은 음소에 대해 제안 특성이 기존 푸리에 변환 기반의 특성보다 우수한 성능을 가지는 것을 확인하였다. 이 결과로부터 청각 모델을 기반으로 추출된 새로운 음성 특성을 사용하여 음소 인식이 가능함을 확인할 수 있다.