• 제목/요약/키워드: Phonemes Similarity Rate

검색결과 6건 처리시간 0.02초

MFCC와 LPC 특징 추출 방법을 이용한 음성 인식 오류 보정 (Speech Recognition Error Compensation using MFCC and LPC Feature Extraction Method)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제11권6호
    • /
    • pp.137-142
    • /
    • 2013
  • 음성 인식 시스템은 부정확한 음성 신호의 입력으로 특징을 추출하여 인식할 경우 오인식의 결과가 나타나거나 유사한 음소로 인식된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 음소 유사율과 신뢰도 측정을 이용한 음성 인식 오류 보정 방법을 제안하였다. 음소 유사율은 학습 모델의 음소에 MFCC와 LPC 특징 추출 방법을 이용하여 구하였으며 신뢰도로 측정하였다. 음소 유사율과 신뢰도를 측정하여 오인식되는 오류를 최소화하였으며 음성 인식 과정에서 오류로 판명된 음성에 대하여 오류 보정을 수행하였다. 본 논문에서 제안한 시스템을 적용한 결과 98.3%의 인식률과 95.5%의 오류 보정율을 나타내었다.

SOUND SIMILARITY JUDGMENTS AND PHONOLOGICAL UNITS

  • Yoon, Yeo-Bom
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.142-143
    • /
    • 1997
  • The purpose of this paper is to assess the psychological status of the phoneme, syllable, and various postulated subsyllabic units in Korean by applying the Sound Similarity Judgment (SSJ) task, to compare the results with those in English, and to discuss the advantage and disadvantage of the SSJ task as a tool for linguistic research. In Experiment 1, 30 subjects listened to pairs of 56 eve words which were systematically varied from 'totally different' (e.g., pan-met) to 'identical' (e.g., pan-pan). Subjects were then asked to rate sound similarity of each pair on a 10-point scale. Not very surprisingly, there was a strong correlation between the number of phonemic segments matched and the similarity score provided by the subjects. This result was in accord with the previous results from English (e.g., Vitz & Winkler, 1973; Derwing & Nearey, 1986) and supported the assumption that the phoneme is the basic phonological unit in Korean and English. However, there were sharply contrasting results between the two languages. When the pairs shared two phonemes (e.g., pan-pat; pan-pen; pan-man), the pairs sharing the fIrst two phonemes were judged significantly more similar than the other two types of pairs. Quite to the contrary, in the comparable English experiments, the pairs sharing the last two phonemes were judged significantly more similar than the other two types of pairs. Experiment 2 was designed to conflrm the results of Experiment 1 by controlling the 'degree' of similarity between phonemes. For example, the pair pan-pam can be judged more similar than the pair pan-nan, although both pairs share the same number of phonemes. This could be interpreted either as confirming the result of Experiment 1 or as the fact that /n/ is more similar to /m/ than /p/ is to /n/ in terms of shared number of distinctive features. The results of Experiment 2 supported the former interpretation. Thus, the results of both experiments clearly showed that, although the 'number' of matched phonemes is the important predictor in judging sound similarity of monosyllabic pairs of both languages, the 'position' of the matched phonemes exerts a different influence in judging sound similarity in the two languages. This contrasting set of results may provide interesting implications for the internal structure of the syllable in the two languages.

  • PDF

CFG 방법을 이용한 필기체 한글에서의 자소추출과 인식에 관한 연구 (A Study on Phoneme Extractions and Recognitions for Handwritten Korean Characters using Context-Free Grammar)

  • 김형래;박인갑;서동필;김에녹
    • 전자공학회논문지B
    • /
    • 제29B권9호
    • /
    • pp.8-16
    • /
    • 1992
  • This paper presents a method which can recognized the Handwritten Korean characters by using a Context-Free Grammar. The input characters are thinned in order to dwindle the mount of data, the thinned characters are converted into one-dimension strings according to six-forms. when the point of contact among phonemes is found, two phonemes are seperated respectively by marking the index mark (\) at the points. The Context-Free Grammar to input characters is classified into group grammars concerning the similarity of phonemes, input characters are parsed by making use of the Pushdown automata method. As the bent parts in the Handwritten characters are found frequently, We try to correct the bent parts by using the parsing distance measure, which recognize characters according to minium value caused by measuring the weight distance between two sentences. In this experiment, the recognition rate shows 93.8% to 275 Handwritten Korean characters.

  • PDF

Continuous Digit Recognition Using the Weight Initialization and LR Parser

  • Choi, Ki-Hoon;Lee, Seong-Kwon;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • 제15권2E호
    • /
    • pp.14-23
    • /
    • 1996
  • This paper is a on the neural network to recognize the phonemes, the weight initialization to reduce learning speed, and LR parser for continuous speech recognition. The neural network spots the phonemes in continuous speech and LR parser parses the output of neural network. The whole phonemes recognized in neural network are divided into several groups which are grouped by the similarity of phonemes, and then each group consists of neural network. Each group of neural network to recognize the phonemes consisits of that recognize the phonemes of their own group and VGNN(Verify Group Neural Network) which judges whether the inputs are their own group or not. The weights of neural network are not initialized with random values but initialized from learning data to reduce learning speed. The LR parsing method applied to this paper is not a method which traces a unique path, but one which traces several possible paths because the output of neural network is not accurate. The parser processes the continuous speech frame by frame as accumulating the output of neural network through several possible paths. If this accumulated path-value drops below the threshold value, this path is deleted in possible parsing paths. This paper applies the continuous speech recognition system to the threshold value, this path is deleted in possible parsing paths. This paper applies the continuous speech recognition system to the continuous Korea digits recognition. The recognition rate of isolated digits is 97% in speaker dependent, and 75% in speaker dependent. The recognition rate of continuous digits is 74% in spaker dependent.

  • PDF

가변 어휘 음성 인식기의 음향모델 개선 및 성능분석 (Acoustic Model Improvement and Performance Evaluation of the Variable Vocabulary Speech Recognition System)

  • 이승훈;김회린
    • 한국음향학회지
    • /
    • 제18권8호
    • /
    • pp.3-8
    • /
    • 1999
  • 문맥독립형 음향모델을 채택하고 있는 기존의 가변어휘 음성인식기는 주변환경에 따른 음소의 변화를 모델링 할 수 없었다. 이러한 문제를 해결하기 위해서는 변이음을 이용한 문맥의존형 음향모델을 사용해야 한다. 본 논문은 가변어휘 음성인식기의 음향모델을 효과적으로 개선하기 위하여 적용한 방법에 대해서 기술하고 있다. 즉, 음향모델의 개선은 엔트로피를 이용한 군집화 기법을 적용하여 변이음의 개수를 변경시키면서 최적의 변이음 모델을 추출하는 방법을 사용하였다. 개선된 모델에 대한 성능은 POW(Phonetically Optimized Words) 3848 DB 및 SNR이 크게 다른 2종류의 PC168 DB를 이용하여 훈련 및 인식 실험을 수행하면서 평가하였다. 결론적으로 변이음의 개수를 낮추면서도 인식 성능의 저하를 가져오지 않는 최적의 변이음 모델을 얻을 수 있었으며 PC168 DB를 이용한 인식실험을 통하여 확인할 수 있었다.

  • PDF

한국어 음운인식에서의 조음거리와 긴장성 자질의 특성 연구: 영·유아를 중심으로 (Effects of Articulator-distance and Tense in Phonological Awareness in Korean: The case of Korean Infants and Toddlers)

  • 김충명
    • 한국콘텐츠학회논문지
    • /
    • 제15권8호
    • /
    • pp.424-433
    • /
    • 2015
  • 본 연구는 조음거리와 발성유형에 따른 영유아의 자음 음운인식 능력에서의 차이를 규명해 보기 위해 한국어 장애음을 대상으로 반복측정 실험설계를 통해 진행되었다. 집단 내 변인인으로서의 조음거리는, 연음과 경음의 자질을 갖는 1음절 초성의 조음 위치에 의해 구분된 조음점 간 거리로서 음운인식 수행도의 차이에 구조적으로 영향을 미치는지를 확인하고자 하였다. 실험결과, 음운차이 인식 수행력에서 조음거리를 변인으로 한 주효과를 확인하였는데, 그 거리가 멀어질수록 수행력이 점강하였다. 이는 동일위치나 근접거리 조음점 조건의 음운인식 수행도가 조음점 간 거리가 먼 조건에서의 수행도에 비해 민감한 반응을 보임으로써, 당해 조음점에 인접한 말소리들을 인식하는 능력이 우선 발달하는 결과를 시사함은 물론, 조음 유사성이 조기 음운습득에 영향을 끼칠 수 있음을 말해준다 하겠다. 아울러 집단 간 요인에서도 연령효과를 확인할 수 있었는데, 연령이 높을수록 조음거리에 영향을 덜 받는 경향이 있었으며 인접거리 조건에서는 남아대비, 여아의 수행력이 우수함을 알 수 있었다. 발성유형 중 긴장성을 피험자 내 변인으로 설정한 조건의 주효과는 나타나지 않았지만 연령의 주효과 및 성별과의 상호작용을 통해 연령상승에 따른 긴장음의 인식률의 유의한 상승을 관찰하였고, 긴장음 내에서는 여아의 변별력이 더 우수함을 확인할 수 있었다.