• Title/Summary/Keyword: 음성 인식 후처리

Search Result 130, Processing Time 0.028 seconds

An Efficient Approach for Noise Robust Speech Recognition by Using the Deterministic Noise Model (결정적 잡음 모델을 이용한 효율적인 잡음음성 인식 접근 방법)

  • 정용주
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.6
    • /
    • pp.559-565
    • /
    • 2002
  • In this paper, we proposed an efficient method that estimates the HMM (Hidden Marke Model) parameters of the noisy speech. In previous methods, noisy speech HMM parameters are usually obtained by analytical methods using the assumed noise statistics. However, as they assume some simplication in the methods, it is difficult to come closely to the real statistics for the noisy speech. Instead of using the simplication, we used some useful statistics from the clean speech HMMs and employed the deterministic noise model. We could find that the new scheme showed improved results with reduced computation cost.

Conversation Analysis based on User-Personality Traits for Voice User Interface (음성 인터페이스를 위한 사용자 성격 관련 담화분석)

  • Kim, Jinguk;Kwon, Soonil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.341-343
    • /
    • 2011
  • 이번 연구에서는 음성신호로부터 성격을 자동으로 인식하는 성격 인식 사용자 인터페이스에 대한 기술을 소개한다. 사용자의 음성대화 과정에서 말투로부터 성격 인식, 특히 외향과 내향을 구분해 내기 위해 사용되는 행동패턴에 있어서 대화중에 발생하는 생각을 위한 시간의 할애를 기초한다. 이를 바탕으로 질문이 주어진 후 이에 대한 답변을 시작하는데 걸리는 시간, 그리고 대화의 중간에 생각할 시간을 갖기 위해 활용하는 언어 주저형의 빈도수를 고려하여 사용자 성격분류의 실험을 실시하였다. 그 결과 평균적으로 약 65%의 성공률을 보였다.

A study on compensation of incorrect recognition on HMM using multilayer perceptrons (신경망을 이용한 HMM의 오인식 보상에 관한 연구)

  • Pyo Chang Soo;Kim Chang Keun;Hur Kang In
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.27-30
    • /
    • 2000
  • 본 논문은 HMM(Hidden Markov Model)을 이용하여 인식을 수행할 경우의 오류를 최소화 할 수 있는 후 처리 과정으로 신경망을 결합시켜 HMM 단독으로 사용하였을 때 보다 높은 인식률을 얻을 수 있는 HMM과 신경망의 하이브리드시스템을 제안한다. HMM을 이용하여 학습한 후 학습에 참여하지 않은 데이터를 인식하였을 때 오인식 데이터를 정인식으로 인식하도록 HMM의 출력으로 얻은 각 출력확률을 후 처리에 사용될 MLP(Multilayer Perceptrons)의 학습용으로 사용하여 MLP를 학습하여 HMM과 MLP을 결합한 하이브리드 모델을 만든다. 이와 같은 HMM과 신경망을 결합한 하이브리드 모델을 사용하여 단독 숫자음과 4연 숫자음 데이터에서 실험한 결과 HMM 단독으로 사용하였을 때 보다 각각 약 $4.5\%$, $1.3\%$의 인식률 향상이 있었다. 기존의 하이브리드 시스템이 갖는 많은 학습시간이 소요되는 문제점과 실시간 음성인식시스템을 구현할 때의 학습데이터의 부족으로 인한 인식률 저하를 해결할 수 있는 방법임을 확인할 수 있었다.

  • PDF

Utilization of Syllabic Nuclei Location in Korean Speech Segmentation into Phonemic Units (음절핵의 위치정보를 이용한 우리말의 음소경계 추출)

  • 신옥근
    • The Journal of the Acoustical Society of Korea
    • /
    • v.19 no.5
    • /
    • pp.13-19
    • /
    • 2000
  • The blind segmentation method, which segments input speech data into recognition unit without any prior knowledge, plays an important role in continuous speech recognition system and corpus generation. As no prior knowledge is required, this method is rather simple to implement, but in general, it suffers from bad performance when compared to the knowledge-based segmentation method. In this paper, we introduce a method to improve the performance of a blind segmentation of Korean continuous speech by postprocessing the segment boundaries obtained from the blind segmentation. In the preprocessing stage, the candidate boundaries are extracted by a clustering technique based on the GLR(generalized likelihood ratio) distance measure. In the postprocessing stage, the final phoneme boundaries are selected from the candidates by utilizing a simple a priori knowledge on the syllabic structure of Korean, i.e., the maximum number of phonemes between any consecutive nuclei is limited. The experimental result was rather promising : the proposed method yields 25% reduction of insertion error rate compared that of the blind segmentation alone.

  • PDF

Rule-based Speech Recognition Error Correction for Mobile Environment (모바일 환경을 고려한 규칙기반 음성인식 오류교정)

  • Kim, Jin-Hyung;Park, So-Young
    • Journal of the Korea Society of Computer and Information
    • /
    • v.17 no.10
    • /
    • pp.25-33
    • /
    • 2012
  • In this paper, we propose a rule-based model to correct errors in a speech recognition result in the mobile device environment. The proposed model considers the mobile device environment with limited resources such as processing time and memory, as follows. In order to minimize the error correction processing time, the proposed model removes some processing steps such as morphological analysis and the composition and decomposition of syllable. Also, the proposed model utilizes the longest match rule selection method to generate one error correction candidate per point, assumed that an error occurs. For the purpose of deploying memory resource, the proposed model uses neither the Eojeol dictionary nor the morphological analyzer, and stores a combined rule list without any classification. Considering the modification and maintenance of the proposed model, the error correction rules are automatically extracted from a training corpus. Experimental results show that the proposed model improves 5.27% on the precision and 5.60% on the recall based on Eojoel unit for the speech recognition result.

A Study on the Voice Dialing using HMM and Post Processing of the Connected Digits (HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구)

  • Yang, Jin-Woo;Kim, Soon-Hyob
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.5
    • /
    • pp.74-82
    • /
    • 1995
  • This paper is study on the voice dialing using HMM and post processing of the connected digits. HMM algorithm is widely used in the speech recognition with a good result. But, the maximum likelihood estimation of HMM(Hidden Markov Model) training in the speech recognition does not lead to values which maximize recognition rate. To solve the problem, we applied the post processing to segmental K-means procedure are in the recognition experiment. Korea connected digits are influenced by the prolongation more than English connected digits. To decrease the segmentation error in the level building algorithm some word models which can be produced by the prolongation are added. Some rules for the added models are applied to the recognition result and it is updated. The recognition system was implemented with DSP board having a TMS320C30 processor and IBM PC. The reference patterns were made by 3 male speakers in the noisy laboratory. The recognition experiment was performed for 21 sort of telephone number, 252 data. The recognition rate was $6\%$ in the speaker dependent, and $80.5\%$ in the speaker independent recognition test.

  • PDF

The syllable recovery rule-base system for the post-processing of a continuous speech recognition (연속음성인식 후처리를 위한 음절 복원 rule-base시스템)

  • Park, Mi-Seong;Kim, Mi-Jin;Lee, Mun-Hui;Choi, Jae-Hyeok;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.379-385
    • /
    • 1998
  • 한국어가 연속적으로 발음될 때 여러 가지 음운 변동현상이 일어난다. 이것은 한국어 연속음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문은 음운변동현상이 반영된 음성 인식 문자열을 규칙에 의거하여 text 기반 문자열로 다시 복원시키고 복원 결과 후보들을 형태소 분석하여 유용한 문자열만을 최종 결과로 생성하게 하는 시스템을 구성하였다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule, 끝음절 중성 복원 rule, 한 음절처리 rule에 따라 이루어진다. 규칙 적용 과정중에 효과적인 복원을 위해 x-clustering정보를 정의 하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제한하기 위해 postfix음절 빈도정보를 구하여 사용한다.

  • PDF

A Study on the Diphone Recognition of Korean Connected Words and Eojeol Reconstruction (한국어 연결단어의 이음소 인식과 어절 형성에 관한 연구)

  • ;Jeong, Hong
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.4
    • /
    • pp.46-63
    • /
    • 1995
  • This thesis described an unlimited vocabulary connected speech recognition system using Time Delay Neural Network(TDNN). The recognition unit is the diphone unit which includes the transition section of two phonemes, and the number of diphone unit is 329. The recognition processing of korean connected speech is composed by three part; the feature extraction section of the input speech signal, the diphone recognition processing and post-processing. In the feature extraction section, the extraction of diphone interval in input speech signal is carried and then the feature vectors of 16th filter-bank coefficients are calculated for each frame in the diphone interval. The diphone recognition processing is comprised by the three stage hierachical structure and is carried using 30 Time Delay Neural Networks. particularly, the structure of TDNN is changed so as to increase the recognition rate. The post-processing section, mis-recognized diphone strings are corrected using the probability of phoneme transition and the probability o phoneme confusion and then the eojeols (Korean word or phrase) are formed by combining the recognized diphones.

  • PDF

A Study on the Text-Independent Speaker Recognition Using Frequency Energy (주파수 에너지를 이용한 텍스트 독립 화자인식에 관한 연구)

  • 조연아
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.235-240
    • /
    • 1994
  • 모음 검출을 통하여 미리 등록한 단어가 아닌 경우에도 화자를 인식할 수 있도록 특징 파라메터를 개발하고, 실용화가 가능하도록 처리 방법을 간략화한 텍스트 독립 화자 인식 연구를 진행하였다. 이를 위해서, 화자가 발성한 음성에서 모음을 검출하여 화자인식에 사용하는 방법을 제안하였으며, 인식은 각 화자가 발성한 음성 신호에서 모음을 검출한 다음, 검출된 모음의 29 채널의 주파수 에너지를 퍼지값으로 효현한 후, 퍼지 추론을 적용하여 수행하였다. 실험을 위해 모음 검출 알고리듬을 개발하였으며, 화자인식의 특징 파라메터로 29 채널 주파수 에너지를 제안하였는데, 별도의 코드북 없이 사용이 가능하고, 기존의 파라메터에 비해 인식율이 높으면서도 구성 및 계산이 간단한 특징이 있다. 실험결과, 미리 작성된 표준패턴과 동일한 단어를 사용한 텍스트 의존 화자 인식 실험은 95.5% 인식율을 보였고, 표준 패턴과 다른 종류의 단어를 사용한 텍스트 독립 화자인식 실험은 94.2% 인식율을 보이고 있다.

  • PDF

Utterance Error Correction of Playing Music on Smart Speaker (스마트 스피커에서의 음악 재생 발화 오류 교정)

  • Lee, Daniel;Ko, Byeong-il;Kim, Eung-gyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.482-486
    • /
    • 2018
  • 본 논문에서는 스마트 스피커 환경에서 음악 재생 발화의 오류를 교정하는 음악 재생 발화 교정 모델을 제안한다. 음악 재생 발화에서 발생하는 다양한 오류 유형을 살펴보고, 음악 재생 발화 교정 모델에 대해 소개한다. 해당 모델은 후보 생성 모델과 교정 판별 모델로 이루어져 있다. 후보 생성 모델은 정답 후보들을 생성하고, 교정 판별 모델은 Random Forest를 사용하여 교정 여부를 판별한다. 제안하는 방법으로 음악 재생 발화에서 실제 사용자 만족도를 높일 수 있었다.

  • PDF