• 제목/요약/키워드: speech recognition rate improvement

검색결과 94건 처리시간 0.033초

가변위치 고음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 관한 연구 (A Study on the Realization of Wireless Home Network System Using High-performance Speech Recognition in Variable Position)

  • 윤준철;최상방;박찬섭;김세영;김기만;강석엽
    • 한국정보통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.991-998
    • /
    • 2010
  • 실내 환경에서 음성인식 기술을 이용한 무선 홈 네트워크 시스템 구현에 있어, 잡음과 실내 잔향음은 시스템 성능 저하의 주요 원인이다. 본 연구에서는 실내 인식환경에서 스펙트럼 엔트로피(Spectral entropy) 기반의 음성 구간검출법을 이용하여 잔향음(reverberation) 및 실내잡음에 강인한 음성인식 홈 네트워크 시스템을 구현하고자 한다. 스펙트럼 차감법(Spectral Subtraction)은 잔향으로 인해 왜곡된 신호를 스펙트럼 상에서 제거하여 잔향의 효과를 줄일 수 있고 음성신호와 독립적인 잡음을 제거 할 수 있다. 효과적인 스펙트럼 차감을 위해서는 음성과 비음성 구간의 정확한 구분이 수반되어야 하며 이를 위해서 엔트로피 기반의 음성 구간 검출법을 적용하여 성능을 향상시킨다. 모의 및 실내환경 실험 결과 Spectral entropy 기반의 음성 구간 검출법을 이용할 경우 실내 잔향 및 잡음환경에서 명령어 인식률의 향상이 증명되었다.

음성/영상 정보를 이용한 새로운 끝점추정 방식에 기반을 둔 음성인식 시스템 (A Speech Recognition System based on a New Endpoint Estimation Method jointly using Audio/Video Informations)

  • 이동근;김성준;계영철
    • 방송공학회논문지
    • /
    • 제8권2호
    • /
    • pp.198-203
    • /
    • 2003
  • 본 논문에서는 멀티미디어 데이터에 존재하는 입술의 움직임(영상언어)과 음성을 함께 이용하여 음성의 끝점을 정확히 추정하는 방법과 이를 기반으로 한 음성인식 시스템을 제안한다. 잡음 섞인 음성의 끝점추정 방법은 다음과 같다. 각 테스트 단어에 대하여 영상언어를 이용한 끝점과 깨끗한 음성을 이용한 끝점을 각각 구한 후 이것들의 차이를 계산한다. 이 차이에 영상언어 끝점을 더하여 잡음 섞인 음성의 끝점으로 추정한다. 이와 같은 끝점(즉, 음성구간)의 추정방법을 인식기에 적용한다. 동일한 구간의 음성이 인식기의 각 단어모델에 입력되는 기존의 인식 방법과는 달리, 새로운 인식기에서는 각 단어별로 추정된 서로 다른 구간의 음성이 각 해당단어모델에 입력된다. 제안된 방식을 모의실험 한 결과, 음성잡음의 크기에 관계없이 정확한 끝점을 추정 할 수 있었으며, 그 결과 약 8% 정도의 인식률 향상을 이루었다.

Three-Stage Framework for Unsupervised Acoustic Modeling Using Untranscribed Spoken Content

  • Zgank, Andrej
    • ETRI Journal
    • /
    • 제32권5호
    • /
    • pp.810-818
    • /
    • 2010
  • This paper presents a new framework for integrating untranscribed spoken content into the acoustic training of an automatic speech recognition system. Untranscribed spoken content plays a very important role for under-resourced languages because the production of manually transcribed speech databases still represents a very expensive and time-consuming task. We proposed two new methods as part of the training framework. The first method focuses on combining initial acoustic models using a data-driven metric. The second method proposes an improved acoustic training procedure based on unsupervised transcriptions, in which word endings were modified by broad phonetic classes. The training framework was applied to baseline acoustic models using untranscribed spoken content from parliamentary debates. We include three types of acoustic models in the evaluation: baseline, reference content, and framework content models. The best overall result of 18.02% word error rate was achieved with the third type. This result demonstrates statistically significant improvement over the baseline and reference acoustic models.

고차 반사계수 특성을 이용한 화자인식의 성능 향상에 관한 연구 (On a Study of the Improvement of Speaker Recognition with Characteristics of High Order Reflection Coefficients)

  • 이윤주;오세영;함명규;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.667-670
    • /
    • 1999
  • As the number of reference patterns increase in the text dependant speaker recognition, the recognition performance of the system degrades. So, if reference patterns were decreased the high recognition rate can be obtained. It’s because the speaker recognition can obtain the high discrimination. In this paper, to decrease the number of reference patterns, we choose candidate reference patterns to perform pattern matching with test pattern by high order component of the reflection coefficients of the uttered speech signal Consequently the total recognition rate of the proposed method is about 2% higher than that of the conventional method.

  • PDF

음성의 청각특성을 이용한 화자식별시스템의 성능향상에 관한 연구 (On a Performance Improvement of Speaker Recognition by using the Auditory Characteristics of Speech)

  • 이윤주;오세영배재옥배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1223-1226
    • /
    • 1998
  • The pre-emephasis filter as the conventional method emphasizes all components of high frequency that reflects the speaker characteristics. However this filter don't show the auditory characteristics of speaker's speech. In order to emphasize the perceptual characteristics, we propose the speaker recognition system that uses the perceptual weighting as the preprocessor because the Auditory characteristic of human is sensitive to the formant peaks. This filter has the characteristcs that both deemphasizes the low-formants and emphasizes the high formants. As a result of the proposed method, we improve the total recognition rate 1.7% better than the conventional method.

  • PDF

청각 구조를 이용한 잡음 음성의 인식 성능 향상 (Performance Improvement of Speech Recognizer in Noisy Environments Based on Auditory Modeling)

  • 정호영;김도영;은종관;이수영
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.51-57
    • /
    • 1995
  • 본 논문에서는 청각 모델을 기초로 잡음에 강한 음성 특징 추출을 연구하였다. 청각모델은 basilar membrane 모델, 섬모세포(hair cell) 모델과 스펙트럼 출력단으로 구성하였다. Basilar membrane 모델은 음파의 진동에 따른 전달 특성을 묘사한 것으로 대역 통과 필터의 열로 나타난다. 섬모 세포 모델은 basilar membrane의 진동에 의한 신경 물질로의 변환을 나타낸다. 이것은 입력의 상대적인 값에 크게 반응하는 adaptation 기능을 이용하게 되며, 잡음 제거에 중요한 역할을 하게 된다. 스펙트럼 출력 단은 각 채널의 평균 firing rate를 이용하여 mean rate spectrum을 형성한다. 그리고 mean rate spectrum을 이용하여 특징 벡터를 추출하였다. 실험 결과는 청각 구조에 기초한 특징 추출이 다른 특징 추출 방법에 비해 잡음에서 더 향상된 성능을 가짐을 보였다.

  • PDF

PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험 (Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition)

  • 정성윤;김민성;손종목;배건성
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.279-283
    • /
    • 2004
  • 음성신호의 스펙트럼으로부터 MFCC를 추출할 때, 일반적으로 필터뱅크의 처리과정에서 삼각형 형태의 필터를 사용한다. 그러나 더 나은 인식성능을 위해, 훈련 음성데이터의 스펙트럼에 PCA를 적용하여 필터뱅크의 필터형태를 최적화하는 PCA-optimized 필터뱅크 방법이 Lee et al. 에 의해 제안되었다. 본 논문에서는 대용량의 4연숫자 전화음성 DB를 사용하여PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터를 추출하고 인식실험을 수행한 후, 기존의 삼각형 형태의 필터를 사용하는 MFCC와 각 대역별 로그에너지로 가중시켜서 얻어지는 MFCC와의 인식성능을 비교하였다. 실험결과, PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터가 기존의 삼각형 형태의 필터뱅크 기반 MFCC에 비해 조금 향상된 인식률을 나타내었지만, 각 대역별 로그에너지로 가중치를 주어 얻어지는 MFCC보다는 인식률이 떨어졌다.

저자원 환경의 음성인식을 위한 자기 주의를 활용한 음향 모델 학습 (Acoustic model training using self-attention for low-resource speech recognition)

  • 박호성;김지환
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.483-489
    • /
    • 2020
  • 본 논문에서는 저자원 환경의 음성인식에서 음향 모델의 성능을 높이기 위한 음향 모델 학습 방법을 제안한다. 저자원 환경이란, 음향 모델에서 100시간 미만의 학습 자료를 사용한 환경을 말한다. 저자원 환경의 음성인식에서는 음향 모델이 유사한 발음들을 잘 구분하지 못하는 문제가 발생한다. 예를 들면, 파열음 /d/와 /t/, 파열음 /g/와 /k/, 파찰음 /z/와 /ch/ 등의 발음은 저자원 환경에서 잘 구분하지 못한다. 자기 주의 메커니즘은 깊은 신경망 모델로부터 출력된 벡터에 대해 가중치를 부여하며, 이를 통해 저자원 환경에서 발생할 수 있는 유사한 발음 오류 문제를 해결한다. 음향 모델에서 좋은 성능을 보이는 Time Delay Neural Network(TDNN)과 Output gate Projected Gated Recurrent Unit(OPGRU)의 혼합 모델에 자기 주의 기반 학습 방법을 적용했을 때, 51.6 h 분량의 학습 자료를 사용한 한국어 음향 모델에 대하여 단어 오류율 기준 5.98 %의 성능을 보여 기존 기술 대비 0.74 %의 절대적 성능 개선을 보였다.

GMM 음소 단위 파라미터와 어휘 클러스터링을 융합한 음성 인식 성능 향상 (Speech Recognition Performance Improvement using a convergence of GMM Phoneme Unit Parameter and Vocabulary Clustering)

  • 오상엽
    • 융합정보논문지
    • /
    • 제10권8호
    • /
    • pp.35-39
    • /
    • 2020
  • DNN은 기존의 음성 인식 시스템에 비해 에러가 적으나 병렬 훈련이 어렵고, 계산의 양이 많으며, 많은 양의 데이터 확보를 필요로 한다. 본 논문에서는 이러한 문제를 효율적으로 해결하기 위해 GMM에서 모델 파라메터를 가지고 음소별 GMM 파라메터를 추정하여 음소 단위를 생성한다. 그리고 이를 효율적으로 적용하기 위해 특정 어휘에 대한 클러스터링을 통해 성능을 향상시키기 위한 방법을 제안한다. 이를 위해 3가지 종류의 단어 음성 데이터베이스를 이용하여 DB를 가지고 어휘 모델을 구축하였고, 잡음 처리는 워너필터를 사용한 특징을 추출하여 음성 인식실험에 사용하였다. 본 논문에서 제안한 방법을 사용한 결과 음성 인식률에서 97.9%의 인식률을 나타내었다. 본 연구에서 개선된 오버피팅의 문제점을 향상시킬 수 있는 추가적인 연구를 필요로 한다.

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자 음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition Using the Transformed Successive State Splitting and Demi-syllable Pair)

  • 서은경;최갑근;김순협;이수정
    • 한국멀티미디어학회논문지
    • /
    • 제9권1호
    • /
    • pp.23-32
    • /
    • 2006
  • 본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, Finile State Network(FSN) 노드를 두 음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단 음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 인한 오 인식을 줄이기 위해 인식단위를 반음절 쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징부분에서 K-means 알고리즘으로 군집화 하여, 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문맥종속 음소모델에서 10.5%, 음향모델에서 인식단위를 반음절 쌍으로 하였을 경우 문맥종속 음소모델에 비해 12.5%, 변형된 연쇄 상태분할을 하였을 경우 1.5%의 인식률을 향상시킬 수 있었다.

  • PDF