• 제목/요약/키워드: Speaker independent

검색결과 235건 처리시간 0.023초

잡음 환경에서의 음성 인식을 위한 청각 표현 (Auditory Representations for Robust Speech Recognition in Noisy Environments)

  • 김도석;이수영;길이만
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.90-98
    • /
    • 1996
  • 본 논문에서는 잡음 환경에서의 음성 인식을 위한 전처리기로서 청각 모델을 제안하였다. 제안된 청각 모델은 와우각 대역 통과 필터와 비선형단으로 구성되어 있으며, 잡음 환경에서도 신호의 주파수 정보와 강도 정보를 효과적으로 표현할 수 있다. 주파수 정보는 신호의 영교차 간격에 의해서, 또 강도 정보는 피크 검출기와 포화 비선형 함수에 의해서 구해진다. 영교차 간격이 교란되는 양의 분산을 교차 레벨 값의 함수로 표현함으로써 영교차 간격을 사용하는 것이 레벨 교차간격에 비해 잡음에 둔감한 특성이 있음을 보였다. 제안된 청각 모델은 다른 청각 모델에 비해 계산량이 적고, 미리 많은 파라미터를 정해줄 필요가 없다. 화자 독립 격리단어 인식 실험 결과 제안된 방법은 잡음 환경에서 우수한 성능을 보였다.

  • PDF

음성 신호를 사용한 감정인식의 특징 파라메터 비교 (Comparison of feature parameters for emotion recognition using speech signal)

  • 김원구
    • 대한전자공학회논문지SP
    • /
    • 제40권5호
    • /
    • pp.371-377
    • /
    • 2003
  • 본 논문에서 음성신호를 사용하여 인간의 감정를 인식하기 위한 특징 파라메터 비교에 관하여 연구하였다. 이를 위하여 여러 가지 감정 상태에 따라 분류된 한국어 음성 데이터 베이스를 이용하여 얻어진 음성 신호의 피치와 에너지의 평균, 표준편차와 최대 값 등 통계적인 정보 나타내는 파라메터와 음소의 특성을 나타내는 MFCC 파라메터가 사용되었다. 파라메터들의 성능을 평가하기 위하여 문장 및 화자 독립 감정 인식 시스템을 구현하여 인식 실험을 수행하였다. 성능 평가를 위한 실험에서는 운율적 특징으로 피치와 에너지와 각각의 미분 값을 사용하였고, 음소의 특성을 나타내는 특징으로 MFCC와 그 미분 값을 사용하였다. 벡터 양자화 방법을 사용한 화자 및 문장 독립 인식 시스템을 사용한 실험 결과에서 MFCC와 델타 MFCC를 사용한 경우가 피치와 에너지를 사용한 방법보다 우수한 성능을 나타내었다.

이산 HM을 이용한 실시간 음성인식 다이얼링 시스템 개발 (Development of a Read-time Voice Dialing System Using Discrete Hidden Markov Models)

  • 이세웅;최승호;이미숙;김홍국;오광철;김기철;이황수
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.89-95
    • /
    • 1994
  • 본 논문에서는 화자독립으로 100단어를 인식할 수 있는 실시간 음성인식 다이얼링 시스템의 개발에 대하여 기술하였다. 이 시스템에서 음성인식 알고리즘은 전화선 인터페이스를 갖춘 DSP 보드상에 구현되었으며, IBM PC AT/486 상에서 작동된다. DSP 보드에서는 단어의 시작점이 검출된 후에 특징추출, 벡터양자화 그리고 끝점검출 과정이 실시간으로 10 msec의 프레임 구간마다 수행된다. 또한, 본 시스템에서는 인식시간과 기억용량을 줄이기 위해 VQ 코드북의 크기와 끝점검출 과정을 최적화하였다. 본 실시간 음성인식 다이얼링 시스템은 데모 시스템으로 구현되어 대전엑스포‘93에서 한국이동통신의 MOBILAB 내에 전시되었다.

  • PDF

잡음환경에서의 음성인식을 위한 켑스트럼의 확률분포 정규화 기법 (Cepstrum PDF Normalization Method for Speech Recognition in Noise Environment)

  • 석용호;이황수;최승호
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.224-229
    • /
    • 2005
  • 본 논문에서는 부가잡음 환경에서의 강인한 음성인식을 위해 켑스트럼의 확률밀도 (pdf) 정규화 기법을 제안한다. 기존의 방법들은 켑스트럼의 평균 및 분산 등 주로 1, 2차 통계치 만을 정규화 하지만 제안한 방법은 깨끗한 음성과 잡음이 부가된 음성의 켑스트럼의 pdf를 동일하게 함으로써 켑스트럼의 통계치를 완벽하게 정규화 한다. 목표 pdf로는 다양한 확률분포를 고려하기 위하여 일반 (generalized) 가우시안 분포를 선택하였다. 또한 인식시 계산량을 감축하기 위하여 표 참조방법 (table lookup method)를 개발하였다. 화자독립 고립단어 인식 실험에서 제안된 기법이 기존 방법들보다 우수한 성능을 보였으며, 특히 잡음이 심한 환경에서 성능향상이 두드러졌다.

아동의 축어 기억과 요점 기억의 발달과 과제의 영향에 관한 연구 (The Development of Verbatim and Gist Memory: Task Effects)

  • 송하나;최경숙
    • 아동학회지
    • /
    • 제18권2호
    • /
    • pp.283-297
    • /
    • 1997
  • This study examined the development of verbatim and gist memory, and the effects of the relevance and inferential direction of the task on the development of the verbatim and gist memory. The subjects were second, fourth and sixth grade children in elementary schools. Each age group consisted of forty children. Eight sets of inference tasks were administered to each subject. In the task, the relevent and the extraneous sentences were mixed for inferential direction. The sentences that described 'which term is more' were inserted in half of the task and the sentences that indicated the direct numbers were included in the other half of the task. The task was presented by the audio tape in which instruction was recorded by one speaker. Results showed that (1) age differences in verbatim memory were significant but age differences in gist memory were not significant. These results indicate that the processes of verbatim and gist memory are separate and independent. (2) The relevance and inferential direction of the task affect gist memory but no verbatim memory. This result also supported independence between verbatim and gist memory. It was suggested that these results can be interpreted in terms of fuzzy trace theory.

  • PDF

실시간 문맥독립 화자인식 시스템의 성능향상을 위한 수정된 가중모델순위 결정방법 (Modified Weighting Model Rank Method for Improving the Performance of Real-Time Text-Independent Speaker Recognition System)

  • 김민정;오세진;석수영;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.107-110
    • /
    • 2002
  • 현재까지 개발된 화자식별 시스템 중 가중모델순위(Weighting Model Rank; WMR)방법을 이용한 화자인식 시스템이 비교적 높은 인식성능을 나타내고 있다. WMR 방법은 각 화자에 대한 프레임 유사도의 순위에 따라 지수함수 가중치로 대치시키는 방법을 사용하고 있으나, 이 방법은 유사도 본래의 변별력이 전체 계산에서 고려되지 않는 문제가 있었다. 이를 해결하기 위해 본 논문에서는 각 화자의 프레임 유사도와 지수함수를 이용한 가중치를 곱한 값을 이용하여 전체 스코어를 계산하도록 하는 수정된 가중모델 순위방법(Modified Weighting Model Rank; MWMR)을 제안한다. 제안한 방법의 유효성을 확인하기 위하여 316명의 화자를 대상으로 하여 인식실험을 실시한 결과, 학습 프레임이 10,000일 경우, MWMR 방법에서 $98.1\%$의 화자 인식률을 얻어 WMR 방법에 비해 약 $2.0\%$의 향상된 인식결과를 보여 제안한 방법의 유효성을 확인할 수 있었다.

  • PDF

고립단어 인식을 위한 빠른 전처리기의 구현 (Implementation of A Fast Preprocessor for Isolated Word Recognition)

  • 안영목
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.96-99
    • /
    • 1997
  • 본 논문에서는 고립단어 인식을 위한 빠른 전처리기를 소개한다. 제안하는 전처리기는 적은 계산량으로 후보 단어를 추출한다. 본 전처리기에서는 계산량을 줄이기 위해서 벡터 양자화 대신에 특징 정렬 알고리즘을 사용하였다. 이 전처리기의 유효성을 보이기 위해서 준연속 은닉 마코프 모델을 기반으로 한 음성 인식기와 벡터 양자화를 기반으로 한 전처리기에 대해서 화자독립 고립단어 인식에 대한 성능을 비교했다. 실험에 사용한 음성 데이터는 남성 호자 40명이 발성한 244 단어이며, 40명의 화자 중에서 20명은 전처리기의 훈련용으로 사용했으며 나머지 20명은 평가용으로 사용하였다. 실험의 결과, 음성 데이터에 대해서 90%의 감축을 조건에서 제안한 전처리기는 99.9%의 정확성을 보였다.

  • PDF

English vowel production conditioned by probabilistic accessibility of words: A comparison between L1 and L2 speakers

  • Jonny Jungyun Kim;Mijung Lee
    • 말소리와 음성과학
    • /
    • 제15권1호
    • /
    • pp.1-7
    • /
    • 2023
  • This study investigated the influences of probabilistic accessibility of the word being produced - as determined by its usage frequency and neighborhood density - on native and high-proficiency L2 speakers' realization of six English monophthong vowels. The native group hyperarticulated the vowels over an expanded acoustic space when the vowel occurred in words with low frequency and high density, supporting the claim that vowel forms are modified in accordance with the probabilistic accessibility of words. However, temporal expansion occurred in words with greater accessibility (i.e., with high frequency and low density) as an effect of low phonotactic probability in low-density words, particularly in attended speech. This suggests that temporal modification in the opposite direction may be part of the phonetic characteristics that are enhanced in communicatively driven focus realization. Conversely, none of these spectral and temporal patterns were found in the L2 group, thereby indicating that even the high-proficiency L2 speakers may not have developed experience-based sensitivity to the modulation of sub-categorical phonetic details indexed with word-level probabilistic information. The results are discussed with respect to how phonological representations are shaped in a word-specific manner for the sake of communicatively driven lexical intelligibility, and what factors may contribute to the lack of native-like sensitivity in L2 speech.

실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구 (A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment)

  • 이정기;남동선;양진우;김순협
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.51-56
    • /
    • 2000
  • 본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

  • PDF

새로운 시간축 정규화 방법을 이용한 한국어 고립단어 인식기 (Korean isolated word recognizer using new time alignment method of speech signal)

  • 남명우;박규홍;노승용
    • 대한전자공학회논문지SP
    • /
    • 제38권5호
    • /
    • pp.567-575
    • /
    • 2001
  • 본 논문에서는 음성신호의 발성길이와 상관없이 일정한 크기의 파라미터를 얻을 수 있는 새로운 방법을 제안하였다. 음성인식기의 성능은 음성신호에서 추출된 파라미터간의 유사도(패턴간의 거리)를 어떻게 비교하는지에 따라 결정된다. 그러나 화자에 따른 음성신호의 변이나 발성속도의 차이는 음성신호에서 일정한 크기의 파라미터 추출을 어렵게 한다. 제안한 방법은 음성신호에서 얻어진 파라미터를 스펙토그램의 형태로 표현한 뒤 2차원 DCT(Discrete Cosine Transform)를 이용해 일정한 크기의 파라미터로 정규화시키는 방법이다. 제안한 방법의 유효성을 입증하기 위해 청각세포를 모델링한 32개의 대역통과 필터로부터 얻어진 음성신호의 파라미터를 2차원 DCT 방법으로 가공한 후, 신경 회로망의 입력으로 사용하였다. 또한 기존 방법과의 인식률 비교를 위해 기존의 정규화된 입력을 구하는 방법 중 하나를 선택하여 비교 실험을 수행하였다. 실험결과 제안한 방법은 기존 방법에 비해 화자종속 및 화자독립 고립단어 인식에서 더 높은 인식률과 빠른 인식속도를 얻을 수 있었다.

  • PDF