• 제목/요약/키워드: Vocal tract length normalization

검색결과 10건 처리시간 0.023초

음성인식을 위한 성도 길이 정규화 (Vocal Tract Length Normalization for Speech Recognition)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1380-1386
    • /
    • 2003
  • 화자들 사이의 성도의 길이의 변이에 의하여 음성 인식기의 성능이 저하된다. 본 연구에서는 입력 음성에서 추출한 단구간 스펙트럼의 주파수축을 확대하거나 축소하여 음성인식기에 미치는 화자사이의 성도 길이의 영향을 최소화하는 방법을 사용한다 성도의 길이를 정규화하기 위한 주파수 변환 함수로서, 선형의 주파수 변환 함수와 조각적 선형적인 변환 함수를 고려하였다. 또한, 커다란 성도길이의 변이에 따른 주파수축의 척도변화를 보다 효과적으로 모의할 수 있는 가변구간 조각적 선형함수를 제안한다. TIDIGITS 연결 숫자음 음성자료에 대하여 제안한 방법을 적용한 결과, 단어의 오인식률을 2.15%에서 0.53%로 크게 감소시킴으로서, 성도 길이 정규화가 화자 독립 음성인식기의 성능 향상에 필수적임을 알 수 있었다.

성도 정규화를 이용한 감정 변화에 강인한 음성 인식 (Robust Speech Recognition using Vocal Tract Normalization for Emotional Variation)

  • 김원구;방현진
    • 한국지능시스템학회논문지
    • /
    • 제19권6호
    • /
    • pp.773-778
    • /
    • 2009
  • 본 논문에서는 인간의 감정 변화에 강인한 음성 인식 시스템을 구현하기 위하여 감정 변화의 영향을 최소화 하는 방법에 관한 연구를 수행하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화에 따른 음성 신호의 변화를 관찰하였다. 감정이 포함되지 않은 평상의 음성으로 학습된 음성 인식 시스템에 감정이 포함된 인식 데이터가 입력되는 경우 감정에 따른 음성의 차이가 인식 시스템의 성능을 저하시킨다. 본 연구에서는 감정의 변화에 따라 화자의 성도 길이가 변화한다는 것과 이러한 변화는 음성 인식 시스템의 성능을 저하시키는 원인 중의 하나임을 관찰하였다. 본 연구에서는 이러한 음성의 변화를 감소시키는 방법으로 성도 길이 정규화 방법을 사용한 감정 변화에 강인한 음성 인식 시스템을 개발하였다. HMM을 사용한 단독음 인식 실험에서 제안된 학습 방법을 사용하면 감정 데이터의 오차가 기존방법보다 41.9% 감소되었다.

감정 음성 인식을 위한 강인한 음성 파라메터 (Robust Speech Parameters for the Emotional Speech Recognition)

  • 이규현;김원구
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.681-686
    • /
    • 2012
  • 본 논문에서는 강인한 감정 음성 인식 시스템을 개발하기 위하여 감정의 영향을 적게 받는 음성 파라메터에 대한 연구를 수행하였다. 이러한 목적을 위하여 다양한 감정이 포함된 데이터를 사용하여 감정이 음성 인식 시스템과 음성 파라메터에 미치는 영향을 분석하였다. 본 연구에서는 멜 켑스트럼, 델타 멜 켑스트럼, RASTA 멜 켑스트럼, 루트 켑스트럼, PLP 계수와 성도 길이 정규화 방법에서 주파수 와핑된 멜 켑스트럼 계수를 사용하였다. 또한 신호 편의 제거 방법으로 CMS 방법과 SBR 방법이 사용되었다. 실험결과에서 성도정규화 방법을 사용한 RASTA 멜 켑스트럼, 델타 멜 켑스트럼 및 CMS 방법을 사용한 경우가 HMM 기반의 화자독립 단독음 인식 실험 결과에서 가장 우수한 결과를 나타내었다.

음성 변환을 사용한 감정 변화에 강인한 음성 인식 (Emotion Robust Speech Recognition using Speech Transformation)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제20권5호
    • /
    • pp.683-687
    • /
    • 2010
  • 본 논문에서는 인간의 감정 변화에 강인한 음성 인식 시스템을 구현하기 위하여 음성 변환 방법 중의 한가지인 주파수 와핑 방법을 사용한 연구를 수행하였다. 이러한 목표를 위하여 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정의 변화에 따라 음성의 스펙트럼이 변화한다는 것과 이러한 변화는 음성 인식 시스템의 성능을 저하시키는 원인 중의 하나임을 관찰하였다. 본 논문에서는 이러한 음성의 변화를 감소시키는 방법으로 주파수 와핑을 학습 과정에 사용하는 방법을 제안하여 감정 변화에 강인한 음성 인식 시스템을 구현하였고 성도 길이 정규화 방법을 사용한 방법과 성능을 비교하였다. HMM을 사용한 단독음 인식 실험에서 제안된 학습 방법은 사용하면 감정이 포함된 데이터에 대한 인식 오차가 기존 방법보다 감소되었다.

감정에 강인한 음성 인식을 위한 음성 파라메터 (Speech Parameters for the Robust Emotional Speech Recognition)

  • 김원구
    • 제어로봇시스템학회논문지
    • /
    • 제16권12호
    • /
    • pp.1137-1142
    • /
    • 2010
  • This paper studied the speech parameters less affected by the human emotion for the development of the robust speech recognition system. For this purpose, the effect of emotion on the speech recognition system and robust speech parameters of speech recognition system were studied using speech database containing various emotions. In this study, mel-cepstral coefficient, delta-cepstral coefficient, RASTA mel-cepstral coefficient and frequency warped mel-cepstral coefficient were used as feature parameters. And CMS (Cepstral Mean Subtraction) method were used as a signal bias removal technique. Experimental results showed that the HMM based speaker independent word recognizer using vocal tract length normalized mel-cepstral coefficient, its derivatives and CMS as a signal bias removal showed the best performance of 0.78% word error rate. This corresponds to about a 50% word error reduction as compare to the performance of baseline system using mel-cepstral coefficient, its derivatives and CMS.

한국어 유아 음성인식을 위한 수정된 Mel 주파수 캡스트럼 (Modified Mel Frequency Cepstral Coefficient for Korean Children's Speech Recognition)

  • 유재권;이경미
    • 한국콘텐츠학회논문지
    • /
    • 제13권3호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 한국어에서 유아 대상의 음성인식 향상을 위한 새로운 특징추출 알고리즘을 제안한다. 제안하는 특징추출 알고리즘은 세 가지 방법을 통합한 기법이다. 첫째 성도의 길이가 성인에 비해 짧은 유아의 음향적 특징을 보완하기 위한 방법으로 성도정규화 방법을 사용한다. 둘째 성인의 음성과 비교했을 때 높은 스펙트럼 영역에 집중되어 있는 유아의 음향적 특징을 보완하기 위해 균일한 대역폭을 사용하는 방법이다. 마지막으로 실시간 환경에서의 잡음에 강건한 음성인식기 개발을 위해 스무딩 필터를 사용하여 보완하는 방법이다. 세 가지 방법을 통해 제안하는 특징추출 기법은 실험을 통해 유아의 음성인식 성능 향상에 도움을 준다는 것을 확인했다.

Korean Broadcast News Transcription Using Morpheme-based Recognition Units

  • Kwon, Oh-Wook;Alex Waibel
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권1E호
    • /
    • pp.3-11
    • /
    • 2002
  • Broadcast news transcription is one of the hardest tasks in speech recognition because broadcast speech signals have much variability in speech quality, channel and background conditions. We developed a Korean broadcast news speech recognizer. We used a morpheme-based dictionary and a language model to reduce the out-of·vocabulary (OOV) rate. We concatenated the original morpheme pairs of short length or high frequency in order to reduce insertion and deletion errors due to short morphemes. We used a lexicon with multiple pronunciations to reflect inter-morpheme pronunciation variations without severe modification of the search tree. By using the merged morpheme as recognition units, we achieved the OOV rate of 1.7% comparable to European languages with 64k vocabulary. We implemented a hidden Markov model-based recognizer with vocal tract length normalization and online speaker adaptation by maximum likelihood linear regression. Experimental results showed that the recognizer yielded 21.8% morpheme error rate for anchor speech and 31.6% for mostly noisy reporter speech.

DHMM 음성 인식 시스템을 위한 양자화 기반의 화자 정규화 (Quantization Based Speaker Normalization for DHMM Speech Recognition System)

  • 신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.299-307
    • /
    • 2003
  • 화자독립 음성인식기에서 화자사이의 성도 길이의 영향을 최소화시켜 인식 성능을 개선하는 화자 정규화에 대한 많은 연구가 있어 왔다. 본 연구에서는 벡터양자화기를 이용하여 화자 검증이 가능하다는 사실에 착안하여 벡터 양자화기를 이용한 비교적 간단한 선형 워핑 화자정규화방법을 제안한다. 제안하는 방법에서는 먼저 정규화에 이용될 최적의 코드북을 생성한 다음, 이 코드 북을 이용하여 화자의 선형 워핑계수를 추출하고 추출된 워핑계수는 멜 켑스트럼 추출시에 사용되는 멜스케일 필터뱅크를 워핑하기 위해 이용된다. 본고에서 제안한 워핑계수 추출 및 적용 방법의 성능을 확인하기 위해 이산 HMM을 이용한 13가지의 단음절 한글 숫자음 인식기를 이용하여 인식실험을 수행하였으며, 실험 결과 약 29%의 오인식률 감소를 보여 제안하는 화자 정규화방법이 다른 라인서치 워핑계수추출 방법보다 간단한 동시에 효용가치가 있음을 확인하였다.

음성 비식별화 모델과 방송 음성 변조의 한국어 음성 비식별화 성능 비교 (Comparison of Korean Speech De-identification Performance of Speech De-identification Model and Broadcast Voice Modulation)

  • 김승민;박대얼;최대선
    • 스마트미디어저널
    • /
    • 제12권2호
    • /
    • pp.56-65
    • /
    • 2023
  • 뉴스와 취재 프로그램 같은 방송에서는 제보자의 신원 보호를 위해 음성을 변조한다. 음성 변조 방법으로 피치(pitch)를 조절하는 방법이 가장 많이 사용되는데, 이 방법은 피치를 재조절하는 방식으로 쉽게 원본 음성과 유사하게 음성 복원이 가능하다. 따라서 방송 음성 변조 방법은 화자의 신원 보호를 제대로 해줄 수 없고 보안상 취약하기 때문에 이를 대체하기 위한 새로운 음성 변조 방법이 필요하다. 본 논문에서는 Voice Privacy Challenge에서 비식별화 성능이 검증된 Lightweight 음성 비식별화 모델을 성능 비교 모델로 사용하여 피치 조절을 사용한 방송 음성변조 방법과 음성 비식별화 성능 비교 실험 및 평가를 진행한다. Lightweight 음성 비식별화 모델의 6가지 변조 방법 중 비식별화 성능이 좋은 3가지 변조 방법 McAdams, Resampling, Vocal Tract Length Normalization(VTLN)을 사용하였으며 한국어 음성에 대한 비식별화 성능을 비교하기 위해 휴먼 테스트와 EER(Equal Error Rate) 테스트를 진행하였다. 실험 결과로 휴먼 테스트와 EER 테스트 모두 VTLN 변조 방법이 방송 변조보다 더 높은 비식별화 성능을 보였다. 결과적으로 한국어 음성에 대해 Lightweight 모델의 변조 방법은 충분한 비식별화 성능을 가지고 있으며 보안상 취약한 방송 음성 변조를 대체할 수 있을 것이다.

한국어에서의 성인과 유아의 음성 인식 비교 (Comparison of Adult and Child's Speech Recognition of Korean)

  • 유재권;이경미
    • 한국콘텐츠학회논문지
    • /
    • 제11권5호
    • /
    • pp.138-147
    • /
    • 2011
  • 현재 한국의 음성 데이터베이스 구축 현황을 살펴보면 유아에 맞춰진 음성 데이터베이스는 구축이 되지 않은 실정이다. 국외 연구를 분석한 결과, 다양한 언어를 기반으로 유아 대상의 음성 데이터베이스가 구축되어 있다. 이는 성인의 음성과 유아의 음성은 언어학적으로 차이가 있기 때문에 유아는 유아에 맞는 음성 데이터베이스가 필요하다. 한국어에서 성인과 유아의 음성 차이를 알아보기 위해, HMM을 이용하여 유아와 성인의 음성인식을 비교하였다. 유아와 성인의 음성인식 비교는 성별, 나이별, 성도 길이 정규화의 적용 유무에 따라 실험한다. 본 논문에서는 한국어에서 유아의 음성을 유아의 음성인식기로 인식했을 때가 성인의 음성인식기로 인식했을 때 보다 월등히 인식률이 높았으며, 성도 길이 정규화의 적용이 인식률 향상에 도움이 되고 있음을 보여준다.