• Title/Summary/Keyword: robust speech recognition

Search Result 225, Processing Time 0.023 seconds

채널에 강인한 화자 인식을 위한 채널 정규화 피치 동기 켑스트럼에 관한 연구 (A Study on the Channel Normalized Pitch Synchronous Cepstrum for Speaker Recognition)

  • 김유진;정재호
    • 한국음향학회지
    • /
    • 제23권1호
    • /
    • pp.61-74
    • /
    • 2004
  • 본 논문에서는 채널 환경에 강인한 화자 인식 시스템을 위하여 문맥과 화자에 종속적인 켑스트럼 추출 방법과 추출된 켑스트럼에서 화자 정보의 손실을 최소화하는 채널 정규화 방법을 제안하였다. 제안된 추출 방법은 화자의 고유한 피치를 이용한 피치 동기 분석 방법에 기반을 두어 켑스트럼을 추출한다. 따라서 일명 피치 동기 켑스트럼 (PSC)은 유성음 구간에서 성도의 임펄스 응답을 보다 정확하게 표현할 수 있다. 또한 피치는 채널 환경에서 스펙트럼에 비해 강인하므로 피치 동기 켑스트럼은 채널에 의한 스펙트럼의 왜곡을 보상할 수 있다. 제안된 채널 정규화방법인 포먼트 평활화 피치 동기 켑스트랄 평균 차감법 (FBPSCMS)은 포먼트 평활화 켑스트랄 평균 차감법을 PSC에 적용하여 프레임 내 처리의 정확도를 개선시킨다. 제안된 방법들의 화자 인식 성능을 비교하기 위해 남자 112명과 여자 56명에 대해 WMIT과 전화선 환경의 NTIMIT을 이용한 화자 식별을 수행하였다. 실험 결과 피치 동기 LPCC는 기존 단구간 켑스트럼과 비교하여 에러 감소율을 최대 7.7%까지 향상시켰고, FBPSCMS는 극점 필터링 CMS에 비해 보다 안정되고 낮은 에러율을 나타내었다.

분리된 고유공간을 이용한 잡음환경에 강인한 특징 정규화 기법 (Robust Feature Normalization Scheme Using Separated Eigenspace in Noisy Environments)

  • 이윤재;고한석
    • 한국음향학회지
    • /
    • 제24권4호
    • /
    • pp.210-216
    • /
    • 2005
  • 본 논문에서는 잡음에 강인한 음성인식을 위하여 고유공간에 기반을 둔 새로운 특징 정규화 기법을 제안한다. 일반적으로 평균과 분산의 정규화 (MVN)는 켑스트럼 상에서 수행된다. 그러나 최근에 고유공간을 이용한 MVN기법이 소개되었고, 그 고유공간 정규화 기법에서는 하나의 고유공간을 이용하였다. 이 과정에는 켑스트럼 상의 특징 벡터를 선형 주성분 분석 (PCA)행렬을 통하여 고유공간으로 변환시킨 후 MVN을 수행하는 과정이 포함된다. 이 방법에서는 전체 39차의 특징분포를 하나의 고유공간으로 표현하였다. 그러나 이 기법의 경우 전체 특징 분포를 표현함에 세밀함이 떨어지기 때문에 더욱 세밀한 분포의 표현을 위해 본 논문에서는 static 특징, 1차 미분 계수, 2차 미분계수에 각각 유일하고 독립적인 분리된 고유공간을 적용하는 것을 제안하였다. 또한 고유공간에서 정규화 된 훈련 데이터를 이용하여 모델을 만든다. 마지막으로 훈련 데이터의 분포와 잡음환경에서의 테스트 데이터의 분포 특성의 차이를 줄이기 위해 켑스트럼 상에서의 회전 기법을 적용시킨다. 그 결과, 기본적인 고유공간 정규화 기법보다 향상된 성능을 얻을 수 있었다.

A Multi-Strategic Concept-Spotting Approach for Robust Understanding of Spoken Korean

  • Lee, Chang-Ki;Eun, Ji-Hyun;Jeong, Min-Woo;Lee, Gary Geun-Bae;Hwang, Yi-Gyu;Jang, Myung-Gil
    • ETRI Journal
    • /
    • 제29권2호
    • /
    • pp.179-188
    • /
    • 2007
  • We propose a multi-strategic concept-spotting approach for robust spoken language understanding of conversational Korean in a hostile recognition environment such as in-car navigation and telebanking services. Our concept-spotting method adopts a partial semantic understanding strategy within a given specific domain since the method tries to directly extract predefined meaning representation slot values from spoken language inputs. In spite of partial understanding, we can efficiently acquire the necessary information to compose interesting applications because the meaning representation slots are properly designed for specific domain-oriented understanding tasks. We also propose a multi-strategic method based on this concept-spotting approach such as a voting method. We present experiments conducted to verify the feasibility of these methods using a variety of spoken Korean data.

  • PDF

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

대안적 통째학습 기반 저품질 레거시 콘텐츠에서의 문자 인식 알고리즘 (Character Recognition Algorithm in Low-Quality Legacy Contents Based on Alternative End-to-End Learning)

  • 이성진;윤준석;박선후;유석봉
    • 한국정보통신학회논문지
    • /
    • 제25권11호
    • /
    • pp.1486-1494
    • /
    • 2021
  • 문자 인식은 스마트 주차, text to speech 등 최근 다양한 플랫폼에서 필요로 하는 기술로써, 기존의 방법과 달리 새로운 시도를 통하여 그 성능을 향상시키려는 연구들이 진행되고 있다. 그러나 문자 인식에 사용되는 이미지의 품질이 낮을 경우, 문자 인식기 학습용 이미지와 테스트 이미지간에 해상도 차이가 발생하여 정확도가 떨어지는 문제가 발생된다. 이를 해결하기 위해 본 논문은 문자 인식 모델 성능이 다양한 품질 데이터에 대하여 강인하도록 이미지 초해상도 및 문자 인식을 결합한 통째학습 신경망을 설계하고, 대안적 통째학습 알고리즘을 구현하여 통째 신경망 학습을 수행하였다. 다양한 문자 이미지 중 차량 번호판 이미지를 이용하여 대안적 통째학습 및 인식 성능 테스트를 진행하였고, 이를 통해 제안하는 알고리즘의 효과를 검증하였다.

소음환경에 강인한 피치주기 검출 알고리즘에 관한 연구 (A Study on the Robust Pitch Period Detection Algorithm in Noisy Environments)

  • 서현수;배상범;김남호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.481-484
    • /
    • 2006
  • 음성 신호의 피치주기 검출 알고리즘은 음성 인식, 화자 식별 등의 다양한 음성 신호 처리 분야에 적용되고 있으며, 시간영역과 주파수영역에서 많은 연구가 진행되고 있다. 피치주기 검출 알고리즘의 하나인 AMDF(average magnitude difference function)는 연산속도가 빠른 장점이 있지만, 피치주기 검출을 위한 valley점 선정에 있어서 알고리즘이 복잡해지는 문제점이 발생한다. 또한 이러한 피치주기 검출 알고리즘이 실생활에 응용되기 위해서는 다양한 환경에서 발생하는 소음으로부터 강인한 특성을 가져야 한다. 따라서, 본 논문에서는 변형된 AMDF 알고리즘을 이용하여 피치주기 검출을 위한 전체 최소 valley점 선정을 보다 용이하게 하였으며, 테스트 신호로써 지하철 등과 같은 소음환경에서의 음성신호를 사용하였다.

  • PDF

잡음에 강한 특징 벡터 및 스펙트럼 차감법을 이용한 음성 인식 (Speech Recognition Using Noise Robust Features and Spectral Subtraction)

  • 신원호;양태영;김원구;윤대희;서영주
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.38-43
    • /
    • 1996
  • 본 논문에서는 잡음 및 주변 환경에 강인한 것으로 알려져 있는 특징 벡터들을 이용한 인식 성능을 비교하였다. 아울러 스펙트럼 차감법을 적용하여 높은 인식 성능을 얻도록 하였다. 본 논문에서는 환경 변화에 강인한 인식 성능을 얻기 위하여 SMC(Short time Modified Coherence) 분석, 루트(root) 켑스트럼 분석, LDA(Linear Discriminant Analysis), PLP(Perceptual Linear Prediction), RASTA(RelAtive SpecTrAl) 처리 등을 이용하여 인식 실험을 수행하였다. 실험을 위하여 반연속 HMM을 이용한 단독음 인식 시스템을 구현하였고 전시장 및 컴퓨터실의 잡음을 첨가하여 0, 10 및 20dB의 SNR에 대한 인식 실험을 수행하였다. 실험 결과, LPCC(Linear Prediction Cepstral Coefficient)를 이용한 경우에 비하여 SMC나 루트처리를 이용한 멜 켑스트럼(루트_멜 켑스트럼)을 이용한 경우 10dB의 SNR에서 각각 9.86%, 12.68% 향상된 가장 좋은 인식률을 얻었다. 또한 멜 켑스트럼과 루트_멜 켑스트럼을 스펙트럼 차감법과 결합하여 잡음을 제거한 경우 10dB에서 각각 16.7%, 8.4% 향상된 94.91%, 94.28%의 인식률을 얻을 수 있었다.

  • PDF

강인한 음성인식을 위한 켑스트럼 거리와 로그 에너지 기반 묵음 특징 정규화 (Cepstral Distance and Log-Energy Based Silence Feature Normalization for Robust Speech Recognition)

  • 신광호;정현열
    • 한국음향학회지
    • /
    • 제29권4호
    • /
    • pp.278-285
    • /
    • 2010
  • 훈련 환경과 인식 환경의 차이가 음성인식 성능저하의 주요요인이다. 이러한 환경의 불일치를 줄이기 위한 방법으로 다양한 묵음특징 정규화 방법이 제안되고 있다. 기존의 묵음특징 정규화 방법은 낮은 SNR (Signal-to-Noise Ratio)에서 묵음구간의 에너지 레벨이 증가하여 음성/묵음 분류의 정확도가 떨어짐으로 인해 인식성능이 저하되는 문제점이 있었다. 본 논문에서는 로그 에너지와 음성/묵음(또는잡음)의 켑스트럼 특징의 분포 특성의 차이를 나타내는 켑스트럼 유클리디언(Euclidean) 거리를 결합하여 음성/묵음을 분류하는 묵음특징 정규화 방법 (Cepstral distance and Log-energy based Silence Feature Normalization)을 제안하였다. 제안한 방법은 높은 SNR에서는 로그 에너지 특징이 잡음의 영향을 적게 받는 특성을 반영하여 기존의 묵음 특징 정규화 (Silence Feature Normalization)방법의 우수성을 그대로 유지하는 반면, 낮은 SNR에서는 로그 에너지 대신 음성/묵음 분류의 분별력이 우수한 켑스트럼 거리 정보를 이용함으로써 인식성능을 향상시킬 수 있다. 인식실험결과 기존의 SFN-I/II, CSFN 방법에 비해 전반적으로 향상된 인식성능을 얻을 수 있어 그 유효성을 확인할 수 있었다.

최대사후확률 추정법을 이용한 단어인식기의 잡음환경적응화 (Noisy Environmental Adaptation for Word Recognition System Using Maximum a Posteriori Estimation)

  • 이정훈;이시욱;정현열
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.107-113
    • /
    • 1997
  • 본 논문에서는 채널왜곡과 부가잡음에 강한 한국어 단어 인식기 구현을 위해 사후확률추정법에 의한 환경적응화법을 제안하고 이 방법의 인식성능 향상에 대한 유효성을 확인하였다. 이를 위해 1)채널왜곡이 발생한 경우, 2)부가잡음이 첨가된 경우, 3)채널왜곡과 부가잡음이 동시에 존재하는 각각의 경우에 대해서 제안한 환경적응화법을 이용하여 인식실험을 수행하였다. 이때 회귀계수, 지속시간 정보와 같은 부가정보의 환경적응화에 대한 유효성도 검토하였다. 100단어에 대한 환경독립, 화자독립 인식실험을 수행한 결과, 1)의 경우에 대해서는 9.0%, 2)의 경우에 대해서는 75%이상, 3)의 경우에 대해서는 11%~61.4%의 인식률 향상을 보여 사후확률추정법에 의한 환경적응화 방법이 채널왜곡 및 부가잡음이 동시에 존재하는 음성에 대하여서도 유효함을 알수 있었다. 그러나 지속시간 정보의 인식에 대한 기여는 찾아볼 수 없었다.

  • PDF

휴대폰 단말기에 적용을 위한 강인한 음성인식 (Robust Speech Recognition for Application to Mobile Phone)

  • 손종목;정성윤;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.495-498
    • /
    • 2001
  • 최근 음싱인식이 인간과 기계 사이의 자연스러운 통신을 위한 가장 중요한 수단으로 인식되어 이와 관련된 연구가 구준히 이루어져 왔으며, 일부 응용 분야에서는 성공적으로 적용되고 있다. 하지만, 좀 더 다양한 응용분야에 적용하기 위해서는 실제 환경에 존재하는 여러가지 주변잡음에 강인한 특성을 가지는 인식 시스템이 요구된다. 본 연구에서는 음성인식 시스템을 휴대전화에 적용하기 위해 도메인 적응 기법, LDA (Linear Discriminant Analysis) 기법 등을 도입하여 시스템 DB의 크기를 줄이고 잡음에 대한 강인성을 높이고자 하였으며, HMM (Hidden Markov Model)에 기반한 음싱인식 시스템을 사용하여 각 기법의 적용에 따른 인식성능을 평가하였다.

  • PDF