• 제목/요약/키워드: 강인한 음성 인식

검색결과 197건 처리시간 0.026초

연속음성인식을 위한 음성구간과 피치검출에 관한 연구 (A Study on Speech Period and Pitch Detection for Continuous Speech Recognition)

  • 김태석;장종칠
    • 한국멀티미디어학회논문지
    • /
    • 제8권1호
    • /
    • pp.56-61
    • /
    • 2005
  • 본 논문은 연속음성인식을 위한 음성구간과 피치를 검출하는 알고리즘을 제안한다. 이것은 연속음성을 입력받아 프레임 단위로 자/모음을 구분하며, 구분된 유성음에서 피치를 검출하는 방법이다 실제 잡음 환경에서 음성을 입력받아 적당한 문턱치 에너지를 사용함으로써 잡음환경에서 강인한 음성구간 추출이 가능하였고 추출한 음성구간에서 프레임단위로 영교차율과 단구간에너지를 이용한 알고리즘으로 유성음의 피치를 검출함과 동시에 자/모음을 구분하는 개선된 방식이다.

  • PDF

음성 인식률 향상을 위한 음성의 특징 파라미터 추출 알고리즘

  • 최재승
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.686-687
    • /
    • 2017
  • 본 논문에서는 잡음에 강인하고 음성인식 성능이 효과적인 멜 주파수 켑스트럼 계수의 파라미터의 추출 알고리즘을 제안한다. 본 논문에서 제안한 알고리즘은 배경잡음이 혼합된 깨끗한 연속음성 중에서 위너필터를 이용하여 음성에 포함된 배경잡음을 감소시키며, 이후에 멜 주파수 켑스트럼 계수의 특징추출 방법을 사용하여 음성의 특징 파라미터를 추출한다.

  • PDF

영상정보 보완에 의한 음성인식 (Speech Recognition with Image Information)

  • 이천우;이상원;양근모;박인정
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.511-515
    • /
    • 1999
  • 음성의 인식율 저하는 주로 잡음에 의해 발생하고, 이러한 요인을 제거하기 위해 주로 필터뱅크를 사용하여 왔지만, 본 논문은 2 차원 선형예측이라는 영상 특징 추출 방법을 이용하여 잡음에 강인한 숫자 음 인식을 시도하였다. 먼저, 음성에 대한 인식결과를 도출하기 위해, 13 차 선형예측 계수를 이용하여 인식을 시도하였다. 이 때, 잡음을 추가한 음성을 이용하여 시험한 결과, 5 개의 숫자음, ‘영’, ‘사’, ‘오’, ‘육’, ‘구’에서 인식결과의 저하를 볼 수 있었다. 이러한 결과를 향상시키기 위해 2 차원 선형예측 계수를 추가한 인식기 입력 데이터를 구현하였다. 이 때, 선형예측 계수는 각 프레임별로 추출하였고, 음성데이터와 합한 영상 데이터를 가지고 인식 실험을 실시하였다. 이 때, 숫자음 ‘사’ 와 ‘구’ 에 대해서는 상당한 향상을 보였다.

  • PDF

잡음환경에 강인한 음성인식을 위해 SNR과 마스킹 효과를 이용한 적응 스펙트럼 차감법 (Adaptive Spectral Subtraction Method Using SNR and Masking Effect for Robust Speech Recognition in Noisy Environments)

  • 김태준;김종훈;이경모;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.580-582
    • /
    • 2004
  • 스펙트럼 차감과정에서 발생하는 잔류 잡음을 제거하는 방법으로 파라메터를 이용하는 적응 스펙트럼 차감법이 있다. 이는 파라메터를 증가시켜 잔류 잡음을 감소시키는 방법이지만 파라메터를 과도하게 증가시킬 경우 음성 왜곡이 발생한다. 따라서, 적절한 파라메터를 추출하기 위하여 SNR이나, 마스킹 효과 등을 이용한 방법들이 제안되었으나 과도한 잡음의 제거로 인한 음성 왜곡 문제와 낮은 SNR에서 부정확한 파라메터의 추출 문제는 여전히 해결해야 할 과제로 남아있다. 본 논문은 기존의 SNR을 이용한 방법에 마스킹 효과를 적용한 수정된 적응 스펙트럼 차감법을 제안한다. 제안된 방법에서는 마스킹 임계치를 이용하여 잡음 추정값을 재 계산 항으로써 SNR을 향상시켰고, 이를 이용하여 파라메터를 추출함으로써 성능을 개선했다 성능평가 결과, 제안한 차감법을 적용한 음성신호를 고립단어 음성인식 시스템에 적용했을 때 기존의 방법 보다 인식률이 향상된 것을 확인할 수 있었다.

  • PDF

주행중인 자동차 환경에서의 음성인식 연구 (A Study on Speech Recognition in a running automobile)

  • 유봉근
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.47-50
    • /
    • 1998
  • 본 논문은 자동차의 편의성 및 안전성의 동시 확보를 위하여, 보조적 스위치의 조작없이 상시 음성의 입,출력이 가능하도록 하며, band pass filter를 이용하여 잡음환경에서 자동으로 정확하게 음성구간 검출(End Point Detection)을 하게 하였다. Reference Pattern은 Dynamic Multi-Section(DMS)[1] 모델을 사용하였고 차량의 속도에 따라 자동으로 잡음환경에 강인한 모델을 선택하도록 하였으며, 음성의 특징 파라미터와 인식 알고리즘은 Perceptual Linear Predictive(PLP) 13차와 One Stage Dynamic Programming(OSDP)를 사용하였다. 주행중인 자동차 환경(30~70km/h)에서 자주 사용되는 차량제어 명령 33개에 대하여 화자독립 92.98%, 화자종속 94.44% 인식율을 구하였다. 또한 주행중인 차량에서 카폰, 핸드폰 사용으로 인한 사고를 줄이기 위하여 음성으로 전화를 걸 수 있도록 하는 Voice Dialing 기능도 구현하였다.

  • PDF

음성 개선 기반의 모델 보상 기법을 이용한 강인한 잡음 음성 인식 (A Noise Robust Speech Recognition Method Using Model Compensation Based on Speech Enhancement)

  • 신광호;정호열;정현열
    • 한국음향학회지
    • /
    • 제27권4호
    • /
    • pp.191-199
    • /
    • 2008
  • 본 논문에서는 잡음 환경하의 음성 인식을 위해 전처리 단계에서 Mel-warped Wiener Filtering (MWF) 기법을 이용하여 입력 음성을 개선하고 후처리 단계에서 PMC (Parallel Model Combination) 기법을 이용하여 인식 모델을 보상하는 MWF-PMC잡음 처리 기법을 제안한다. PMC 기법은 전처리 단계에서 개선된 음성의 묵음 구간으로부터 잔류 잡음을 취하여 깨끗한 음성을 이용하여 작성한 인식 모델을 보상함으로써 잡음 환경하의 음성 인식 성능을 향상시킬 수 있다. 인식 실험을 위한 음성 데이터는 국어공학연구소 (KLE)에서 작성한 PBW (Phoneme Balanced Words) 452 단어 음성 데이터를 8 kHz로 다운 샘플링한 후 Subway, Car 및 Exhibition 잡음을 5단계의 신호 대 잡음비 (SNR)를 0, 5, 10, 15, 2003로 부가하여 구성하였다. 인식 실험 결과, 본 논문에서 제안한 MWF-PMC 기법이 기존의 결합된 기법보다 전반적으로 향상된 인식 성능을 얻어 그 유효성을 확인할 수 있었다.

신경망 기반 음성, 영상 및 문맥 통합 음성인식 (Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks)

  • 김명원;한문성;이순신;류정우
    • 전자공학회논문지CI
    • /
    • 제41권3호
    • /
    • pp.67-77
    • /
    • 2004
  • 최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.

고속 발화음에 대한 음성 인식 향상 (Improvements on Speech Recognition for Fast Speech)

  • 이기승
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.88-95
    • /
    • 2006
  • 본 논문에서는 대화체 음성에 대한 음성 인식의 성능을 향상시키기 위한 방법으로, 고속 발화음에 대해 강인한 음성 인식 방법을 제안하고 성능을 평가하였다. 제안된 기법은 입력된 음성의 속도를 정량화하여 나타내기 위한 부가적인 음성 인식 과정이 필요치 않으며, 특정 대역내의 에너지 분포를 이용하여 모음 구간을 판정하고, 단위 시간당 모음의 개수를 구하여 음성의 속도를 측정하였다. 빠른 발성음에 대한 음성 인식의 성능을 향상시키기 위해, 기존의 방법은 표준 음소 길이와 측정된 음소 길이간의 비율을 이용하여 특징 벡터를 시간축으로 확장하였다. 제안된 방법에서는 발성 속도에 따라 음성을 분류하고, 분류된 음성에 대해 서로 다른 시간축 확장 비율을 정하도록 하였다. 여기서 분류에 필요한 문턱치들과 시간축 확장 비율들은 최대 우도 방법을 이용하여 구하였다. 10자리 이동 전화 번호에 대한 음성 인식의 실험 결과, 제안된 기법에 의해 전체적으로 $17.8\%$ 오류율이 감소되는 것을 확인할 수 있었다.