• 제목/요약/키워드: affricate recognition

검색결과 3건 처리시간 0.016초

변동성과 전환점에 기반한 한국어 음소 'ㅅ', 'ㅈ', 'ㅊ' 음성 인식 (Speech Recognition of Korean Phonemes 'ㅅ', 'ㅈ', 'ㅊ' based on Volatility and Turning Points)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권11호
    • /
    • pp.579-585
    • /
    • 2014
  • 음소는 음성을 구성하는 최소 단위로서 음성을 인식하는데 있어 매우 중요한 역할을 한다. 본 논문은 음소 기반 한국어 음성 인식의 일부로서, 한국어 음소 중 'ㅅ', 'ㅈ', 'ㅊ'에 대한 새로운 인식 방안을 제안한다. 제안하는 방식은 입력 음성 신호를 구성하는 각각의 블록에 대해 계산되는 변동성 지표와 전환점 지표에 기반한다. 변동성 지표는 블록 내의 인접한 샘플 값들의 차이의 총합이며, 전환점 지표는 블록 내에서 샘플 값의 증가와 감소의 방향이 전환되는 극점의 총수이다. 두 지표를 결합하여 음소 인식을 수행하는 인식 알고리즘은 두 지표와 관련하여 최적화된 임계치들을 활용하여 목표로 하는 세 가지 음소가 인식된 위치를 최종적으로 결정한다. 실험 결과를 통해, 제안하는 방식을 사용함으로써 기존의 방식들에 비해 FRR과 FAR의 관점에서 모두 오류율을 현저히 감소시킬 수 있음을 확인하였다.

저자원 환경의 음성인식을 위한 자기 주의를 활용한 음향 모델 학습 (Acoustic model training using self-attention for low-resource speech recognition)

  • 박호성;김지환
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.483-489
    • /
    • 2020
  • 본 논문에서는 저자원 환경의 음성인식에서 음향 모델의 성능을 높이기 위한 음향 모델 학습 방법을 제안한다. 저자원 환경이란, 음향 모델에서 100시간 미만의 학습 자료를 사용한 환경을 말한다. 저자원 환경의 음성인식에서는 음향 모델이 유사한 발음들을 잘 구분하지 못하는 문제가 발생한다. 예를 들면, 파열음 /d/와 /t/, 파열음 /g/와 /k/, 파찰음 /z/와 /ch/ 등의 발음은 저자원 환경에서 잘 구분하지 못한다. 자기 주의 메커니즘은 깊은 신경망 모델로부터 출력된 벡터에 대해 가중치를 부여하며, 이를 통해 저자원 환경에서 발생할 수 있는 유사한 발음 오류 문제를 해결한다. 음향 모델에서 좋은 성능을 보이는 Time Delay Neural Network(TDNN)과 Output gate Projected Gated Recurrent Unit(OPGRU)의 혼합 모델에 자기 주의 기반 학습 방법을 적용했을 때, 51.6 h 분량의 학습 자료를 사용한 한국어 음향 모델에 대하여 단어 오류율 기준 5.98 %의 성능을 보여 기존 기술 대비 0.74 %의 절대적 성능 개선을 보였다.

HMM기반 자동음소분할기의 음소분할 오류 유형 분석 (The Error Pattern Analysis of the HMM-Based Automatic Phoneme Segmentation)

  • 김민제;이정철;김종진
    • 한국음향학회지
    • /
    • 제25권5호
    • /
    • pp.213-221
    • /
    • 2006
  • 합성음의 음질을 향상시키기 위하여 분할된 corpora로부터 합성유닛을 선택하여 사용하는 연속음성합성에서 정확한 음소분할은 매우 중요하다. 일반적으로 음소분할은 사람에 의해 수행되지만 많은 작업량으로 인한 시간적 지연, 일관 성 유지 어려움 등 많은 문제가 발생한다. 이에 따라 음성인식에서 도입된 HMM 기반의 자동음소분할이 음성인식, 음성 합성에서 널리 사용되어지고 있지만 음성전문가의 수작업 결과와 비교할 때 HMM 기반 자동음소분할은 오류가 있고, 이는 합성음 품질의 열화의 주요 원인이 되고 있다. 본 논문에서는 HMM 기반의 자동음소분할기를 사용하여 나타난 자동음소분할 결과와 수작업에 의한 음소분할 결과를 비교하고 유형별로 분석함으로써 음성합성의 성능향상을 위해 개선해야 할 문제점들을 제시한다. 실험에서는 ETRI의 표준형 한국어 공통 음성 DB을 사용하였고, 오차의 범위가 20ms를 벗어난 경우를 분절 오류로 간주하였다. 실험 결과 여성화자의 경우 파열음 + 모음, 파찰음 + 모음, 모음 + 유음 음소쌍에서는 각각 약 99%, 99.5%, 99%의 높은 정확률을 보인 반면, 폐쇄음 + 비음, 폐쇄음 + 유음, 비음 + 유음 음소쌍에서는 44.89%, 50%, 55% 의 낮은 정확률을 보였으며, 남성화자에 대한 실험결과에서도 유사한 경향을 보였다.