• 제목/요약/키워드: Variable-length utterance

검색결과 1건 처리시간 0.014초

가변 길이 입력 발성에서의 화자 인증 성능 향상을 위한 통합된 수용 영역 다양화 기법 (Integrated receptive field diversification method for improving speaker verification performance for variable-length utterances)

  • 신현서;김주호;허정우;심혜진;유하진
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.319-325
    • /
    • 2022
  • 화자 인증 시스템에서 입력 발성 길이의 변화는 성능을 하락시킬 수 있는 대표적인 요인이다. 이러한 문제점을 개선하기 위해, 몇몇 연구에서는 시스템 내부의 특징 가공 과정을 여러가지 서로 다른 경로에서 수행하거나 서로 다른 수용 영역(Receptive Field)을 가진 합성곱 계층을 활용하여 다양한 화자 특징을 추출하였다. 이러한 연구에 착안하여, 본 연구에서는 가변 길이 입력 발성을 처리하기 위해 보다 다양한 수용 영역에서 화자 정보를 추출하고 이를 선택적으로 통합하는 통합된 수용 영역 다양화 기법을 제안한다. 제안한 통합 기법은 입력된 특징을 여러가지 서로 다른 경로에서 다른 수용 영역을 가진 합성곱 계층으로 가공하며, 가공된 특징을 입력 발성의 길이에 따라 동적으로 통합하여 화자 특징을 추출한다. 본 연구의 심층신경망은 VoxCeleb2 데이터세트로 학습되었으며, 가변 길이 입력 발성에 대한 성능을 확인하기 위해 VoxCeleb1 평가 데이터 세트를 1 s, 2 s, 5 s 길이로 자른 발성과 전체 길이 발성에 대해 각각 평가를 수행하였다. 실험 결과, 통합된 수용 영역 다양화 기법이 베이스라인 대비 동일 오류율을 평균적으로 19.7 % 감소시켜, 제안한 기법이 가변 길이 입력 발성에 의한 성능 저하를 개선할 수 있음을 확인하였다.