DOI QR코드

DOI QR Code

A Automated Method for Training Keyword Spotter based on Speech Synthesis

키워드 음성인식을 위한 음성합성 기반 자동 학습 기법

  • Lim, Jaebong (School of Computer Science and Engineering, Pusan National University) ;
  • Lee, Jongsoo (School of Computer Science and Engineering, Pusan National University) ;
  • Cho, Yonghun (School of Computer Science and Engineering, Pusan National University) ;
  • Baek, Yunju (School of Computer Science and Engineering, Pusan National University)
  • 임재봉 (부산대학교 컴퓨터공학과) ;
  • 이종수 (부산대학교 컴퓨터공학과) ;
  • 조용훈 (부산대학교 컴퓨터공학과) ;
  • 백윤주 (부산대학교 컴퓨터공학과)
  • Published : 2021.05.12

Abstract

최근 경량 딥러닝 기반 키워드 음성인식은 가전, 완구, 키오스크 등 다양한 응용에 음성 인터페이스를 쉽게 적용할 수 있는 기술로서 주목받고 있다. 키워드 음성인식은 일부 키워드만 인식 가능한 음성인식 기술로서 저성능 디바이스에서 활용 가능한 장점이 있다. 그러나 응용에 따라 필요한 키워드에 대하여 다시 음성데이터를 수집해야하고 이를 학습하여 모델을 새로 준비해야하는 단점이 있다. 따라서 본 연구에서는 음성데이터 수집 없이 음성합성을 통해 생성한 음성으로만 키워드 음성인식 모델을 학습하는 음성합성 기반 자동 학습 기법을 제안하였다. 생성한 음성데이터를 활용하고자하는 시도가 활발히 이루어지고 있으나, 기존 연구에서는 정확도를 유지하기 위하여 수집한 실제 음성데이터가 필요한 한계가 있다. 제안한 자동 학습 기법은 생성한 음성데이터에 대해 복합 데이터 증대 기법을 적용하여 실제 음성데이터 없이 키워드 음성인식의 정확도를 높였다. 제안한 기법에 대하여 상용 음성합성 서비스를 기반으로 수집한 한국어 키워드 데이터세트를 활용하여 성능평가를 진행하였다. 20개 한국어 키워드에 대해 실험한 결과, 제안한 기법을 적용하여 학습시킨 키워드 음성인식 모델의 정확도는 86.44%임을 확인하였다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2020-0-01117, 로컬 음성인식을 위한 머신러닝 기반 초소형 모듈 개발)