Deep Learning-based Speech Voice Separation Training To Enhance STT Performance

Kim, Bokyoung;Yang, Youngjun;Hwang, Yonghae;Kim, Kyuheon;

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

2022.06a
/
Pages.851-853
/
2022

The Korean Institute of Broadcast and Media Engineers (한국방송∙미디어공학회)

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습

Kim, Bokyoung (Kyunghee University) ;
Yang, Youngjun (Kyunghee University) ;
Hwang, Yonghae (Kyunghee University) ;
Kim, Kyuheon (Kyunghee University)

김보경 (경희대학교) ;
양영준 (경희대학교) ;
황용해 (경희대학교) ;
김규헌 (경희대학교)

Published : 2022.06.20

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

Proceedings of the Korean Society of Broadcast Engineers Conference (한국방송∙미디어공학회:학술대회논문집)

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습

Abstract

Keywords