한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)
- 한국방송∙미디어공학회 2022년도 하계학술대회
- /
- Pages.851-853
- /
- 2022
STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습
Deep Learning-based Speech Voice Separation Training To Enhance STT Performance
- Kim, Bokyoung (Kyunghee University) ;
- Yang, Youngjun (Kyunghee University) ;
- Hwang, Yonghae (Kyunghee University) ;
- Kim, Kyuheon (Kyunghee University)
- 발행 : 2022.06.20
초록
인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.
키워드