Deep Learning-based Speech Voice Separation Training To Enhance STT Performance

Kim, Bokyoung;Yang, Youngjun;Hwang, Yonghae;Kim, Kyuheon;

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

한국방송∙미디어공학회 (The Korean Institute of Broadcast and Media Engineers)

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance

김보경 (경희대학교) ;
양영준 (경희대학교) ;
황용해 (경희대학교) ;
김규헌 (경희대학교)

Kim, Bokyoung (Kyunghee University) ;
Yang, Youngjun (Kyunghee University) ;
Hwang, Yonghae (Kyunghee University) ;
Kim, Kyuheon (Kyunghee University)

발행 : 2022.06.20

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

한국방송∙미디어공학회:학술대회논문집 (Proceedings of the Korean Society of Broadcast Engineers Conference)

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습

Deep Learning-based Speech Voice Separation Training To Enhance STT Performance

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)