그림 1. 시스템 흐름도 Fig. 1. System flowchart
그림 2. 심층신경망 구성도 Fig. 2. Structure of deep neural network
그림 4. 스피커와 마이크의 배치 [6] FIg. 4. Array of speaker and microphone
그림 5. 잔향 환경의 음원에 대한 사운드 보간 기법의 스펙트럼 예시 Fig. 5. Spectrum example based on the sound generated by room impulse response
그림 3. 머리전달함수 합성 음원에 대한 스펙트럼 예시 Fig. 3. Spectrum example based on the sound generated by head-related transfer function
표 1. 머리전달함수 기반 합성음원에 대한 사운드 보간 기법의 음성 데이터 RMSE 결과 Table 1. RMSE result of speech data based on the sound generated by head-related transfer function
표 2. 머리전달함수 기반 합성음원에 대한 사운드 보간 기법의 스펙트럼 RMSE 결과 Table 2. RMSE result of spectrum magnitude based on the sound generated by head-related transfer function
표 3. 잔향 환경 음원에 대한 사운드 보간 기법의 RMSE 결과 Table 3. RMSE result based on the sound generated by room impulse response
References
- Veaux Christophe, Yamagishi Junichi, and MacDonald Kirsten, "CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit," The Centre for Speech Technology Research (CSTR), 2016.
- V. Nair and G. E. Hinton, "Rectified linear units improve restricted Boltzmann machines," in Proc. 27th Int. Conf. Machine Learning, pp. 807-814, 2010.
- Vu Pham, Theodore Bluche, Christopher Kermorvant, and Jerome Louradour, "Dropout improves recurrent neural networks for handwriting recognition," Frontiers in Handwriting Recognition (ICFHR), 2014 14th International Conference, pp. 285-290, IEEE, 2014.
- D. P. Kingma and J. L. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.
- T. Qu, Z. Xiao, M. Gong, Y. Huang, X. Li, and X. Wu, "Distance dependent head-related transfer functions measured with high spatial resolution using a spark gap," IEEE Trans. on Audio, Speech and Language Processing, vol. 17, no. 6, pp. 1124-1132, 2009. https://doi.org/10.1109/TASL.2009.2020532
- J. Wen, N. Gaubitch, E. Habets, T. Myatt, P. Naylor, "Evaluation of speech dereverberation algorithms using the MARDY database", Proc. Int. Workshop Acoust. Echo Noise Control, pp. 1-4, 2006.