DOI QR코드

DOI QR Code

트랜스포머 기반 모델의 한국어 음성인식 성능 비교 연구

A comparative study on the performance of Transformer-based models for Korean speech recognition

  • 오창한 (한국전자통신연구원 복합지능연구실) ;
  • 김민서 (한국외국어대학교 ELLT학과) ;
  • 박기영 (한국전자통신연구원 복합지능연구실) ;
  • 송화전 (한국전자통신연구원 복합지능연구실)
  • Changhan Oh (Integrated Intelligence Research Section, Electronics and Telecommunications Research Institute (ETRI)) ;
  • Minseo Kim (Department of English Linguistics & Language Technology (ELLT), Hankuk University of Foreign Studies) ;
  • Kiyoung Park (Integrated Intelligence Research Section, Electronics and Telecommunications Research Institute (ETRI)) ;
  • Hwajeon Song (Integrated Intelligence Research Section, Electronics and Telecommunications Research Institute (ETRI))
  • 투고 : 2024.05.16
  • 심사 : 2024.07.24
  • 발행 : 2024.09.30

초록

트랜스포머 모델은 텍스트, 영상 등 순차적 입력 데이터에서 의미 있는 정보를 추출하는 데 뛰어난 성과를 보여주었으며, 음성인식 분야에서도 종단형 모델로서 주목받고 있다. 본 연구에서는 트랜스포머 음성인식 모델과 이를 개선한 컨포머, E-브랜치포머 모델을 한국어 음성인식에 적용하여 성능을 비교하였다. AIHub에 공개된 한국어 음성 데이터를 활용하여 약 7,500시간의 훈련셋을 마련하고, ESPnet 툴킷을 활용하여 트랜스포머, 컨포머, E-브랜치포머 모델을 훈련하고 성능을 평가하였다. 또한, 인식 단위로 음절과 서브워드를 사용하는 경우를 비교하고, Byte Pair Encoding의 토큰 수 변화에 따른 성능 차이를 분석하였다. 실험 결과, E-브랜치포머가 한국어 음성인식에서 가장 우수한 성능을 보였으며, 컨포머는 트랜스포머보다 우수하였으나 긴 발화에 대해서는 성능 저하가 확인되었다. 이러한 성능 저하의 원인으로 인코더-디코더의 크로스 어텐션 정렬 과정에 오차가 발생함을 확인하였다. 또한, 서브워드 인식 단위를 사용하면서 토큰 수를 조정할 때의 성능 변화에 대한 분석을 통해 최적의 설정을 찾고자 하였다. 본 연구는 모델의 정확도와 처리 속도를 종합적으로 평가하였으며, 이를 통해 한국어 음성인식의 효율성을 극대화할 수 있는 방법을 모색하였다. 대규모 한국어 음성인식 모델의 학습과 컨포머의 인식 오류 개선 연구에 기여할 수 있을 것으로 기대된다. 또한, 향후 연구 방향으로는 다양한 한국어 음성 데이터셋을 활용한 추가 실험과 더불어, 컨포머의 구조적 개선을 통한 인식 성능 향상을 목표로 한다.

Transformer models have shown remarkable performance in extracting meaningful information from sequential input data such as text and images, and are gaining attention as end-to-end models for speech recognition. This study compared the performances of the Transformer speech recognition model and its enhanced versions, the Conformer and E-Branchformer, when applied to Korean speech recognition. Using Korean speech data from AIHub, we prepared a training set of approximately 7,500 hours and evaluated the models using the ESPnet toolkit. Additionally, we compared syllables and subwords as recognition units and analyzed the performance differences with changes in the number of tokens using Byte Pair Encoding. The results showed that the E-Branchformer achieved the best performance in Korean speech recognition and Conformer outperformed Transformer but degraded in performance for long utterances owing to cross-attention alignment errors. We aimed to determine the optimal settings by analyzing the performance changes with subword token adjustments. This study comprehensively evaluated model accuracy and processing speed to maximize the efficiency of Korean speech recognition. This is expected to contribute to the training of large-scale Korean speech recognition models and improve Conformer recognition errors. Future research should include additional experiments with diverse Korean speech datasets and enhance the recognition performance through structural improvements in the Conformer.

키워드

과제정보

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단과 과학기술사업화진흥원의 지원을 받아 수행된 연구임(RS-2023-00237117).

참고문헌

  1. Bain, M., Huh, J., Han, T., & Zisserman, A. (2023, August). WhisperX: Time-accurate speech transcription of long-form audio. Proceedings of the Interspeech 2023 (pp. 4489-4493). Dublin, Ireland. 
  2. Bang, J. U., Yun, S., Kim, S. H., Choi, M. Y., Lee, M. K., Kim, Y. J., Kim, D. H., ... Kim, S. H. (2020). KsponSpeech: Korean spontaneous speech corpus for automatic speech recognition. Applied Sciences, 10(19), 6936. 
  3. Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). Generating long sequences with sparse Transformers. arXiv. https://doi.org/10.48550/arXiv.1904.10509. 
  4. Choi, H., Choi, M., Kim, S., Lim, Y., Lee, M., Yun, S., Kim, D., ... Kim, S. H. (2024). Spoken-to-written text conversion for enhancement of Korean-English readability and machine translation. ETRI Journal, 46(1), 127-136.  https://doi.org/10.4218/etrij.2023-0354
  5. Conneau, A., Ma, M., Khanuja, S., Zhang, Y., Axelrod, V., Dalmia, S., Riesa, J., ... Bapna, A. (2023, January). Fleurs: Few-shot learning evaluation of universal representations of speech. Proceedings of the 2022 IEEE Spoken Language Technology Workshop (SLT) (pp. 798-805).Doha, Qatar.
  6. Dong, L., Xu, S., & Xu, B. (2018, April). Speech-Transformer: A no-recurrence sequence-to-sequence model for speech recognition. Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 5884-5888). Calgary, AB.
  7. Gulati, A., Qin, J., Chiu, C. C., Parmar, N., Zhang, Y., Yu, J., Han, W., ... Pang, R. (2020, October). Conformer: Convolution-augmented Transformer for speech recognition. Proceedings of Interspeech 2020 (pp. 5036-5040). Shanghai, China. 
  8. Kim, K., Wu, F., Peng, Y., Pan, J., Sridhar, P., Han, K. J., & Watanabe, S. (2023, January). E-Branchformer: Branchformer with enhanced merging for speech recognition. Proceedings of the 2022 IEEE Spoken Language Technology Workshop (SLT) (pp. 84-91). Doha, Qatar.
  9. Oh, C., Kim, C., & Park, K. (2023). Building robust Korean speech recognition model by fine-tuning large pretrained model. Phonetics and Speech Sciences, 15(3), 75-82.  https://doi.org/10.13064/KSSS.2023.15.3.075
  10. Peng, Y., Dalmia, S., Lane, I., & Watanabe, S. (2022, June). Branchformer: Parallel mlp-attention architectures to capture local and global context for speech recognition and understanding. Proceedings of the International Conference on Machine Learning (pp. 17627-17643). Baltimore, MD. 
  11. Peng, Y., Kim, K., Wu, F., Yan, B., Arora, S., Chen, W., Tang, J., ... Watanabe, S. (2023, August). A comparative study on E-Branchformer vs Conformer in speech recognition, translation, and understanding tasks. Proceedings of Interspeech 2023 (pp. 2208-2212). Dublin, Ireland. 
  12. Pan, J., Lei, T., Kim, K., Han, K. J., & Watanabe, S. (2022, May). SRU++: Pioneering fast recurrence with attention for speech recognition. Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 7872- 7876). Singapore, Singapore. 
  13. Park, K., Oh, C., & Dong, S. (2024). KMSAV: Korean multi-speaker spontaneous audiovisual dataset. ETRI Journal, 46(1), 71-81.  https://doi.org/10.4218/etrij.2023-0352
  14. Shaw, P., Uszkoreit, J., & Vaswani, A. (2018, June). Self-attention with relative position representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers) (pp. 464-468). New Orleans, Louisiana. 
  15. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L, ... Polosukhin, I. (2017, Deccember). Attention is all you need. Proceedings of the Advances in Neural Information Processing Systems 30 (NIPS 2017). Long Beach, CA. 
  16. Watanabe, S., Hori, T., Karita, S., Hayashi, T., Nishitoba, J., Unno, Y., Enrique Yalta Soplin, N., ... Ochiai, T. (2018, September). ESPnet: End-to-end speech processing toolkit. Proceedings of the Interspeech 2018 (pp. 2207-2211). Hyderabad, India.