의미적 정보를 보존하는 지식 증류에 대한 연구

A study on knowledge distillation to preserve semantic information

  • 박성현 (고려대학교 사이버국방학과) ;
  • 이상근 (고려대학교 정보보호대학원)
  • Seong-hyun Park (Dept of cyber defense, Korea university) ;
  • Sangkyun Lee (School of Cybersecurity, Korea university)
  • 발행 : 2024.05.23

초록

의미적 정보까지 학생 모델에게 학습시키기 위한 지식 증류 기법은 많이 논의되어 왔다. 그러나 학생 모델의 용량이 교사 모델의 용량에 비해 부족함에서 발생하는 의미적 정보 손실에 대한 논의는 아직 진행되지 않았다. 본 논문에서는 의미적 정보의 최소 단위를 교사 모델의 레이어로 설정하여 학생 모델이 지식 증류를 시작하기 전 최적의 지식 증류 대상을 설정하는 최적 은닉층 선정 알고리즘을 제시한다.

키워드

참고문헌

  1. Liang, Chen, et al. "Less is more: Task-aware layer-wise distillation for language model compression." Proceedings of the 40thInternational Conference on Machine Learning, Honolulu Hawaii USA, 2023, 20852-20867.
  2. Liang, Chen, et al. "Module-wise Adaptive Distillation for Multimodality Foundation Models." Advances in Neural Information Processing Systems, New Orleans USA, 2023, 69719-69735.
  3. Pasad, Chou, et al. "Layer-wise analysis of a self-supervised speech representation model." 2021IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), Cartagena, Colombia, 2021, 914-921