A study on knowledge distillation to preserve semantic information

의미적 정보를 보존하는 지식 증류에 대한 연구

  • Seong-hyun Park (Dept of cyber defense, Korea university) ;
  • Sangkyun Lee (School of Cybersecurity, Korea university)
  • 박성현 (고려대학교 사이버국방학과) ;
  • 이상근 (고려대학교 정보보호대학원)
  • Published : 2024.05.23

Abstract

의미적 정보까지 학생 모델에게 학습시키기 위한 지식 증류 기법은 많이 논의되어 왔다. 그러나 학생 모델의 용량이 교사 모델의 용량에 비해 부족함에서 발생하는 의미적 정보 손실에 대한 논의는 아직 진행되지 않았다. 본 논문에서는 의미적 정보의 최소 단위를 교사 모델의 레이어로 설정하여 학생 모델이 지식 증류를 시작하기 전 최적의 지식 증류 대상을 설정하는 최적 은닉층 선정 알고리즘을 제시한다.

Keywords

References

  1. Liang, Chen, et al. "Less is more: Task-aware layer-wise distillation for language model compression." Proceedings of the 40thInternational Conference on Machine Learning, Honolulu Hawaii USA, 2023, 20852-20867.
  2. Liang, Chen, et al. "Module-wise Adaptive Distillation for Multimodality Foundation Models." Advances in Neural Information Processing Systems, New Orleans USA, 2023, 69719-69735.
  3. Pasad, Chou, et al. "Layer-wise analysis of a self-supervised speech representation model." 2021IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), Cartagena, Colombia, 2021, 914-921