最近学到了知识蒸馏的相关知识,来简单总结一下૮꒰ ˶• ༝ •˶꒱ა。


 知识蒸馏 

       知识蒸馏,是一种模型压缩的手段。通过训练学生模仿教师的行为,将嵌入在大的教师模型中的知识迁移到小的学生模型。

例如,TinyBERT(Jiao et al.,2020)通过在通用领域的大规模语料库上执行通用的蒸馏,首次得到了一个通用的蒸馏小模型,然后在微调阶段用下游任务数据执行面向特定任务的蒸馏。DynaBERT通过从全量模型到小规模的子模型的知识蒸馏,训练了一个宽度自适应和深度自适应的BERT模型。

        知识蒸馏也可以用于剪枝,以提高性能,例如块剪枝(Lagunas et al,2021)和CoFi(Xia et al,2022)。

知识蒸馏与迁移学习的关系

知识蒸馏中的温度设置

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐