李飞飞&DeepSeek都在用!模型蒸馏爆火!在CVPR上杀疯了...
被李飞飞成本不到150元的推理模型s1震撼到了,甚至他们只花了26分钟...研读后发现秘诀只有一个:蒸馏。简单来说,就是将谷歌Gemini 2.0的推理能力蒸馏到阿里Qwen2.5模型中,得到s1,效果媲美DeepSeek-R1和OpenAI o1。不得不赞叹的强大,这种将大模型知识迁移到小模型上的技术,在降低训练和部署成本方面遥遥领先。这也是它成为s1秘诀和DeepSeek核心技术的原因,非常贴
被李飞飞成本不到150元的推理模型s1震撼到了,甚至他们只花了26分钟...研读后发现秘诀只有一个:蒸馏。简单来说,就是将谷歌Gemini 2.0的推理能力蒸馏到阿里Qwen2.5模型中,得到s1,效果媲美DeepSeek-R1和OpenAI o1。
不得不赞叹模型蒸馏的强大,这种将大模型知识迁移到小模型上的技术,在降低训练和部署成本方面遥遥领先。这也是它成为s1秘诀和DeepSeek核心技术的原因,非常贴合当下“技术普惠”的发展趋势,研究前景明确。
当前,模型蒸馏仍然是深度学习领域的热点,但成熟度比较高。如果论文er们想有所创新,建议聚焦细分方向,比如蒸馏算法效率、稳定性提升、与量化/剪枝等技术的协同优化。我整理了9篇模型蒸馏前沿论文,顶会(尤其CVPR)多,基本都有代码,大家可以参考这些思路找idea。
全部论文+开源代码需要的同学看文末
Logit Standardization in Knowledge Distillation
方法:论文提出了一种新的模型蒸馏方法,通过Logit标准化预处理,解决了传统蒸馏中教师和学生模型共享温度导致的Logit匹配问题,使学生模型能更好地学习教师模型的内在关系,显著提升了蒸馏性能。
创新点:
-
首次提出教师和学生在知识蒸馏过程中可以使用不同的温度值,而不必共享一个全局预定义温度。
-
提出了一种Z-score逻辑标准化预处理方法,作为一种简单的插入式改进,能够显著提升现有逻辑值基础上的知识蒸馏方法的效果。
Adversarial Diffusion Distillation
方法:论文提出了一种名为ADD的模型蒸馏方法,将预训练的扩散模型转化为仅需1-4步采样即可生成高质量图像的快速模型。通过结合对抗训练和分数蒸馏损失,ADD在单步生成中超越了现有快速生成方法,并在四步内超过了其教师模型SDXL的性能。
创新点:
-
提出了一种名为对抗扩散蒸馏的方法,将预训练的扩散模型转化为快速、少步的图像生成模型。
-
ADD实现了单步高质量图像生成,开启了基础模型在实时生成中的新可能性。
-
研究中使用了冻结的预训练特征网络和一组可训练的轻量级判别器头,这种设计增强了生成模型的评估能力。
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
方法:论文提出了一种名为PromptKD的视觉-语言模型蒸馏方法,通过提示学习将大型教师模型的知识迁移到轻量级学生模型,利用无标注数据进行蒸馏,提升学生模型性能。
创新点:
-
提出了一个无监督的领域提示蒸馏框架(PromptKD),首次实现了在CLIP模型中通过无监督的方法进行领域特定的提示驱动知识蒸馏。
-
利用CLIP独特的解耦模态特性,首次提出将预存的教师文本特征作为共享类向量,避免了文本分支的额外计算成本。
Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models
方法:论文提出了一种名为VPD的方法,将LLM的程序化推理能力蒸馏到VLM中。VPD通过生成多个候选程序,验证其正确性,并将正确的程序转化为自然语言推理步骤,最终将这些步骤蒸馏到VLM中,提升其推理能力。
创新点:
-
通过任务专属微调,实现了在所有基准上设定新的最先进状态,特别是在自由形式的视觉问答(VQA)任务中显著提高了模型性能。
-
引入了一种通过大规模语言模型(PaLM-2)生成多样性程序的方法。
-
VPD框架通过将大规模语言模型的推理能力与视觉工具的能力结合,合成训练数据以微调视觉语言模型(VLMs)。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“模型蒸馏”获取全部方案+开源代码
码字不易,欢迎大家点赞评论收藏
更多推荐
所有评论(0)