What is DeepSeek? And How Is It Upending A.I.? - The New York Times

一、模型压缩(知识蒸馏)

为什么需要模型压缩(知识蒸馏)?大型深度神经网络在大数据场景下表现出色,但因其复杂性和高资源需求,在移动和嵌入式设备上部署面临挑战。

为解决此问题,模型压缩技术应运而生,其中知识蒸馏是重要方法。该方法由Bucilua等人(2006)率先提出,后由Hinton等人(2015)正式推广。

知识蒸馏的核心思想是让小型学生模型模仿大型教师模型,以达到或超越其性能。关键在于有效转移教师模型的知识到学生模型。

img

知识蒸馏包含哪些组件?知识蒸馏系统由三个关键组件组成,知识、蒸馏算法和教师-学生架构。知识蒸馏的一般教师-学生框架如图所示。

  1. 知识: 教师模型学到的复杂模式和特征,表现为输出或中间层特征,将被传递给学生模型。
  2. 蒸馏算法:负责将教师模型的知识有效地转移到学生模型中。
  3. 教师-学生架构:包括一个复杂且性能优越的教师模型和一个结构相对简单的学生模型。教师模型负责提供知识,而学生模型则通过学习教师模型的输出来提升自身性能。img

二、蒸馏算法

常用的蒸馏算法有哪些?常见的蒸馏算法包括基于响应的知识蒸馏(关注教师模型的最终预测结果)、基于特征的知识蒸馏(关注教师模型的中间层特征表示)以及基于关系的知识蒸馏(探索教师模型内部不同层或不同样本之间的关系)。

  • 基于响应的知识蒸馏:通过模仿教师模型最后一层输出的神经响应(如软标签),将教师模型的知识有效转移到学生模型中的方法,特别适用于模型压缩,并广泛应用于不同任务,但局限于监督学习和最后一层输出的依赖。

img

  • 基于特征的知识蒸馏:通过匹配教师模型和学生模型的中间层特征表示来传递知识,从而提升学生模型性能的方法,涉及多种特征匹配技术和蒸馏损失函数。

img

  • 基于关系的知识蒸馏:通过探索和利用教师模型中不同层或数据样本之间的关系来传递知识,从而提升学生模型性能的方法。

img

DeepSeek如何应用知识蒸馏?DeepSeek应用基于响应的知识蒸馏进行知识的传递与迁移。它模仿教师模型(通常是参数众多、性能强大的大模型)的输出,以此来训练学生模型(相对参数较少、更为轻量级的小模型)。

为了更容易理解DeepSeek应用的基于响应的知识蒸馏,Hinton(深度学习之父,杰弗里·辛顿)2015年给出了一个基准模型,即标准的知识蒸馏模型,它结合了蒸馏损失和学生损失。

1.教师模型(Teacher Model):已训练好的复杂模型,提供软目标(类概率),包含正则化约束和类间相似性信息(暗知识)。

  1. 学生模型(Student Model):需要学习的轻量化模型,通过蒸馏训练获取教师模型的知识。

  2. 蒸馏算法(Distillation Algorithm):学生模型模仿教师模型输出或中间层特征的机制,决定学生模型学习教师模型知识的程度。

  3. 损失函数(Loss Function):学生损失,学生模型与真实标签之间的损失;蒸馏损失,学生模型与教师模型软目标之间的损失。两者共同作用于学生模型的训练过程。

img

我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!

❗️为什么你必须了解大模型?

1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI

(附深度求索BOSS招聘信息)
在这里插入图片描述

⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐