DeepSeek核心技术浅谈

DeepSeek三个版本的区别：满血版本：DeepSeek完整的版本，性能强大但计算开销大。量化版本：模型不变，通过降低参数精度，提高推理效率。蒸馏版本：将大模型的知识压缩到更小的模型中，性能稍弱但轻便高效。

轩辰422

554人浏览 · 2025-02-26 20:38:57

轩辰422 · 2025-02-26 20:38:57 发布

DeepSeek三个版本的区别：

满血版本：DeepSeek完整的版本，性能强大但计算开销大。

量化版本：模型不变，通过降低参数精度，提高推理效率。

蒸馏版本：将大模型的知识压缩到更小的模型中，性能稍弱但轻便高效。

一、提前预热：提前需要知道的背景知识

传统机器学习理论:模型复杂度增加时，测试误差先下降后上升。

现代机器学习实践:在过参数化的深度学习中测试误差会再次下降，形成“双下降“曲线，这成为大模型研究的重要动机之一。

大模型的过参数化:参数量远超过了拟合训练数据所需的最小参数量，但学习到的模型可能只存在于一个低本质维度的子空间中。这是Deepseek模型结构创新的重要前提。

机器学习模型：一种映射，在给定输入情况(x)下、输出一定结果的函数f(x)。

机器学习：根据反馈信号调整模型的参数，以使模型的表现符合预期。

两种常见的机器学习策略：监督学习，强化学习

监督学习：相当于老师手把手教你做题，直接告诉你解题思路

        优势:学习目标明确，训练效率高，易收敛
        劣势:依赖标注数据，泛化能力受限

强化学习：只告诉你答案是否正确，不指导解题思路

        优势:无需标注数据，可处理开放性问题
        劣势:需大量试错，训练效率低，难收敛