DeepSeek热潮引爆春节：它究竟如何重塑AI产品格局？

从工程应用的角度看，DeepSeek为国内AI领域开辟了一条全新技术路径，其成本优势、开源及私有化部署能力为医疗、金融等对数据安全要求极高的行业提供了有力支撑。

圆圆的小袁

1001人浏览 · 2025-02-06 17:15:40

圆圆的小袁 · 2025-02-06 17:15:40 发布

春节期间，朋友圈被“DeepSeek风暴”席卷，大家纷纷传递一个信息：国内AI迎来了重磅突破。但对于大多数互联网从业者来说，DeepSeek的突破究竟能带来哪些实际帮助，往往让人感觉扑朔迷离。

归根结底，源于那篇Attention is All You Need论文的启发，各大自媒体争相聚焦DeepSeek，信息泛滥，真假难辨。经过阅读超过100篇相关文章，包括官方文档和大量第三方解读后，我的结论是：真正理解DeepSeek内涵的博主故意低调，而不了解的人则不断科普，夹杂着大量标题党，致使信息混杂不清。

因此，经过近10天的广泛调研，我整理出一些个人见解，与大家共同探讨，如有不当之处，欢迎指正。

一、优异的表现

在我看来，DeepSeek-R堪称国内首款直面ChatGPT、且成绩斐然的模型。数据表现十分亮眼：

尽管早期大模型常被过度宣传，但在实际测试中，我对其效果给予了相当高的评价，这种体验实在令人震撼。

二、支持私有化部署

DeepSeek不仅具备低成本和开源优势，其开放训练手册也大大降低了学习门槛，为新的应用场景带来了机遇：

依托deepseek-R1模型，加上优质数据，通过工程手段或微调技术，效果甚至可与依赖GPT的方案相媲美。
值得一提的是，deepseek-R1支持私有化部署，这为医疗、金融等对安全性要求极高的行业提供了解决方案。

不过，研发初期我依然坚持：面向未来半年，依托最强模型是研发的出路。

三、显著的成本优势

早在24年5月，DeepSeek便推出了名为V2的开源版本，其性价比令人瞩目：
推理成本仅为Llama3 70B的约七分之一、GPT-4 Turbo的约七十分之一。

大模型的成功离不开三大要素：数据（数据供应商是否通用？）、算法、算力。
不同于其他厂商，DeepSeek提出了全新的MLA架构，将显存占用降低到传统MHA架构的5%-13%。同时，其独创的DeepSeekMoESparse结构将计算量压缩至极致，从而实现了成本的大幅下降。

事实上，在模型效果尚可的前提下，私有化部署与低成本优势为DeepSeek带来了明显的市场领先地位。

因为在实际应用中，用户关注的核心依然是【效果】和【成本】。

四、创新更多体现在训练与推理优化

就目前公开的信息来看，DeepSeek并未在底层模型或技术架构上大幅创新，更多的突破体现在训练、推理优化以及中间件创新上。
其开源模型主要依托自研架构，但具体细节尚未完全公开，这部分内容未来或将进一步揭示。

同时，DeepSeek借助已有的开源代码和成熟语料，避免了从零开始研发和数据收集的高昂成本。

五、模型蒸馏技术的核心作用

最为关键的一点在于，通过模型蒸馏，DeepSeek能从更大、更复杂的模型（例如GPT）中提取核心知识和能力，而不必从零开始训练。
这一方法显著降低了训练所需的计算资源和成本，同时保持了较高的模型性能。此外，训练和推理过程中的优化以及中间件的改进也为整体效果提升打下了坚实基础。

六、MoE架构的成功应用

例如，DeepSeek-V3采用了混合专家（MoE）架构，拥有6710亿参数，每个词元激活370亿参数。
可以将混合专家架构视为工程上的一大优化：
系统由众多专精于不同领域的“小模型”构成，当用户提出问题时，系统先进行意图识别，再通过路由机制调度最适合的专家模型生成答案；若问题涉及多个领域，则多个专家协同输出，最后由一个略大些的模型整合成完整回答。
这种设计不仅确保了各领域的准确回答，还通过灵活路由提升了整体效率。

七、强化学习的作用

在强化学习方面，DeepSeek的创新可能主要集中在优化训练过程和提高效率。
通过设计智能奖励函数和压缩状态空间，DeepSeek有望减少训练成本，加速策略收敛。此外，结合多任务学习，这一方法还能够在不同任务间共享经验，提升整体训练效率。
在实际应用中，强化学习还能用于优化自动决策和资源调度，增强系统在复杂场景下的适应能力。

一个不太恰当的比喻

基于上述信息，我们大致可以勾勒出DeepSeek成功的全貌，借用一个比喻来说明：

黄裳（OpenAI）通过采集大量武学秘籍，创制了顶级武学《九阴真经》（GPT系列）；
黄药师（DeepSeek）通过对《九阴真经》的深度学习（模型蒸馏），研制出效果接近原版的“速成版”；
张无忌则利用“速成版”结合自身武学修为（如强化学习、MoE架构等），最终炼就了《太玄经》；
而《太玄经》不仅不逊色于《九阴真经》，还开源共享，催生了侠客岛（开源社区），供后来人修炼；

此处仅代表个人从工程角度的一些思考，欢迎各位批评指正。

工程应用视角下的关注点

从工程应用角度看，DeepSeek带来了两大核心意义：

首先，我们拥有了一个与GPT相媲美的国产基座模型，这对行业意义非凡。
由于数据安全考虑，医疗、金融等领域对数据外泄严格限制，而DeepSeek的出现打破了这一局限。

其次，DeepSeek不仅开源、支持私有化部署，还显著降低了训练成本。
过去许多公司依赖API进行开发，原因在于找不到合适的基座模型且训练成本过高，而DeepSeek的面世为这一困局提供了解决思路。

站在工程应用角度，基座模型的选择主要依据以下三个标准：

谁的效果更好，谁就是首选；
谁更经济实惠，谁就更有优势；
根据政策和行业需求，选用合规的方案。

DeepSeek对技术选型的深远影响

之前较为主流的AI产品开发路径主要有两种：

直接调用API接口；
基于API再叠加RAG技术进行增强。

而DeepSeek的成功，意味着技术路径选择将更加多样化，进一步加速国内AI应用的爆发式发展。

以下是几个可以应用到AI产品中的关键技术，例如在构建AI律师系统时可能会涉及到：

技术	应用场景	优势	适用领域
意图识别与路由系统	分析用户输入，精准定位法律问题领域	提升响应速度与答案准确性	法律问答、智能客服、个性化法律服务
模型蒸馏技术	将大型复杂模型知识迁移至小型高效模型	节省资源、降低成本且保持高性能	合同审查、案件处理等法律小型推理模型
微调技术	针对特定法律领域进行深度调整	增强特定领域理解和处理能力	法律文书分析、合同生成、案件研究
混合专家（MoE）架构	针对多领域法律问题使用专业模型分工协作	提高整体效率和准确性	多领域法律问答、跨领域法律咨询
强化学习优化	优化决策流程和资源调度	加强自适应能力、降低训练成本	自动化合同生成、法律推理与决策

在探讨AI爆发路径时，提示词、RAG与微调的选择成为关键问题。

提示词 VS RAG VS 微调

在AI实际落地过程中，提示词、RAG（检索增强生成）和微调各自有其特点与适用场景：

对比维度	提示词	RAG	微调
基本定义	优化输入文本，引导模型生成预期结果	结合外部检索系统扩充上下文信息	利用特定领域数据对模型进行二次训练
开发成本	极低，无需改动模型	中等，需搭建检索与存储系统	高，需要大量高质量数据和计算资源
技术复杂度	较低	中等，需整合检索与模型	较高，涉及数据清洗、标注和训练
适用场景	轻量级应用，如客服对话、文案生成	知识实时更新场景，如医疗、法律咨询	高精度需求场景，如金融分析、专业问答
优点	快速、简单、成本低	强化知识扩展能力	精确定制化，满足专业领域要求
局限性	基于基础模型能力有限	依赖检索系统与知识库质量	开发周期长、成本高、更新不便
响应速度	快速响应	较快，但受限于检索效率	相对较慢，需要完成预训练
扩展性	高，直接基于现有模型	中等，需维护知识库更新	低，每次更新都需重新训练

从底层来看，提示词、RAG与微调都在调节模型输入输出权重，但作用深度各不相同：

提示词：通过优化输入文本，激活模型已有权重的最佳组合，属于浅层引导；
RAG：引入额外上下文信息，动态扩展输入，改变模型权重分布；
微调：直接调整模型参数，深层次改变模型能力。

总之，DeepSeek的出现，为各公司在技术选型上提供了更多可能，开发者应根据具体业务场景灵活选择最佳路径。

结语

当然，尽管DeepSeek技术上具有明显优势，其在实际工程落地中仍面临挑战：

一、行业定制化与快速部署

如何将DeepSeek的技术优势与各行业的特定需求深度融合，是关键课题。
例如，在法律、医疗等领域，除了要求高效的知识检索和推理能力，还必须确保结果的准确性和可靠性，这要求开发团队在数据清洗、领域知识注入和模型微调上投入更多精力。同时，私有化部署虽解决了数据安全问题，但如何实现从模型训练到推理服务的无缝对接，仍需在工程架构上做出进一步优化。