大家热议的 Deepseek v3 究竟好不好用？

（注：本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费）从成本到性能的全方位解析。火热你知道的，最近 Deepseek 推出了 v3 版本，挺火的。这款模型因其低成本、高性能而备受关注。但是这款模型到底怎么样，都能帮你做什么呢？今天咱们就系统地讲讲它有哪些厉害之处。我们会从搜索、翻译、知识库综合和文本润色等多项任务入手，给你详细介绍它的能力。成本我们先聊聊，它为什么让大

nkwshuyi

1371人浏览 · 2025-01-16 19:39:43

nkwshuyi · 2025-01-16 19:39:43 发布

（注：本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费）

从成本到性能的全方位解析。

火热

你知道的，最近 Deepseek 推出了 v3 版本，挺火的。这款模型因其低成本、高性能而备受关注。

但是这款模型到底怎么样，都能帮你做什么呢？今天咱们就系统地讲讲它有哪些厉害之处。我们会从搜索、翻译、知识库综合和文本润色等多项任务入手，给你详细介绍它的能力。

成本

我们先聊聊，它为什么让大伙儿那么感兴趣。最直观的一点，就是便宜。

当然了，如今的大模型，价格都卷成啥样了，想必你有切身感受 —— 别说便宜，免费的都有不少。

这是我在 Openrouter 里面设定过滤器为「免费」，能找到 26 个模型，而且还包括 Gemini 2.0 这样的绝对主力。

那么 Deepseek 的便宜为什么让人印象深刻？

因为，在目前的价格定位上，它居然能盈利。

这是我让大语言模型做的分析，你对比看看就知道，这是价格量级的差异。

那么为什么 Deepseek 把价格定到同等级模型的 1/10 ，还能盈利呢？

因为它的训练和推断，那是真省钱啊。

DeepSeek V3 是一款具有 6710 亿参数（671B）的混合专家模型（MoE），其训练成本仅为 557.6 万美元，使用了 280 万个 GPU 小时。这一成本显著低于其他同等级的大模型。例如 Llama 3 405B 的训练成本约 3080 万 GPU 小时，是 DeepSeek V3 的训练成本的大约 11 倍。而 OpenAI 的 CEO Sam Altman 也提到，GPT-4 的训练成本超过 1 亿美元。

DeepSeek-V3 把训练费用降低得这么夸张，主要依靠多项技术创新和优化策略的有效协同，让它在性能与资源投入之间找到了理想的平衡点。

咱们找重点简单说说。

在训练精度上，DeepSeek-V3 引入了「FP8 混合精度训练」—— 这是一种将计算精度降低到 8 位浮点数的方式。它能显著减少 GPU 内存和计算量，让数据处理更高效。与传统浮点精度相比，FP8 在保证模型稳定性的同时，也有效降低了对硬件的负担。

在模型架构上，DeepSeek-V3 使用了「混合专家（MoE）」机制。简单来说，每个输入 token 在模型内部只会激活一部分专家网络（总共有 37B 参数，但每次只用到其中的一部分），这样就能大幅降低实际计算需求，同时依然维持高水平的性能。稀疏激活策略让模型充分利用参数，却不会让系统承担过重的计算负担。

另外，DeepSeek-V3 还融合了「多头潜在注意力（MLA）」方案，这是在传统多头注意力基础上，对「键」和「值」进行压缩的方法。这样不仅能加快注意力计算过程，在处理相隔较远的文本上下文时也更具针对性，从而兼顾训练速度与理解深度。

当然了，除此之外，Deepseek 还综合使用了「多令牌预测（MTP）」和「DualPipe 双向流水线」等黑科技。鉴于相关技术细节有些复杂，咱们就不赘述了。

当计算资源被限制时，Deepseek 居然独立自主从技术上突破，这不得不让很多拥有充足资源的国际同行们刮目相看。

成本降低，并没有以能力的妥协为代价。在 Chatbot Arena LLM Leaderboard 上，Deepseek v3 妥妥位列第一梯队。