DeepSeek 曾在 2025 年初凭借 V3 震撼了 AI 界,也让半个硅谷在那段日子里疯狂修改资本支出幻灯片,在经历了数月的沉寂后,DeepSeek V4 终于在 2026 年 4 月 24 日正式发布。

说实话,在此之前很多人甚至开始怀疑 DeepSeek 是不是不出新模型了。他们安静得让人以为要么是在憋大招,要么是撞上了瓶颈。结果证明是前者,起码大部分如此。

先说结论,毕竟如果是同事问我,我也会这么直白:DeepSeek V4 是目前市场上性价比最高的 AI 模型,但它并不是最强的编程工具。 如果你有海量的任务要处理,选它准没错;但如果你面临的是硬核难题,Claude 或 GPT-5.5 或许是更好的选择。

DeepSeek V4 到底是个啥?

DeepSeek V4 并非单一模型,而是双版本发布。两者均为权重开放(Open Weights)、采用 MIT 协议,且默认支持 100 万 token 的超长上下文窗口。

核心规格对比

特性

V4-Pro

V4-Flash

总参数量

1.6T

284B

单 token 激活参数

49B

13B

上下文长度

1M

1M

输入价格 (每百万 token)

$1.74

$0.14

输出价格 (每百万 token)

$3.48

$0.28

开源协议

MIT

MIT

V4-Pro 拥有 1.6 万亿参数,是目前市面上参数量最大的开放权重模型。

它的架构是全新的,DeepSeek 开发了一套混合注意力系统(CSA + HCA),在 100 万上下文下的单 token 计算量仅为 V3.2 的 27% 左右。

此外,他们直接采用了 FP4 精度进行训练,而非训练后再量化。

新功能亮点

  • 推理模式整合: 不再需要在 deepseek-chat 和 deepseek-reasoner 之间二选一,V4 提供了:非思考(Non-Think)、深度思考(Think High)和极限思考(Think Max)。

  • 工具调用增强: 工具调用(Tool Calls)现在可以在思考模式下运行了,解决了 R1 的痛点。

实测环节

Benchmark 只能说明 Benchmark 本身。它们并不能真正告诉你这个模型到底能不能帮你完成实际工作。

所以现在,每当有新模型发布时,我都会固定跑三个测试。因为它们基本覆盖了我一周里使用 AI 的大多数真实场景。

代码审计,我会让模型审计我自己的博客项目。这个项目基于 React Router 7 和 TypeScript,是真实代码、真实复杂度,也是我真正关心正确性的东西。

逻辑密集型应用,一个扑克模拟程序,需要运行成千上万局牌并返回统计结果。这个测试主要考察推理能力、代码结构,以及对边界情况的处理。

从零开始的网页设计,我会给出两个不同的提示词,观察模型如何处理审美、布局和整体设计感。

下面就是 V4 在这些测试中的表现。

1. 代码审计(Codebase Audit)

结论:表现尚可,但不惊艳。V4-Pro 确实发现了一些真实问题,但也报了很多假警。比如一些代码风格的挑刺,或者建议在某些地方提取函数,但真按它说的做反而会让代码变烂。在更难、更贴近真实的 SWE-Bench Pro 测试中,V4-Pro 得分约为 55%,落后于 Claude Opus 4.7 (64.3%)。

2. 逻辑密集型应用(Poker Simulation)

结论:差距较小,但缺乏“资深感”。代码能跑通,统计数据准确,结构也算合理。但比起 Claude 和 GPT-5.5,V4 的版本像是一个合格初级工程师的初稿,而那两位的代码更像是资深工程师的作品。

3. 网页设计(Web Design)

结论:上限极高,但倾向于“安全牌”。

  • 传统主题(如咖啡店): 风格很像 Claude,氛围感好但布局太套路。

  • 流行文化网店: 表现非常出色,布局大胆,设计感强,可以直接作为项目起步模板。

值得关注的数据点

  • 过拟合隐忧: 美国 NIST 的评估显示,V4-Pro 在非公开测试集上的表现更接近 8 个月前的 GPT-5。这意味着它在公开跑分上可能存在一定程度的过拟合。

  • 幻觉问题: V4 在“不知道”时比同行更容易瞎编。当它不确定时,幻觉率高达 94%。在做研究或 RAG 任务时,务必加上严格限制。

价格:V4 真正的王牌

这才是重点。V4-Flash 的输入价格低得离谱。比如,审计一个 TypeScript 端点,用 V4-Pro 只花了 $0.09,而用 Claude Opus 4.7 可能要花  13。这是 100 倍的价格差

什么时候该用 V4?

推荐场景

  • 高吞吐量任务: 对成本极度敏感的 API 调用。

  • 后台自动化: 24 小时运行的 Agent 流程。

  • 超长文本: 处理超过 20 万 token 的文档。

不推荐场景

  • 高风险代码审计: 漏掉一个 Bug 代价巨大的情况。

  • 硬核科学推理: 研究级难题。

  • 多模态任务: 暂不支持视觉输入。

最终评价: DeepSeek V4 是新的全能型选手,而非新霸主。它极大地拔高了廉价模型的上限。你可以把 80% 的日常任务交给 V4,而把真正烧脑的难题留给昂贵的顶配模型。

DeepSeek 阅读推荐

图片

《DeepSeek大模型应用开发》

贾泽豪,刘衍琦,迟殿委 | 著

市面上最注重实战的 DeepSeek 教程,围绕 DeepSeek 技术体系展开,系统解析 DeepSeek 架构设计、DeepSeek-V3 模型的 MoE 架构与多 token 预测、DeepSeek-R1 模型的思维链与知识蒸馏等核心机制,夯实读者的理论基础。

另外还介绍了 DeepSeek 本地部署、提示词工程、插件集成与私有知识库构建等关键环节,并深入讲解智能体创建、RAG 实现、模型微调等高级应用。

案例涵盖多个行业:教育、电商、客服等场景,帮助读者实现从工具掌握到应用落地的全面提升。更有多模态融合、端侧 AI 与工具调用能力等前沿趋势解读。

图片

《一本书玩转 DeepSeek》

陈云飞(@花生)|著

超牛的 DeepSeek 应用书,作者是 AI 大佬花生,全书涉及 13 大场景,90 个实用案例,7 大技巧,4 大王炸组合,内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。带你轻松掌握 DeepSeek 核心技巧。

图片

《图解DeepSeek技术》

[沙特] 杰伊·阿拉马尔, [荷] 马尔滕·格鲁滕多斯特 | 著

李博杰 孟佳颖 | 译

大模型领域知名专家 Jay & Maarten 作品。近 120 幅全彩插图通俗解读,不枯燥。从推理模型原理到 DeepSeek-R1 训练。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐