DeepSeek V4：开源路线终于敢跟闭源叫板了

从官方放出的图来看，上下文越长，V4相比V3.2的显存和计算量优势越明显——百万字级别，这个差距不是小修小补能解释的，是架构层面的革新。这个方向之前也有人做，但做到1M上下文还能稳定工作，是工程能力的问题了。这说明DeepSeek认为长上下文已经跨过"能不能做"的阶段，进入"应该怎么做"的阶段。V4-Pro在Agentic Coding上的表现，意味着它可以被嵌入到开发工作流里，不只是回答问题，而

大家叫我导演

353人浏览 · 2026-04-28 12:34:23

大家叫我导演 · 2026-04-28 12:34:23 发布

DeepSeek V4：开源路线终于敢跟闭源叫板了

先说说刷屏的那条消息。

今天（4月24日），DeepSeek正式发布全新系列模型DeepSeek-V4，预览版同步上线并开源。

注意这个措辞——"全新系列"。不是V3的迭代补丁，是从头搭建的新架构。

官方给了两个版本：

V4-Pro，主打性能。在Agentic Coding评测中，这是当前开源模型的最佳水平。DeepSeek自己内部员工已经用上了，据评测反馈，使用体验优于Claude Sonnet 4.5，交付质量接近Opus 4.6非思考模式。数学、STEM、竞赛型代码评测上，超越了所有已公开评测的开源模型，成绩直接跟世界顶级闭源模型肩并肩。

世界知识这块，V4-Pro大幅领先其他开源模型，只稍微落后Gemini-Pro-3.1。

V4-Flash，主打效率。推理能力接近V4-Pro，世界知识稍逊，但速度更快、成本更低。简单Agent任务上和Pro版旗鼓相当，高难度任务有差距。

两个版本都是1M上下文（约100万字），而且是标配。不是某个高配版专属，是所有官方服务的默认配置。

怎么做到的？官方提到两个关键词：全新的注意力机制，以及 DSA稀疏注意力（DeepSeek Sparse Attention）。核心是在token维度做压缩，大幅降低计算和显存需求。从官方放出的图来看，上下文越长，V4相比V3.2的显存和计算量优势越明显——百万字级别，这个差距不是小修小补能解释的，是架构层面的革新。

另外还有一个信号：V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了专项适配优化。这意味着DeepSeek不是在做一个"更好的聊天机器人"，是在做一个能被Agent框架直接调用的生产级工具。

API层面兼容OpenAI和Anthropic接口，旧接口（deepseek-chat、deepseek-reasoner）三个月后要停用。这是逼着生态往V4迁移。

开源权重已经放在HuggingFace和ModelScope上了，技术报告同步发布。不是"先发布再发论文"，是发布即开源、开源即报告。

老G看了技术报告，有几个感受：

MoE架构还在，但注意力层换了新打法。 DSA稀疏注意力不是简单的局部注意力变体，是在压缩token表示的同时保持全局感知能力。这个方向之前也有人做，但做到1M上下文还能稳定工作，是工程能力的问题了。
Agent能力的提升比聊天能力更重要。 V4-Pro在Agentic Coding上的表现，意味着它可以被嵌入到开发工作流里，不只是回答问题，而是执行任务。
1M上下文是标配，不是卖点。 这说明DeepSeek认为长上下文已经跨过"能不能做"的阶段，进入"应该怎么做"的阶段。当百万字变成默认配置，整个应用场景会重新设计。

聊聊AI，欢迎扫码。