DeepSeek V4:开源路线终于敢跟闭源叫板了

先说说刷屏的那条消息。

今天(4月24日),DeepSeek正式发布全新系列模型DeepSeek-V4,预览版同步上线并开源。

注意这个措辞——"全新系列"。不是V3的迭代补丁,是从头搭建的新架构。

官方给了两个版本:

V4-Pro,主打性能。在Agentic Coding评测中,这是当前开源模型的最佳水平。DeepSeek自己内部员工已经用上了,据评测反馈,使用体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6非思考模式。数学、STEM、竞赛型代码评测上,超越了所有已公开评测的开源模型,成绩直接跟世界顶级闭源模型肩并肩。

世界知识这块,V4-Pro大幅领先其他开源模型,只稍微落后Gemini-Pro-3.1。

V4-Flash,主打效率。推理能力接近V4-Pro,世界知识稍逊,但速度更快、成本更低。简单Agent任务上和Pro版旗鼓相当,高难度任务有差距。

两个版本都是1M上下文(约100万字),而且是标配。不是某个高配版专属,是所有官方服务的默认配置。

怎么做到的?官方提到两个关键词:全新的注意力机制,以及 DSA稀疏注意力(DeepSeek Sparse Attention)。核心是在token维度做压缩,大幅降低计算和显存需求。从官方放出的图来看,上下文越长,V4相比V3.2的显存和计算量优势越明显——百万字级别,这个差距不是小修小补能解释的,是架构层面的革新。

另外还有一个信号:V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品做了专项适配优化。这意味着DeepSeek不是在做一个"更好的聊天机器人",是在做一个能被Agent框架直接调用的生产级工具

API层面兼容OpenAI和Anthropic接口,旧接口(deepseek-chat、deepseek-reasoner)三个月后要停用。这是逼着生态往V4迁移。

开源权重已经放在HuggingFace和ModelScope上了,技术报告同步发布。不是"先发布再发论文",是发布即开源、开源即报告

老G看了技术报告,有几个感受:

  1. MoE架构还在,但注意力层换了新打法。 DSA稀疏注意力不是简单的局部注意力变体,是在压缩token表示的同时保持全局感知能力。这个方向之前也有人做,但做到1M上下文还能稳定工作,是工程能力的问题了。

  2. Agent能力的提升比聊天能力更重要。 V4-Pro在Agentic Coding上的表现,意味着它可以被嵌入到开发工作流里,不只是回答问题,而是执行任务

  3. 1M上下文是标配,不是卖点。 这说明DeepSeek认为长上下文已经跨过"能不能做"的阶段,进入"应该怎么做"的阶段。当百万字变成默认配置,整个应用场景会重新设计。

聊聊AI,欢迎扫码。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐