DeepSeek V4 突然发布,DeepSeek-V4 技术报告深度解读

DeepSeek-V4重磅发布，带来两大版本：旗舰版V4-Pro（1.6万亿参数）和轻量版V4-Flash（2840亿参数），均支持100万token上下文。通过混合注意力机制等三大创新技术，将推理计算量最高降低至前代的10%，显存占用降至7%。模型采用MIT许可证开源，适配国产算力平台，在多项评测中表现优异，虽仍落后顶级闭源模型3-6个月，但通过成本重构使长上下文处理成为标配。同时文章指出，AI

python零基础入门小白

834人浏览 · 2026-04-27 17:25:59

python零基础入门小白 · 2026-04-27 17:25:59 发布

DeepSeek-V4 正式发布。它不只是又一个升级版本，而是一次从架构到成本的结构性重构。

01 前言：两个版本，清晰定位

2026年4月24日，DeepSeek-V4 预览版正式发布并同步开源。

这次发布包含两个 MoE（混合专家）模型，定位完全不同：

DeepSeek-V4-Pro（旗舰版）

总参数：1.6 万亿
激活参数/Token：490 亿
定位：对标顶级闭源模型
适用场景：复杂推理、高强度代码、Agent 任务

DeepSeek-V4-Flash（轻量版）

总参数：2840 亿
激活参数/Token：130 亿
定位：极致性价比
适用场景：高频通用场景、简单任务

两者均原生支持 100 万 token 上下文，输出长度最大 384K tokens。更值得一提的是，V4 采用 MIT 许可证开源，商用限制极少。

02 核心架构：三大创新驱动效率革命

一、混合注意力机制（CSA + HCA）

V4 最核心的创新，在于结合了压缩稀疏注意力（CSA）和高度压缩注意力（HCA）。

效果有多惊人？以处理 100 万上下文为例，相比前代 V3.2：

V4-Pro

推理计算量降至 27%
KV Cache 显存占用降至 10%

V4-Flash

推理计算量降至 10%
KV Cache 显存占用降至 7%

这意味着什么？过去跑 100 万 token 需要 10 份算力，现在只需 1 份。

DeepSeek 甚至直言：从现在起，1M 上下文将是所有官方服务的“标配”。

二、流形约束超连接（mHC）

这是对传统残差连接的改进。简单理解：传统残差连接像是直通车道，而 mHC 给这条车道加了“导航系统”，让信号在不同层之间传播更稳定，训练更顺畅。

三、Muon 优化器

V4 用 Muon 替代了业界传统的 AdamW 优化器。这一改变显著加速了收敛，并提升了训练稳定性。

两个版本的训练数据规模：

V4-Pro：33 万亿 tokens
V4-Flash：32 万亿 tokens

03 后训练策略：“分而治之”再融合

V4 的后训练分为两个阶段：

阶段一：先通过 SFT（监督微调）和 GRPO 强化学习，分别训练不同领域的“专家模块”。

阶段二：通过在线蒸馏，把这些专家模块融合成一个统一模型。

这种策略的优势在于：每个专家可以在自己擅长的领域做到极致，最后融合时不会相互干扰，模型整体性能更强。

04 性能表现：开源最强，逼近闭顶尖峰

推理与代码能力

在 Apex Shortlist（90.2%）和 Codeforces（Rating 3206）两项硬核任务中，V4-Pro-Max 拔得头筹。

官方称其“超越所有已公开评测的开源模型，取得比肩世界顶级闭源模型的优异成绩。”

Agent 能力

这是 V4 重点发力的方向：

在 SWE Verified（软件工程任务）上，四款顶级模型打成平手（80.6%）
V4-Pro 在 Terminal Bench 2.0（67.9%）和 Toolathlon（51.8%）上表现突出

官方内部评测：使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式（但与 Opus 4.6 思考模式仍有差距）。

V4 还针对 Claude Code、OpenClaw、CodeBuddy 等主流 Agent 框架进行了专项适配优化。

客观差距：官方坦诚承认

技术报告中最值得尊敬的一点——DeepSeek 明确承认：

V4 的能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro，发展轨迹大约滞后前沿闭源模型 3 至 6 个月。

这不是一次能力“越级”，而是一次**“把长上下文成本重构”的基础设施发布**。

05 思考模式：可调节的“脑力投入”

V4 支持 reasoning_effort 参数，可设置思考强度（high / max）：

场景	建议
复杂 Agent 任务	开启思考模式，强度设为 max
简单问答	非思考模式

这个设计让开发者可以根据任务复杂度灵活调节“脑力投入”，避免杀鸡用牛刀。

06 国产算力适配

一个值得关注的信息：V4 已适配 华为昇腾平台，昇腾 CANN 在发布当日进行直播首发。

同时，寒武纪已完成对 V4 两个版本的 Day 0 适配，适配代码已开源到 GitHub。

这意味着国内用户可以在国产算力平台上部署 V4，这是对自主可控生态的明确支持。

07 对开发者的实际影响

价格体系（单位：元/百万 Token）

模型	输入（缓存命中）	输入（缓存未命中）	输出
V4-Flash	0.2 元	1 元	2 元
V4-Pro	1 元	12 元	24 元

缓存命中的价格极低，鼓励开发者通过缓存优化降低调用成本。

重要：迁移提醒

原有的 deepseek-chat 和 deepseek-reasoner 模型名将于 2026年7月24日 停止使用，开发者需在此之前完成迁移。

可用渠道

Web/App：chat.deepseek.com
API：兼容 OpenAI ChatCompletions 和 Anthropic 接口
开源：Hugging Face + 魔搭社区

08 总结：V4 的核心价值

维度	结论
技术定位	不是能力越级，而是效率重构
最大突破	让 1M 上下文从“奢侈”变“标配”
竞争位置	开源最强，闭源暂有差距（3-6个月）
生态意义	国产算力适配 + MIT 开源 + Agent 专项优化