【清华代码熊】拆解DeepSeek V4训练：预训练+ OPD后训练

📌 今天来解析 DeepSeek V4训练流程，主要关注预训练阶段与 V3/V3.2 的区别、1M长上下文拓展训练、后训练 On-Policy Distillation 实现。

古希腊掌管代码的神THU · 2026-04-30 11:27:10 发布

📌 今天来解析 DeepSeek V4训练流程，主要关注预训练阶段与 V3/V3.2 的区别、1M长上下文拓展训练、后训练 On-Policy Distillation 实现。

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

vLLM 吞吐优化误区：为什么你的批处理大小反而拉低了 P99 延迟

Agent工具越多越好？权限失控时如何用OpenTelemetry快速定位故障边界

混合检索权重调参：BM25与向量分数归一化为何总踩坑？

查看更多评论

已为社区贡献7条内容

温馨提示：您尚未绑定手机号