2025年大模型技术演进：从DeepSeek到Omni的全景回顾

从2024年底DeepSeek"诺曼底登陆"以来，2025年开源和闭源模型迭代速度和开源质量远超以往几年。经常会遇到当T时刻在领域benchmark上优化到SOTA之后，T+1时刻有更优的通用模型公布，在领域benchmark指标反而比你专门优化的领域大模型更好。经历过几轮类似事件后，理解到做领域大模型的本质其实是产出一套稳健的训练方案Training-Recipe。

ll1b_02

216人浏览 · 2026-04-07 13:48:21

ll1b_02 · 2026-04-07 13:48:21 发布

2025年大模型技术演进：从DeepSeek到Omni的全景回顾

DeepSeek引发的变革

从2024年底DeepSeek"诺曼底登陆"以来，2025年开源和闭源模型迭代速度和开源质量远超以往几年。经常会遇到当T时刻在领域benchmark上优化到SOTA之后，T+1时刻有更优的通用模型公布，在领域benchmark指标反而比你专门优化的领域大模型更好。

经历过几轮类似事件后，理解到做领域大模型的本质其实是产出一套稳健的训练方案Training-Recipe。

Training Recipe的核心组成

Training Recipe包括了：
- continue pretrain（持续预训练）
- mid-training（中期训练）
- SFT（监督微调）
- RL（强化学习）
- SFT+RL迭代学习

同时，也需要在对业务问题有深刻认知基础上，提炼出适配业务目标的benchmark和数据飞轮体系。

合成数据：2026年的关键方向

业务很多时候仅有标签，缺乏高质量COT数据。人工标注速度慢，同时深度了解业务标注同学少之又少。在这种场景下，合成数据是避不开话题。

在scaling law推动下，当前已有数据已接近枯竭，相信2026年学术上也会对合成数据领域做出更多探索。

Omni：多模态的必然趋势

从LLM走向Omni是一种必然的途径。25年底vllm-omni项目成立，更加表明2026年这块是"群雄逐鹿"局面。

原生多模态是最贴近现实世界的。图文音交错、全模态处理和产出，进行端到端的学习。长远来看，将文本、图像、语音等映射到统一tokenizer空间是最高效的策略。

RL算法的快速演进

RL算法从年初GRPO演变出了众多版本。感谢Deepseek提供了最原始GRPO算法，然后大家针对熵过快衰退、训推不一致、MOE router不一致等问题，提供了解决方案。

目前普遍认知是：RL不会激发模型新的能力，更多的是提升Pass@1能力。

Agentic能力的崛起

25年底，各家AI公司将自身LLM模型的Agent相关能力作为PR重点。Agent能力才是检验模型解决现实世界复杂问题的衡量因素。

Agent能力提高应该更需要往预训练、SFT轨迹数据合成方向关注。

Infra：不可忽视的地基

字节每天token调用量已突破50万亿，位居中国第一、全球第三。哪怕是1%的效率迭代，节省下来的成本也是可观的。

Memory：用户体验的关键

Memory让用户得到了极佳的用户体验，让模型更加理解用户，产生很高的用户粘性。

参与大模型浪潮的机会

"其实是无数个小的改进，才促成Gemini的成功。"每个人都有机会成为contributer。

2026年，大模型已经无处不在，但"幻觉"仍是企业落地的最大杀手。知识图谱把大模型从"概率生成器"变成"可信知识引擎"。

为方便大家学习这里给大家整理了一份学习资料包需要的同学根据下图自取即可

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

DeepSeek SDK 封装中的租户隔离陷阱：当双通道共池配额引发 429 风暴

DeepSeek技术社区

cover

DeepSeek-V4 长上下文管理：截断策略与成本优化实践

DeepSeek技术社区

cover

DeepSeek推理服务SLO设计：为什么P99 300ms的承诺必须包含队列等待时间？

DeepSeek技术社区

所有评论(0)

查看更多评论

ll1b_02

已为社区贡献5条内容