2025年大模型技术演进:从DeepSeek到Omni的全景回顾


DeepSeek引发的变革

从2024年底DeepSeek"诺曼底登陆"以来,2025年开源和闭源模型迭代速度和开源质量远超以往几年。经常会遇到当T时刻在领域benchmark上优化到SOTA之后,T+1时刻有更优的通用模型公布,在领域benchmark指标反而比你专门优化的领域大模型更好。

经历过几轮类似事件后,理解到做领域大模型的本质其实是产出一套稳健的训练方案Training-Recipe。

Training Recipe的核心组成

Training Recipe包括了:
- continue pretrain(持续预训练)
- mid-training(中期训练)
- SFT(监督微调)
- RL(强化学习)
- SFT+RL迭代学习

同时,也需要在对业务问题有深刻认知基础上,提炼出适配业务目标的benchmark和数据飞轮体系。

合成数据:2026年的关键方向

业务很多时候仅有标签,缺乏高质量COT数据。人工标注速度慢,同时深度了解业务标注同学少之又少。在这种场景下,合成数据是避不开话题。

在scaling law推动下,当前已有数据已接近枯竭,相信2026年学术上也会对合成数据领域做出更多探索。

Omni:多模态的必然趋势

从LLM走向Omni是一种必然的途径。25年底vllm-omni项目成立,更加表明2026年这块是"群雄逐鹿"局面。

原生多模态是最贴近现实世界的。图文音交错、全模态处理和产出,进行端到端的学习。长远来看,将文本、图像、语音等映射到统一tokenizer空间是最高效的策略。

RL算法的快速演进

RL算法从年初GRPO演变出了众多版本。感谢Deepseek提供了最原始GRPO算法,然后大家针对熵过快衰退、训推不一致、MOE router不一致等问题,提供了解决方案。

目前普遍认知是:RL不会激发模型新的能力,更多的是提升Pass@1能力。

Agentic能力的崛起

25年底,各家AI公司将自身LLM模型的Agent相关能力作为PR重点。Agent能力才是检验模型解决现实世界复杂问题的衡量因素。

Agent能力提高应该更需要往预训练、SFT轨迹数据合成方向关注。

Infra:不可忽视的地基

字节每天token调用量已突破50万亿,位居中国第一、全球第三。哪怕是1%的效率迭代,节省下来的成本也是可观的。

Memory:用户体验的关键

Memory让用户得到了极佳的用户体验,让模型更加理解用户,产生很高的用户粘性。

参与大模型浪潮的机会

"其实是无数个小的改进,才促成Gemini的成功。"每个人都有机会成为contributer。


2026年,大模型已经无处不在,但"幻觉"仍是企业落地的最大杀手。知识图谱把大模型从"概率生成器"变成"可信知识引擎"。

为方便大家学习 这里给大家整理了一份学习资料包 需要的同学 根据下图自取即可

图片

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐