2025年大模型技术演进:从DeepSeek到Omni的全景回顾
从2024年底DeepSeek"诺曼底登陆"以来,2025年开源和闭源模型迭代速度和开源质量远超以往几年。经常会遇到当T时刻在领域benchmark上优化到SOTA之后,T+1时刻有更优的通用模型公布,在领域benchmark指标反而比你专门优化的领域大模型更好。经历过几轮类似事件后,理解到做领域大模型的本质其实是产出一套稳健的训练方案Training-Recipe。
2025年大模型技术演进:从DeepSeek到Omni的全景回顾
DeepSeek引发的变革
从2024年底DeepSeek"诺曼底登陆"以来,2025年开源和闭源模型迭代速度和开源质量远超以往几年。经常会遇到当T时刻在领域benchmark上优化到SOTA之后,T+1时刻有更优的通用模型公布,在领域benchmark指标反而比你专门优化的领域大模型更好。
经历过几轮类似事件后,理解到做领域大模型的本质其实是产出一套稳健的训练方案Training-Recipe。
Training Recipe的核心组成
Training Recipe包括了:
- continue pretrain(持续预训练)
- mid-training(中期训练)
- SFT(监督微调)
- RL(强化学习)
- SFT+RL迭代学习
同时,也需要在对业务问题有深刻认知基础上,提炼出适配业务目标的benchmark和数据飞轮体系。
合成数据:2026年的关键方向
业务很多时候仅有标签,缺乏高质量COT数据。人工标注速度慢,同时深度了解业务标注同学少之又少。在这种场景下,合成数据是避不开话题。
在scaling law推动下,当前已有数据已接近枯竭,相信2026年学术上也会对合成数据领域做出更多探索。
Omni:多模态的必然趋势
从LLM走向Omni是一种必然的途径。25年底vllm-omni项目成立,更加表明2026年这块是"群雄逐鹿"局面。
原生多模态是最贴近现实世界的。图文音交错、全模态处理和产出,进行端到端的学习。长远来看,将文本、图像、语音等映射到统一tokenizer空间是最高效的策略。
RL算法的快速演进
RL算法从年初GRPO演变出了众多版本。感谢Deepseek提供了最原始GRPO算法,然后大家针对熵过快衰退、训推不一致、MOE router不一致等问题,提供了解决方案。
目前普遍认知是:RL不会激发模型新的能力,更多的是提升Pass@1能力。
Agentic能力的崛起
25年底,各家AI公司将自身LLM模型的Agent相关能力作为PR重点。Agent能力才是检验模型解决现实世界复杂问题的衡量因素。
Agent能力提高应该更需要往预训练、SFT轨迹数据合成方向关注。
Infra:不可忽视的地基
字节每天token调用量已突破50万亿,位居中国第一、全球第三。哪怕是1%的效率迭代,节省下来的成本也是可观的。
Memory:用户体验的关键
Memory让用户得到了极佳的用户体验,让模型更加理解用户,产生很高的用户粘性。
参与大模型浪潮的机会
"其实是无数个小的改进,才促成Gemini的成功。"每个人都有机会成为contributer。
2026年,大模型已经无处不在,但"幻觉"仍是企业落地的最大杀手。知识图谱把大模型从"概率生成器"变成"可信知识引擎"。
为方便大家学习 这里给大家整理了一份学习资料包 需要的同学 根据下图自取即可

更多推荐



所有评论(0)