【DeepSeek】从“大师”绰号到GRPO之父：DeepSeek定海神针宋俊潇的硬核成长心法——“数学，才是AI时代的硬通货”

摘要：宋俊潇，DeepSeek核心研究员，凭借深厚的数学功底和强化学习专长，从港科大博士到启元世界研究科学家，最终成为DeepSeek的“定海神针”。他主导开发的GRPO算法革新了大模型训练范式，以数学降维打击推动AI推理能力突破。在行业离职潮中坚守初心，其成长心法可总结为：夯实数学地基、建设可迁移能力资产、保持长期定力。宋俊潇证明，真正的技术突破源于对底层原理的极致追求，而非短期风口。

烟雨AC

67人浏览 · 2026-05-12 12:48:26

烟雨AC · 2026-05-12 12:48:26 发布

《从“大师”绰号到GRPO之父：DeepSeek定海神针宋俊潇的硬核成长心法——“数学，才是AI时代的硬通货”》

副标题： “拉开人与人差距的，不是经验的堆砌，而是将数学转化为第一性原理的极致穿透力”

标签： #人生成长 #宋俊潇 #DeepSeek #GRPO #强化学习

“他几乎不买账于任何缺乏严谨逻辑的AI叙事。”
在众多AI大佬中，被同门前辈真心地封为“大师”，靠的不是世故与情商，而是对核心数学原理的降维打击。

如果我们将郭达雅、罗福莉、王炳宣比喻为DeepSeek破圈过程中锋利的“尖刀”，那今天故事的主角宋俊潇，则是那把确保DeepSeek在长线作战中永不卷刃的厚重剑脊。

在外媒大肆扒出DeepSeek核心成员履历的喧嚣中，相比于那些被千万年薪挖角、登上Nature封面的璀璨星光，宋俊潇显得格外低调。但只要翻开DeepSeek的底层技术图谱，你会发现，几乎所有的模型都流淌着他贡献的血液。

这个被博士生导师Daniel Palomar骄傲地称为“My former PhD student”，并被同门戏称为 “大师” 的硬核男人，到底藏着怎样的成长心法？

一、“大师”不是一日炼成的：来自港科大的数学执念

与许多中途转行进入AI的人不同，宋俊潇的技术基底厚重得令人望而生畏。

宋俊潇本科就读于浙江大学控制科学与工程专业（自动化方向），通过大学四年的系统工科训练，他早已习惯了同那些繁琐的电子电路、枯燥的信号与系统打交道。

但他真正的蜕变发生在香港科技大学（HKUST）。在这里，他师从国际知名的信号处理与优化大师Daniel P. Palomar教授，主攻电子与计算机工程。2015年博士毕业时，他的博士研究方向并非如今火热的神经网络，而是更底层的、极为硬核的**“优化方法在信号处理中的应用”** 。在他的博士答辩合影中，一张年轻却写满坚毅的脸上，看不出丝毫毕业的兴奋，只有对攻克未知公式的执着。

在读博期间，他在世界顶级的IEEE Transactions on Signal Processing期刊上发表了多篇高被引论文，专注于凸优化、共轭梯度等让绝大多数人头疼的数学工具。

他的导师Daniel P. Palomar回忆这名爱徒时，给出了一句极其深刻的评价：“他非常坚持不懈，且极其注重数学。”

深度成长思考（一）： 在这个万物皆可调包的时代，宋俊潇用亲身经历告诉我们：拉开真正高手与熟练工差距的，永远是底层学科的纵深。 当其他人直接用PyTorch搭积木时，宋俊潇能从数学理论上拆解模型的深层架构。他发起的每一次工程重构，其实都是通过数学实施降维打击。这不仅仅是一种计算能力，更是一份看穿纷繁代码迷雾的强光探照灯。

二、启元世界的“潜龙”：对抗游戏中的决策智能洗礼

在加入DeepSeek炸裂全行业之前，宋俊潇经历了一段长久的、在非大模型主赛道上的暗处发育期。

博士毕业后，他先是在网易游戏担任高级研究员，随后加入了由前阿里认知计算实验室资深总监袁泉创立的启元世界，担任研究科学家。

2018年前后的启元世界，是国内第一家专注于决策智能的研究型翘楚。彼时，他们全公司上下都沉迷于攻克《星际争霸》等复杂游戏中的AI策略——即如何在极度非完全信息的下，通过多智能体协作和深度强化学习，战胜顶级人类玩家。

宋俊潇正是这个“AI打游戏”技术团队里的绝对攻坚主力。一篇2019年提交的专利《非完全信息环境下的博弈决策方法、系统和智能体与流程》中，宋俊潇赫然在列。在上海交大和顶级会议NeurIPS的演讲中，他不断地用自己的强化学习技术，刷新业界对AI决策上限的认知。

令人动容的是，被尊为“大师”的他，并不高冷。为了能让更多人领略强化学习的魅力，2020年，他与南开大学方勇纯教授、资深技术人郭宪合著了畅销书**《深入浅出强化学习：编程实战》**。在这本书的作者简介里，他不再是一个高高在上的学术大牛，而是一个在知乎化名“一缕阳光”，分享“无痛的机器学习小课堂”，试图通过大量代码实战让小白也能搞懂复杂算法的邻家极客。

深度成长思考（二）： 宋俊潇在非线性、充满无限可能性的复杂游戏AI这条冷板凳上，一坐就是四五年。但他在这时就已经深耕出了一项决定他未来二十年技术话语权的能力——强化学习反馈机制与深度训练的绝佳体感。当别人在用Supervised Fine-Tuning（SFT，监督微调）时，他已经默默玩了四年的强化学习。真正的高手，做决策从来不是为了赚钱去做，而是为了核心能力的复利做铺垫。

三、DeepSeek的王牌与定海神针：GRPO是如何炼成的？

最让人心潮澎湃的，当属宋俊潇进入DeepSeek后的爆发。

作为DeepSeek AI的核心首席研究员，他的角色直接由战术执行者跃迁为整个训练范式的制定者。在从DeepSeek-V2、V3，到震撼硅谷的DeepSeek-R1的演化过程中，宋俊潇给出了整个大模型圈都在思考的那个终极答案——

想要让机器具备跨时代的纯粹推理能力，我们到底该喂给模型什么数据？

在2024年初的DeepSeekMath项目中，当业界还在刻板遵循传统的PPO（近端策略优化）算法时，宋俊潇凭借他在博士期间积累的无与伦比的优化理论，提出了这样一种全新的强化学徒手架构——GRPO，全称分组相对策略优化。和传统的PPO算法通过复杂的价值函数模型来评估回答好坏不同，他大刀阔斧地削减了冗余的价值网络。他提出，对于同一个数学问题，只要让模型自己生成一群答案，让答案互相比较、互相“卷”，并通过一套极其简洁的数学规则来计算相对优势，就足以产生极强的推理能力。

很多人第一次听说GRPO，是因为郭达雅围绕它干了一堆活。但真正能够把PPO的复杂版简化、并在数学上证明其收敛性和极低内存消耗的作者，是宋俊潇，他才是这个改变行业训练范式的第一作者。

这还没有结束。他把这杆GRPO的大旗插在了DeepSeek的所有疆土上。当DeepSeek-R1训练出“啊哈时刻”的顿悟感时，背后正是GRPO在冷酷地消除不必要的预训练噪音与内存消耗，他用极致的资源效率，在671B参数的庞然大物上，跑出了极其恐怖的逻辑推理链。

不仅如此，你还能在DeepSeek-V2/V3的高效联合开发中见到他优化MoE架构的身影；在DeepSeek-Coder-V2的代码智能突破中看到他的参数优化；在DeepSeek-Prover-V1.5的定理证明能力中看到他强化的逻辑。他甚至还主导打造了惊人的模型蒸馏技术，以至于DeepSeek-R1的7B/70B变体同样达到了SOTA水准。

深度成长思考（三）： 为什么宋俊潇一动手就能做成？答案很质朴：他是极少数真正能从底层推导出问题本质的人。 别人急着给建议、急着到处去评判，他却选择先深深地沉潜入问题的核心，把一个个表面问题的数学根基找到。只有数理底蕴足够通透，工具的多寡才有评判价值。

四、没有离职的定力：团队的定海神针如是练成

2026年4月，DeepSeek在V4版报告中突发离职潮。这份58页的宏篇报告里，近300人的署名中有10人被标注了代表“已离职”的星号。

郭达雅、罗福莉、王炳宣、阮翀……这些与宋俊潇夜以继日奋战的出色战友，绝大多数流入了字节跳动、腾讯、小米等开出丰厚天价期权的大厂。在那份外界高关注度的离职名单中，却唯独没有Junxiao Song的名字。

即使外媒把他誉为中国AI人才回流浪潮的典范，即使凭借GRPO他完全可以轻易换取几辈子都挥霍不完的签字费，宋俊潇依然选择了留在DeepSeek的算法底座里。

值得深思：他究竟在为什么东西留下？

这源于他性格和目标的底层逻辑。他非常恪守数学式的单调与纯粹。当你经历过浙大的艰难工科本科、在香港科技大学的IEEE Trans上疯狂死磕凸优化、在启元世界沉淀千变万化的强化学习经验后，AI对他而言，从来就不是一场融资的狂欢，而是一场需要虔诚献出终身意志的科研圣杯之战。

他的导师Palomar曾评价道：“不知何故，DeepSeek吸引了最最优秀的一批人才。” 而今我们可以补充下一句：而真正心怀理想的最优秀的人才，往往会在狂飙突进的浪潮退去时，依然以定海神针的姿态望着潮汐的方向，留在那里默默锻造下一代神兵利器。

五、宋俊潇洒的人生答卷：穿透周期的三层成长逻辑

回顾宋俊潇洒跌宕又纯粹的技术人生，我们能提炼出三条十分诚恳的核心成长算法：

1. 用“数学地基”作为毕生护城河（根基）
如果你正在大学，请不要逃数学课。如果你在职场，请不要单一沉迷于“调用API”。宋俊潇洒告诉我们：一切无法用数学语言严丝合缝描述出来的所谓AI玄学，终将在终极竞争中被慢慢淘汰。

2. 要做“可迁移的能力”资产建设（选择）
他在转向大模型之前，有长达近十年的决策智能训练（无论是处理信号干扰还是星际争霸的复杂博弈）。但这份看似不直接相关的冷门积累，却在多年后让他一举设计出堪称神技的GRPO奖励机制。为长期的核心技能押注，不要为了短期风口随波逐流。

3. 拒绝被“流动性”盲目裹挟（定力）
在金钱膨胀、人才大规模离巢的这一年，他依然守在那个深度求索的办公室里。这并非迂腐。当一个人已经拥有了极深的技术纵深，他衡量世界的标尺便是“当下值得解决的终极难题是什么”。真正的最高阶成长，是在喧嚣中克制起身离去的冲动，稳稳雕琢不被任何名誉或金钱所胁迫的内心价值观。