从珠海少年到Nature封面：DeepSeek GRPO缔造者郭达雅入职字节，他的AGI传奇刚刚开始

摘要： 90后AI天才郭达雅从珠海一中普通学生到Nature封面科学家，创造了多项业界传奇：博士入学3天满足毕业要求，连续三年横扫腾讯算法大赛，提出颠覆性的GRPO强化学习方法让大模型自主学会"思考"。2026年4月，这位DeepSeek核心成员正式加入字节跳动Seed团队，标志着中国AI顶级人才流动的重要节点。其技术哲学"少即是多"颠覆传统训练范式，在De

烟雨AC

958人浏览 · 2026-03-23 10:24:57

烟雨AC · 2026-03-23 10:24:57 发布

从珠海少年到Nature封面：GRPO缔造者郭达雅入职字节，他的AGI传奇刚刚开始

博士入学3天完成毕业要求，连续三年横扫腾讯算法大赛，提出GRPO让大模型学会“思考”，2026年4月15日正式加入字节跳动Seed团队——这位90后技术天才的征途，藏着中国AI崛起的秘密

01 引子：谜底揭晓，下一站字节

2026年3月，AI圈暗流涌动。一则消息不胫而走：DeepSeek核心成员郭达雅离职。

没有告别信，没有朋友圈官宣，只有他的导师、中山大学印鉴教授一句意味深长的寄语在圈内悄然流传：

“希望他成为中山大学的雷军。”

这一句话分量几何，圈内人都懂。

2026年4月15日，悬念终结。

图灵教育联合创始人刘江在海外社交媒体X上正式披露：郭达雅已入职字节跳动Seed团队，继续负责大模型核心研发工作。

此前数周，字节、阿里、百度、腾讯等巨头均被传出与这位90后天才深度接触。据猎头圈透露，多家公司开出的薪酬条件是DeepSeek期间的2到3倍，更有甚者直接砸出八位数总包。

最终，字节跳动在这场顶级AI人才的争夺战中笑到了最后。

这不是一次普通的人事变动。这是中国AI人才流动史上值得标记的一页。

02 少年时代：那个暑假，他给自己开了“加速器”

郭达雅，广东珠海人，中学就读于珠海一中。

与许多天才故事里“三岁编程、五岁奥赛”的神童叙事不同，郭达雅的起点并不闪耀。他曾在采访中坦承：初中时成绩并不突出。

真正的转折，发生在高中。

“我突然明白了一件事——被动学习只能保证你不掉队，主动学习才能让你起飞。”

这句话说起来简单，但真正用行动去兑现的人，万里挑一。

高考结束的那个暑假，当大多数同龄人沉浸在解放的狂欢中时，郭达雅做了一件在当时看来“很傻”的事：他自学完了大学一年级的所有基础课程。

高等数学、线性代数、大学物理……别人需要一年消化的内容，他用三个月啃完了。

这个决定在当年看来，不过是“这孩子挺勤奋”。但站在今天回望，这恰恰是他整个学术生涯最精妙的一步“时间套利”：

别人大一还在和高数死磕，他已经开始接触专业核心课
别人大二才懵懂地进实验室，他已经有精力准备顶级竞赛
别人大四为毕业论文焦头烂额，他已经入选中山大学-微软亚洲研究院联合培养项目

一步快，不是真的快。步步快，才是真的快。

郭达雅的传奇，从那个暑假开始，就已经按下了加速键。

03 中大岁月：入学3天，博士毕业门槛已破

2014年，郭达雅进入中山大学数据科学与计算机学院。

本科四年，他展现出的不仅是智商，更是惊人的学术嗅觉和执行力。

在微软亚洲研究院（MSRA）联合培养期间，他师从两位NLP领域的重量级学者——中山大学印鉴教授和时任MSRA副院长的周明博士。周明博士是亚洲自然语言处理领域的开拓者之一，其门下走出了多位如今活跃在中国AI一线的技术领袖。

进入博士阶段后，郭达雅创造了一个让所有博士生“破防”的纪录：

入学第三天，他就满足了中山大学博士毕业的论文发表要求。

这不是夸张修辞。中山大学博士毕业通常需要在CCF A类会议或期刊上发表若干篇高水平论文，而郭达雅在本科期间积累的成果，已经远超这一门槛。

这意味着什么？

意味着从博士生涯的第一天起，他就彻底摆脱了“毕业压力”这道枷锁。当其他博士生还在为论文数量焦虑、为导师的项目奔波时，他已经拥有了最奢侈的东西——研究的自由。

对于顶级研究者而言，这种自由，价值连城。

04 学术奠基：CodeBERT与GraphCodeBERT，改变代码智能格局

在MSRA实习期间，郭达雅完成了两项足以写进教科书的研究工作。

CodeBERT（EMNLP 2020 Findings）

这是学术界首个实现自然语言（NL）与编程语言（PL）双模态预训练的模型。在此之前，没有任何一个模型能够真正理解“用自然语言描述需求，用代码实现逻辑”这种混合场景。

CodeBERT填补了这一空白，为后来的Copilot、Codex等产品奠定了理论基础。

GraphCodeBERT（ICLR 2021）

如果说CodeBERT让模型“读懂”代码，那GraphCodeBERT则让模型“理解”代码。

郭达雅首次将代码的数据流图结构引入预训练——让模型能够理解变量之间的依赖关系：改了a会影响b，改了b又影响c。这对于代码重构、Bug修复、漏洞检测等场景，是质的飞跃。

这两项工作的影响力，数据可以证明：截至目前，郭达雅在NeurIPS、ACL、EMNLP、ICML等国际顶级会议发表的十余篇论文，Google Scholar引用量已突破3800次。

他的博士论文《基于预训练的程序理解与生成》，获评2023年中山大学优秀博士学位论文。

除此之外，他主导或参与的工作还包括CodeXGLUE基准数据集、UniXcoder、LongCoder等，每一件都是代码智能领域的基石之作。

05 竞赛收割机：还没毕业，百万奖金已入囊中

学术之外，郭达雅还有另一重身份——数据挖掘竞赛领域的“冠军收割机”。

2019-2021年，他连续三年问鼎腾讯广告算法大赛冠军。

这是国内数据挖掘领域含金量最高的赛事之一，每年吸引数千支来自清华、北大、中科院以及业界顶尖团队的队伍参赛。连续三年夺冠，前无古人。

他的竞赛履历表还包括：

蚂蚁ATEC科技精英赛冠军（百万奖金）
微信大数据挑战赛冠军（30万大奖，3200支队伍同台竞技）

圈内流传着一个玩笑：“郭达雅还没博士毕业，赢的奖金已经够在深圳付首付了。”

更令人印象深刻的是他在程序员真人秀《燃烧吧！天才程序员》中的表现。这是一场60小时极限编程挑战，参赛者需要在高压、高强度的环境下完成复杂的AI任务，全程直播。

郭达雅被评审团评定为仅有的两名SSS级“巨佬”选手之一。屏幕前的观众第一次直观感受到：原来顶级程序员的代码能力，真的可以像艺术一样流畅。

06 DeepSeek时代：GRPO的诞生与R1的惊艳

2023年博士毕业，郭达雅手里攥着所有顶级大厂的offer。

但他最终选择了一家当时还籍籍无名的公司——DeepSeek。

为什么？

多年后他在一次内部分享中透露：“师姐告诉我，这家公司真的想做AGI，而且真的有资源、有决心、不浮躁。”

DeepSeek-Coder & Math：GRPO的提出

加入DeepSeek后，郭达雅几乎参与了所有关键模型的研发。

在DeepSeek-Coder和DeepSeek-Math项目中，他作为核心贡献者，提出了一种全新的强化学习方法——GRPO（Group Relative Policy Optimization）。

GRPO的核心思想极具美感：让模型在多次尝试中自我比较、自我改进，而不依赖昂贵的人类标注数据。

传统强化学习方法（如PPO）需要一个价值网络来评估状态的好坏，计算开销巨大。GRPO巧妙地绕开了这一点——它只需要一个能够验证答案正确性的奖励函数（比如数学题的最终答案对错），让模型自己生成多个候选答案，然后在组内比较优劣，从而更新策略。

既节省显存，又提升效率，更重要的是——它让模型学会了“思考”。

经过GRPO优化的DeepSeekMath-RL 7B，在无外部工具、无投票集成的条件下，在MATH基准上取得了51.7%的成绩，与同期的Gemini-Ultra和GPT-4正面硬刚而不落下风。

DeepSeek-V2、V3、R1：从理论到神作

在后续的V2、V3项目中，郭达雅专注于将GRPO从数学领域推广到更广泛的推理场景。他和团队反复实验、持续迭代，最终将这一方法打磨成熟。

成果就是DeepSeek-R1——一个不依赖人工标注的思维链数据、仅通过纯强化学习就激发出强大推理能力的大模型。

R1的发布，震动了全球AI圈。它向世界证明了一件事：模型可以自己学会“思考”，不需要人类手把手教它每一步该怎么走。

这一成果最终登上了Nature封面。这是中国AI研究的高光时刻，也是郭达雅个人学术生涯的阶段性巅峰。

07 技术哲学：少即是多，让模型自己学会思考

在DeepSeek内部，郭达雅有一句话常被同事提起：

“数据不是越多越好，关键是你怎么让模型从数据中学会举一反三。”

GRPO的诞生，正是这一哲学的最佳注脚。

在R1出现之前，业界的主流做法是收集海量的人工标注“思维链”数据，让模型模仿人类的推理步骤。这种方法有效，但成本极高，且上限明显——你永远只能教模型你已经会的东西。

GRPO走了一条更本质的路：给模型一个目标，让它自己去探索达成目标的路径。

就像教孩子学数学，与其逼他背一万道题的解题步骤，不如让他自己尝试、犯错、反思、改进。在这个过程中，推理能力会自然而然地涌现。

这种方法不仅大幅降低了数据标注成本，更重要的是——它可能更接近人类智能的本质。

人类从来不是通过被灌输无数“标准答案”来学会推理的。我们是在无数次尝试与失败中，逐渐内化了因果逻辑和抽象规律。

郭达雅的技术哲学，正在重新定义大模型的训练范式。

08 离职风波：DeepSeek的人才大考

2026年3月，郭达雅从DeepSeek正式离职的消息开始在圈内流传。

值得注意的是，在他之前，DeepSeek已有多位核心成员相继离开：

人物	原职位	去向
王炳宣	第一代大语言模型核心作者	腾讯
魏浩然	OCR系列核心作者	离职（去向未公开）
阮翀	多模态核心贡献者	元戎启行（自动驾驶）