从珠海少年到Nature封面:GRPO缔造者郭达雅入职字节,他的AGI传奇刚刚开始

博士入学3天完成毕业要求,连续三年横扫腾讯算法大赛,提出GRPO让大模型学会“思考”,2026年4月15日正式加入字节跳动Seed团队——这位90后技术天才的征途,藏着中国AI崛起的秘密


01 引子:谜底揭晓,下一站字节

2026年3月,AI圈暗流涌动。一则消息不胫而走:DeepSeek核心成员郭达雅离职。

没有告别信,没有朋友圈官宣,只有他的导师、中山大学印鉴教授一句意味深长的寄语在圈内悄然流传:

“希望他成为中山大学的雷军。”

这一句话分量几何,圈内人都懂。

2026年4月15日,悬念终结。

图灵教育联合创始人刘江在海外社交媒体X上正式披露:郭达雅已入职字节跳动Seed团队,继续负责大模型核心研发工作。

此前数周,字节、阿里、百度、腾讯等巨头均被传出与这位90后天才深度接触。据猎头圈透露,多家公司开出的薪酬条件是DeepSeek期间的2到3倍,更有甚者直接砸出八位数总包

最终,字节跳动在这场顶级AI人才的争夺战中笑到了最后。

这不是一次普通的人事变动。这是中国AI人才流动史上值得标记的一页。


02 少年时代:那个暑假,他给自己开了“加速器”

郭达雅,广东珠海人,中学就读于珠海一中。

与许多天才故事里“三岁编程、五岁奥赛”的神童叙事不同,郭达雅的起点并不闪耀。他曾在采访中坦承:初中时成绩并不突出。

真正的转折,发生在高中。

“我突然明白了一件事——被动学习只能保证你不掉队,主动学习才能让你起飞。”

这句话说起来简单,但真正用行动去兑现的人,万里挑一。

高考结束的那个暑假,当大多数同龄人沉浸在解放的狂欢中时,郭达雅做了一件在当时看来“很傻”的事:他自学完了大学一年级的所有基础课程。

高等数学、线性代数、大学物理……别人需要一年消化的内容,他用三个月啃完了。

这个决定在当年看来,不过是“这孩子挺勤奋”。但站在今天回望,这恰恰是他整个学术生涯最精妙的一步“时间套利”:

  • 别人大一还在和高数死磕,他已经开始接触专业核心课
  • 别人大二才懵懂地进实验室,他已经有精力准备顶级竞赛
  • 别人大四为毕业论文焦头烂额,他已经入选中山大学-微软亚洲研究院联合培养项目

一步快,不是真的快。步步快,才是真的快。

郭达雅的传奇,从那个暑假开始,就已经按下了加速键。


03 中大岁月:入学3天,博士毕业门槛已破

2014年,郭达雅进入中山大学数据科学与计算机学院。

本科四年,他展现出的不仅是智商,更是惊人的学术嗅觉执行力

在微软亚洲研究院(MSRA)联合培养期间,他师从两位NLP领域的重量级学者——中山大学印鉴教授和时任MSRA副院长的周明博士。周明博士是亚洲自然语言处理领域的开拓者之一,其门下走出了多位如今活跃在中国AI一线的技术领袖。

进入博士阶段后,郭达雅创造了一个让所有博士生“破防”的纪录:

入学第三天,他就满足了中山大学博士毕业的论文发表要求。

这不是夸张修辞。中山大学博士毕业通常需要在CCF A类会议或期刊上发表若干篇高水平论文,而郭达雅在本科期间积累的成果,已经远超这一门槛。

这意味着什么?

意味着从博士生涯的第一天起,他就彻底摆脱了“毕业压力”这道枷锁。当其他博士生还在为论文数量焦虑、为导师的项目奔波时,他已经拥有了最奢侈的东西——研究的自由

对于顶级研究者而言,这种自由,价值连城。


04 学术奠基:CodeBERT与GraphCodeBERT,改变代码智能格局

在MSRA实习期间,郭达雅完成了两项足以写进教科书的研究工作。

CodeBERT(EMNLP 2020 Findings)

这是学术界首个实现自然语言(NL)与编程语言(PL)双模态预训练的模型。在此之前,没有任何一个模型能够真正理解“用自然语言描述需求,用代码实现逻辑”这种混合场景。

CodeBERT填补了这一空白,为后来的Copilot、Codex等产品奠定了理论基础。

GraphCodeBERT(ICLR 2021)

如果说CodeBERT让模型“读懂”代码,那GraphCodeBERT则让模型“理解”代码。

郭达雅首次将代码的数据流图结构引入预训练——让模型能够理解变量之间的依赖关系:改了a会影响b,改了b又影响c。这对于代码重构、Bug修复、漏洞检测等场景,是质的飞跃。

这两项工作的影响力,数据可以证明:截至目前,郭达雅在NeurIPS、ACL、EMNLP、ICML等国际顶级会议发表的十余篇论文,Google Scholar引用量已突破3800次

他的博士论文《基于预训练的程序理解与生成》,获评2023年中山大学优秀博士学位论文

除此之外,他主导或参与的工作还包括CodeXGLUE基准数据集、UniXcoder、LongCoder等,每一件都是代码智能领域的基石之作。


05 竞赛收割机:还没毕业,百万奖金已入囊中

学术之外,郭达雅还有另一重身份——数据挖掘竞赛领域的“冠军收割机”。

2019-2021年,他连续三年问鼎腾讯广告算法大赛冠军。

这是国内数据挖掘领域含金量最高的赛事之一,每年吸引数千支来自清华、北大、中科院以及业界顶尖团队的队伍参赛。连续三年夺冠,前无古人。

他的竞赛履历表还包括:

  • 蚂蚁ATEC科技精英赛冠军(百万奖金)
  • 微信大数据挑战赛冠军(30万大奖,3200支队伍同台竞技)

圈内流传着一个玩笑:“郭达雅还没博士毕业,赢的奖金已经够在深圳付首付了。”

更令人印象深刻的是他在程序员真人秀《燃烧吧!天才程序员》中的表现。这是一场60小时极限编程挑战,参赛者需要在高压、高强度的环境下完成复杂的AI任务,全程直播。

郭达雅被评审团评定为仅有的两名SSS级“巨佬”选手之一。屏幕前的观众第一次直观感受到:原来顶级程序员的代码能力,真的可以像艺术一样流畅。


06 DeepSeek时代:GRPO的诞生与R1的惊艳

2023年博士毕业,郭达雅手里攥着所有顶级大厂的offer。

但他最终选择了一家当时还籍籍无名的公司——DeepSeek

为什么?

多年后他在一次内部分享中透露:“师姐告诉我,这家公司真的想做AGI,而且真的有资源、有决心、不浮躁。”

DeepSeek-Coder & Math:GRPO的提出

加入DeepSeek后,郭达雅几乎参与了所有关键模型的研发。

在DeepSeek-Coder和DeepSeek-Math项目中,他作为核心贡献者,提出了一种全新的强化学习方法——GRPO(Group Relative Policy Optimization)

GRPO的核心思想极具美感:让模型在多次尝试中自我比较、自我改进,而不依赖昂贵的人类标注数据。

传统强化学习方法(如PPO)需要一个价值网络来评估状态的好坏,计算开销巨大。GRPO巧妙地绕开了这一点——它只需要一个能够验证答案正确性的奖励函数(比如数学题的最终答案对错),让模型自己生成多个候选答案,然后在组内比较优劣,从而更新策略。

既节省显存,又提升效率,更重要的是——它让模型学会了“思考”。

经过GRPO优化的DeepSeekMath-RL 7B,在无外部工具、无投票集成的条件下,在MATH基准上取得了51.7%的成绩,与同期的Gemini-Ultra和GPT-4正面硬刚而不落下风。

DeepSeek-V2、V3、R1:从理论到神作

在后续的V2、V3项目中,郭达雅专注于将GRPO从数学领域推广到更广泛的推理场景。他和团队反复实验、持续迭代,最终将这一方法打磨成熟。

成果就是DeepSeek-R1——一个不依赖人工标注的思维链数据、仅通过纯强化学习就激发出强大推理能力的大模型。

R1的发布,震动了全球AI圈。它向世界证明了一件事:模型可以自己学会“思考”,不需要人类手把手教它每一步该怎么走。

这一成果最终登上了Nature封面。这是中国AI研究的高光时刻,也是郭达雅个人学术生涯的阶段性巅峰。


07 技术哲学:少即是多,让模型自己学会思考

在DeepSeek内部,郭达雅有一句话常被同事提起:

“数据不是越多越好,关键是你怎么让模型从数据中学会举一反三。”

GRPO的诞生,正是这一哲学的最佳注脚。

在R1出现之前,业界的主流做法是收集海量的人工标注“思维链”数据,让模型模仿人类的推理步骤。这种方法有效,但成本极高,且上限明显——你永远只能教模型你已经会的东西。

GRPO走了一条更本质的路:给模型一个目标,让它自己去探索达成目标的路径。

就像教孩子学数学,与其逼他背一万道题的解题步骤,不如让他自己尝试、犯错、反思、改进。在这个过程中,推理能力会自然而然地涌现

这种方法不仅大幅降低了数据标注成本,更重要的是——它可能更接近人类智能的本质。

人类从来不是通过被灌输无数“标准答案”来学会推理的。我们是在无数次尝试与失败中,逐渐内化了因果逻辑和抽象规律。

郭达雅的技术哲学,正在重新定义大模型的训练范式。


08 离职风波:DeepSeek的人才大考

2026年3月,郭达雅从DeepSeek正式离职的消息开始在圈内流传。

值得注意的是,在他之前,DeepSeek已有多位核心成员相继离开:

人物 原职位 去向
王炳宣 第一代大语言模型核心作者 腾讯
魏浩然 OCR系列核心作者 离职(去向未公开)
阮翀 多模态核心贡献者 元戎启行(自动驾驶)

DeepSeek的核心研发团队规模极小。从公开论文的作者名单看,反复出现的名字不超过20个。在这样一个精英小团队里,每一个人都是不可替代的拼图——更何况是郭达雅这样的灵魂人物。

DeepSeek-V4的悬念

2026年1月,外媒曾报道DeepSeek计划在春节期间推出下一代旗舰模型V4,预计编程能力将超越Claude 3.5 Sonnet和GPT-4o。

然而,春节过了,V4没来。三月过了,依然没有动静。

最新消息称,DeepSeek-V4预计在2026年4月正式发布,主打超长上下文与深度代码理解,能够处理长达30万行的代码逻辑链,并深度适配国产芯片。

而郭达雅,正是DeepSeek在代码智能与推理能力两大方向上的顶梁柱。

如果V4如期发布且表现惊艳,说明DeepSeek已经完成了核心技术的交接与传承。如果V4再次延期,或者在代码能力上未达预期,那么郭达雅离职的影响,将被无限放大。

这是DeepSeek面临的第一次真正意义上的人才大考。


09 字节时代:Seed团队的“秘密武器”

2026年4月15日,尘埃落定。郭达雅的下一站——字节跳动Seed团队

Seed团队在2025年初经历了一次重大重组。在吴永辉的执掌下,团队形成了三层架构:

  • Edge团队:负责3年以上的长期AGI基础研究,取消短期季度考核
  • Focus团队:负责核心技术攻坚,确保关键技术领先
  • Base团队:确保当前一代模型的稳定交付与迭代

郭达雅将主要在以下三个方向发力:

1. 代码大模型的全链路技术攻坚

字节的豆包大模型在代码生成方面已有不错的基础,但与顶尖水平仍有差距。郭达雅将主导Code-LLM的下一次重大迭代,目标是实现**“项目级”代码生成Agent**——不仅能写函数,还能理解整个项目的架构、依赖和规范。

他在预训练架构优化、超长上下文适配、多语言代码理解等方面的积累,正是字节最需要的弹药。

2. 推理能力的深度强化

类o1的通用推理能力,是Seed团队的核心战略方向之一。郭达雅将直接为字节带来全球最成熟的GRPO落地经验,负责推理方向的强化学习算法研发,系统性地提升豆包大模型在数学推理、多步逻辑推演、复杂任务拆解等方面的表现。

3. 数学推理专项模型的研发

数学推理被视为大模型通用逻辑能力的核心底座。Seed团队专设的Edge团队,正是为这类需要长期投入的基础研究准备的土壤。取消短期考核、鼓励自由探索——这套机制与郭达雅的研究风格高度契合。

郭达雅的加入,将直接补强字节在代码智能推理能力两大战略板块的短板。


10 结语:什么成就了郭达雅?

回看郭达雅30年的人生轨迹,有几个关键的“非对称优势”值得每一个技术人深思。

1. 时间套利意识

高考后的暑假自学、本科期间的超前科研、博士入学前的成果储备——他始终在用“提前量”换取未来的自由度。

大多数人活在“还债”模式里:大一还高三的债,工作还读书的债。而郭达雅始终活在“投资”模式里:用今天的超额付出,换取明天的选择自由。

2. 赛道选择眼光

从MSRA到DeepSeek,再到字节跳动,他总能在正确的时点进入正确的平台。

2023年选择DeepSeek时,这家公司还默默无闻,远不如大厂offer光鲜。但他看到了别人看不到的东西——一个真正想做AGI的团队,比一个大厂的title更重要。

3. 技术判断力

GRPO的提出不是灵光一现的偶然。当整个行业都在卷数据规模、卷模型参数时,他选择了一条更本质、更艰难的路径:让模型学会自主学习。

真正的技术领袖,不是跟随潮流的人,而是定义潮流的人。

4. 纯粹的热爱

从竞赛到科研,从综艺节目到工业界,郭达雅身上始终有一种“玩”的心态。

他不是被KPI驱动,而是被好奇心驱动。这种内在的、纯粹的驱动力,是任何外部激励都无法替代的。


郭达雅的故事,表面上看是一个关于“快”的故事——学得快、出成果快、成长快。

但真正的启示,恰恰相反。

所有看起来的“快”,都是长期主义结出的果。

高考后的那个暑假、博士入学前的那些成果、GRPO背后无数次的失败与重来——这些看不见的积累,才是传奇真正的底色。

从珠海一中到中山大学,从MSRA到DeepSeek,再到字节跳动——这位被导师寄予厚望成为“中山大学雷军”的年轻人,正在用自己的方式,书写中国AI的新篇章。

AGI的征途上,郭达雅留下了自己深刻的足迹。

而他的故事,才刚刚开始。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐