51c大模型~合集126

让我们跳出不言自明的直觉，反观人类智能，其实人类的交流是一种很神奇的能力，两个上百上千亿神经元的黑盒大脑（而且链接方式也各不相同）居然可以不约而同地共享相同的底层符号化认知——不仅包括语言，还包括一些下意识的公共认知（比如底层的 image segmentation 都是下意识自动完成的），让人们可以直接可以从中层逻辑层面进行交流和对齐。比如，在人脸检测中，神经网络往往建模两个眼睛和一个鼻子之间的

whaosoft-143

1456人浏览 · 2025-05-10 12:33:20

whaosoft-143 · 2025-05-10 12:33:20 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/13892529

#物理图灵测试

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘xx Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。

其中尤其提到了「物理图灵测试」，大意是说对于一个真实的物理场景和一个指令，会有人类或机器人根据该指令对这个场景进行相应的处理，然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。

很显然，Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。在文本中，我们梳理了 Jim Fan 的主要演讲内容，另外还在文末发起了一个投票，看你觉得物理图灵测试会在什么时候被攻克？

，时长17:33

以下为经过梳理的演讲内容。

几天前，一篇博客文章引起了我的注意。它说：「我们通过了图灵测试，却没人注意到。」图灵测试曾经是神圣的，堪称计算机科学的圣杯，结果我们就这么通过了。

Jim Fan 提到的博客：https://signull.substack.com/p/we-passed-the-turing-test-and-nobody

当 o3 mini 多花几秒钟思考，或者 Claude 无法调试你那些讨厌的代码时，你会感到不满，对吧？然后我们把每一个大语言模型的突破都当作只是又一个普通的星期二。在座的各位是最难打动的人。

所以我想提出一个非常简单的东西，叫做「物理图灵测试（Physical Turing Test）」。

物理图灵测试

想象一下，你在周日晚上举办了一个黑客马拉松派对，最后你的房子变成了这样：

你的伴侣对你大喊大叫，你想：「哎呀，周一早上，我想告诉某人清理这个烂摊子，然后为我准备一顿很好的烛光晚餐，这样我的伴侣就能开心了。」

然后你回到家，看到这一切（实现了），但你无法分辨是人还是机器帮你弄的。物理图灵测试就是这么简单。

那我们现在进展到什么程度了？接近了吗？看看这个准备开始工作的机器人：

再看看机器狗遇到香蕉皮：

机器人为你准备燕麦早餐：

这就是我们的现状。

那么，为什么解决物理图灵测试如此困难呢？

你们知道大语言模型研究人员经常抱怨，对吧？最近有个叫 Ilya 的人抱怨说：大语言模型预训练的数据快用完了。他甚至称互联网为「AI 的化石燃料」。他说我们快没有数据来训练大语言模型了。但是，如果你了解机器人模型，你就会知道大语言模型研究人员被宠坏了。我们甚至连化石燃料都没有。

下图是英伟达总部的一个数据收集环节。英伟达有一个咖啡厅，我们设置了这些人形机器人，我们操作它们并收集数据。

收集到的数据如下图所示。这是机器人关节控制信号，是随时间变化的连续值。你在维基百科、YouTube、Reddit 或任何地方都找不到这种数据，所以你必须自己收集。

那我们是怎么收集的呢？

我们有一种非常复杂但也非常昂贵的方法，叫做遥操作（teleoperation）。你可以让人佩戴某种 VR 头显，它能识别你的手势并将其传输给机器人。这样你就可以教机器人技能，比如从烤面包机中取出面包，然后倒上蜂蜜。但可以想象，这是一个非常缓慢且痛苦的过程。

如果你把这个方法放到 scaling 图上，你会发现它根本不能 scale。真实机器人数据的获取是在拿人力当燃料，这比用化石燃料更糟糕。而且，一个机器人每天只有 24 小时的时间可以用。实际可利用的时间更少，因为人会疲劳，机器人比人类更容易疲劳。

那我们该怎么办呢？机器人的核能在哪里？我们必须有清洁能源。不能永远依靠化石燃料。

模拟很重要

接下来进入「模拟」。我们必须离开物理世界，进入模拟的世界。

我们训练了一个机器手，能在模拟中完成超人般的灵巧任务，如转笔。对我来说这是超人的，因为我不能转笔，我很高兴我的机器人至少在模拟中能做得比我好。

那么如何训练机器手来完成这样复杂的任务呢？我们有两个想法。一是你必须以比实时快 10000 倍的速度进行模拟。这意味着你应该在单个 GPU 上并行运行 10000 个环境进行物理模拟。

第二点，10000 个环境副本不能都相同。你必须改变一些参数，如重力、摩擦力和重量。我们称之为域随机化。

这给了我们模拟原则。

为什么这种做法能 work？想象一下，如果一个神经网络能够控制机器人掌握一百万个不同的世界，那么它很可能也能掌握第一百万零一个世界 —— 即我们的物理现实。换句话说，我们的物理世界处于这种训练的分布之中。

接下来，我们如何应用这些模拟结果呢？你可以建立一个数字孪生（digital twin），即机器人和世界的一对一副本，然后你在模拟中训练，直接在真实世界中测试，零样本迁移。

机器手也是如此：

我们能做的最令人印象深刻的任务是让狗站在瑜伽球上走，我们把它从虚拟迁移到现实世界。

我们的研究人员看起来超级奇怪，就像《黑镜》的一集。

接下来，我们还可以将其应用于更复杂的机器人，如人形机器人。在短短两小时的模拟时间内，这些人形机器人就经历了 10 年的训练，学习行走，然后你可以把它们迁移到现实世界。无论实体是什么，只要你有机器人模型，你就可以模拟它，并且可以实现行走。

我们能做的不仅仅是行走。当你控制自己的身体时，你可以跟踪任何你想要的姿势，跟踪任何关键点，遵循任何你想要的速度向量，这被称为人形机器人的全身控制问题，是个非常困难的问题。

但我们可以训练它，在 10000 个并行运行的模拟上，我们可以将其零样本迁移到真实机器人上，无需任何微调。

这是在英伟达实验室进行的一个演示。你可以看到它所做的动作的复杂性。它模仿人类所有这些敏捷的动作，同时保持平衡。

做这个需要多大的神经网络？它只需要 150 万参数，不是 15 亿。150 万参数足以捕捉人体的潜意识处理。

所以，如果我们将其放在这个图表上，纵轴是速度，横轴是模拟的多样性，我们称之为模拟 1.0，数字孪生范式，它是一个经典的向量化物理引擎，你可以运行到每秒 10000 帧甚至一百万帧。但问题是你必须建立一个数字孪生。你需要有人建造机器人，建造环境和一切。这非常繁琐，且需要手动完成。

用生成式 AI 生成模拟数据

那么，我们能否用生成的方式获得模拟环境的一部分？下图这些 3D 资产都是由 3D 生成模型生成的：

这些纹理来自 Stable Diffusion 或任何你喜欢的扩散模型：

这些布局也是可以用工具生成的：

将所有这些放在一起，我们构建了一个名为 RoboCasa 的框架，它是日常任务的一个组合模拟。这里的一切，除了机器人，都是生成的。你可以组合不同的场景，但它仍然依赖于这个经典引擎来运行，但你已经可以从中获得很多任务。

接下来，同样让人类来操作。但这一次，人类是在模拟中进行操作。

基于这一个放杯子的演示，我们可以得到人类操作的轨迹，然后便可以在模拟中重放这一轨迹。

而在模拟中，我们可以通过各种技术修改场景，甚至还可以修改运动，比如可以通过 GR00T Mimic 等技术模拟出相似的动作。

也就是说，只需一个人类演示，就能通过环境生成得到 N 个演示，如果在执行动作生成，则能得到 N×M 个不同的模拟样本。如此一样，便实现了数据的倍增。

如下所示，第一和三列是真实的机器人，第二和四列是生成的模拟。看得出来，生成的视频的纹理真实感依然很差，但它们已经足够接近了。

那么，我们如何称呼这些足够接近的生成样本呢？数字表亲（digital cousin）。这与数字孪生不一样，但也在一定程度上捕捉到了真实感。

这些模拟运行速度较慢，但目前存在一种混合生成物理引擎 —— 先生成部分内容，然后将剩余部分委托给经典图形管道。

现在，假如我们要模拟这个场景。可以看到，里面有固体、有液体，各种东西。如果让人类来建模，所需的时间会很长。

但现在，有计算机模拟了。

要知道，从左边的视觉效果到右边的视觉效果，可是足足花了 30 多年时间。但视频生成模型只用了一年时间从实现从左边到右边的跨越。

还记得我之前展示的这个视频吗？我骗了你们。这个视频里的像素没一个是真的。它完全是由一个自定义模型生成的。

我们是怎么做的呢？我们会使用一个开源的通用 SOTA 视频生成模型，然后在真实收集的数据的数据域上进行微调。

然后，使用不同的语言命令，你可以让模型想象不同的未来 —— 即便这个场景从未在真实世界中发生过。

这些也都是生成的。

其中有个例子是机器手弹奏尤克里里，但实际上，这个机器手还完全做不到这一点，但 AI 依然可以生成这样的视频。

这就是模拟 2.0。视频生成的多样性大大增加，但目前执行起来速度很慢。我称之为 Digital Nomad（数字游民），可以说它已经进入了视频扩散模型的梦境空间。它是将数亿个互联网视频压缩成这种多元宇宙的模拟，就像奇异博士一样 —— 在梦境空间中实例化机器人，基本上机器人现在可以与任何地方的所有事物都同时互动。

xx Scaling Law

下面来看xx Scaling Law。

在模拟 1.x 时代，大规模模拟需要大规模的计算。问题是，随着规模的扩大，物理 IQ 会撞墙，因为这个人工构建的系统的多样性有限。

而在神经世界模型的模拟 2.0 时代，物理 IQ 会随计算的扩展而指数级增长。图中的交汇点便是神经网络超越传统图形工程的地方。

这两者加在一起，将成为我们扩展下一代机器人系统的核能。

引用黄仁勋的话就是：「买得越多，省得越多。」

然后，我们把这些数据用来训练「视觉-语言-动作模型」。它能接收像素和指令输入，然后输出电机控制信号。这就是三月份 GTC 上黄仁勋主题演讲中开源的 GR00T N1 模型的训练方式。

这里展示了一个在实际机器人上运行它的案例。看起来很浪漫，但你无法想象我们在训练期间做了多少清洁工作。在这个示例中，它能够完美地抓起香槟。

不仅如此，它还可以执行一些工业任务，拿取一些工厂物件，还可以进行多机器人协调。

GR00T N1 模型是开源的，事实上这个系列的后续模型都将继续开源。

展望未来：物理 API

那么，下一步是什么呢？我认为是物理 API（Physical API）。

想一想，5000 年来，虽然人类的生活整体好了很多，但做晚餐的方式可能与古埃及人没有本质差别。

也许人类历史的 99% 的时间里，我们都保持着这样的结构：用人力方式处理原材料，最终建立起文明。但在最近的 1% 时间里，大概最近 50 年的时间里，人工劳动量正在减少，我们拥有高度专业化、高度复杂的机器人系统，它们一次只能做一件事。而且它们的编程成本很高。目前，我们处于人类劳力与机器人共存的时代。

未来，物理 API 将无处不在。

类似于 LLM API 移动数字和比特构成的块，物理 API 能移动原子构成的块，也就是给软件一个物理执行器来改变物理世界。

在这个物理 API 之上，将会有新的经济范式。我们会有新的物理提示技术（physical prompting）来给机器人下达指令，教它们学习新任务。语言有时候是不够的。

我们还会有物理应用商店和技能经济。举个例子，米其林大厨不必每天都亲自去厨房了 —— 他可以教会机器人，把晚餐作为一项服务提供。

这里再次引用黄仁勋的一句话：「所有会动的东西都将自动化。」

未来某天，当你回家，你会看到干净的沙发和烛光晚餐，你的伴侣会对你微笑，而不是因为你没有洗脏衣服而对你大喊大叫。

这是因为你上个月买了两台人形机器人，可能是 GR00T N7，它们默默工作，与你生活的背景融为一体，就像是环境智能（ambient intelligence）。你甚至不会注意到它们通过物理图灵测试那一刻，因为那就是像是另一个平常的星期二一样。

请在手机微信登录投票

投票：你认为物理图灵测试会在什么时候被攻克？单选

2028 年之前

2028-2030 年

2030-2040 年

2040-2050 年

2050 年之后

....

#顶尖模型离“科学家”还差得远？

AI4S亟待迈向2.0时代~

当前，科学智能（AI for Science）被称之为人工智能的 “皇冠”，以 AlphaFold 为代表的 AI for Science（AI4S）技术在蛋白质折叠、气象预测等特定领域取得了里程碑式成就，但近期《Nature》发表的研究指出，过度依赖现有深度学习模型可能局限新知识的探索边界，甚至在某种程度上阻碍创新。

一项来自上海人工智能实验室（上海 AI Lab）的系统性评估①进一步揭示了当前前沿模型的短板。来自 10 个不同科学领域的 100 位科学家为模型构建了评测题目，结果显示：前沿模型在通用科学推理任务中得分可达 50 分（满分 100），但在各类专业推理任务（如专项文献检索、具体实验方案设计）中，得分骤降至 15-30 分。

“我们已身处 “通用人工智能”（AGI）前夕，但仍面临重要环节的缺失 —— 通专融合的智能。我们亟需推动科学智能从 1.0 向 2.0 迭代，即从 AI4S 迈向 AGI4S。” 日前，上海人工智能实验室主任、首席科学家周伯文在第四十届人工智能协会年会（AAAI 2026）发表特邀报告时提出，科学发现是 AI 的下一个前沿阵地 —— 它既是推理智能的终极试炼场，也是 “通专融合 AGI” 的验证舞台。若 AGI = 通专融合（Specialized Generalist），则可深度专业化通用模型（Specializable Generalist）是实现 AGI 的可行路径。

除了分享前沿观点，周伯文还详细介绍了上海 AI 实验室近年来开展的前沿探索与实践，包括驱动 “通专融合” 发展的技术架构 ——“智者”SAGE（Synergistic Architecture for Generalizable Experts），其包含基础、融合与进化三个层次，并可双向循环实现全栈进化；支撑 AGI4S 探索的两大基础设施“书生”科学多模态大模型 Intern-S1、“书生”科学发现平台 Intern-Discovery 及一系列相关阶段性进展。

演讲最后，周伯文向会场内外的观众发出行动召唤：架构已经就绪，但画卷仍存大片留白，期待与更多同行者共拓蓝图！

以下为报告全文，略有修订。

演进预判：从 ANI 到 AGI 的历史跨越

人工智能的发展历程并非线性堆叠，而是呈现出明显的阶段性跃迁。回顾 AI 发展的历史坐标，有助于我们厘清当前所处的位置及未来的方向。

早在 1996 年涉足 AI 研究之初，我便开始思考智能的本质。特别是在担任 IBM 人工智能基础研究院院长期间，首次提出了通往通用人工智能（AGI）的战略路线图，明确界定了 AI 发展的三个关键阶段：ANI（狭义人工智能）、ABI（广义人工智能）与 AGI，并给出了各自明确定义。

我当时的判断是 ANI 在 2016 年已趋于成熟，而通往 AGI 的必经之路并非直接跃迁，而是必须率先实现具备跨领域泛化能力的 ABI。我们认为这一跨越需要技术范式的根本性变革，最少包括三个方面：即从有监督学习转向自监督学习，从人类分割任务级联式系统转向端到端架构，从判别式工具进化为生成式助手。

六年多后 ChatGPT 的问世，第一次验证了人工智能系统在以上三方面的同时达成，实质上宣告了 ABI 阶段的到来。这一历史性突破验证了规模法则（Scaling Law）的有效性 —— 即通过扩大 Transformer 架构并将 “下一个词预测” 作为优化目标，人类首次实现了对世界知识的压缩。值得一提的是，我和团队早在 2016 年提出的关于 “多头自注意力” 机制的研究，作为 “与下游任务无关”（也就是 “预训练”）的自然语言长上下文压缩表征的首批成果之一，被开创性的 Transformer 论文引用与认可②，为这一预训练时代的压缩智能奠定了重要的理论基石。

重访路线图（2016 年）：通往 AGI 之路

战略路径：通专融合与科学发现的终极试炼

随着 Scaling Law 赋予了大语言模型广泛的泛化能力（ABI），在 2023 年初我们提出了一个关键的战略设问：通往 AGI 的下一步，仅仅是计算量的堆叠吗？对这些设问的思考促使我在 2023 年提出了 “通专融合” 路径。核心思想是如何动态实行融合人类认知思维的系统 1 和系统 2，以应对各种现实世界的任务。

重新定义 AGI 之路

过去 70 年 AI 的发展长期在 “专业性” 与 “通用性” 两个维度上分别进展。以 AlphaFold 为代表的早期系统是极致的 “专家”，在特定领域超越人类却缺乏迁移能力；而当前的大语言模型则是博闻广识的 “通才”，虽具广度但在处理复杂专业任务时往往难以企及专家深度和缺失关键细节。真正的 AGI 必须打破这种二元对立，构建一种能够动态融合 “系统 1”（直觉式快思考）与 “系统 2”（逻辑式慢思考）的智能架构 —— 即在保持通用认知基座的同时，能够在任意特定任务上通过持续学习与深度推理实现专家级的专精（阐述这一思路系统的立场论文已于 2024 年在 ArXiv 上发表）③。

2024 年末 OpenAI o1 与 2025 年初 DeepSeek-R1 的出现，通过在大模型之上应用强化学习显著提升逻辑推理能力，有力地验证了关于 “通专融合” 路径预判的正确性。2025 年 10 月，约书亚・本吉奥教授等人提出了 AGI 的定义，将其分解为十种核心通用能力以及众多狭义的专业能力。若能全面达成这些能力，即意味着实现了 AGI。这一定义与我们 “通专融合是通往 AGI 的战略路径” 的观点高度吻合 —— 这表明该路径正日益成为整个学术社区的普遍共识。

科学发现：推理智能的终极前沿

下一个前沿领域是什么？我认为是科学发现（Scientific Discovery, SD）。在我看来，除了科学智能（AI for Science, AI4S）所承诺的治愈癌症等诸多益处之外，科学发现更是推理智能的终极考验，因此也是 AI 探索的绝对前沿。科学发现是已知与未知之间复杂的相互作用，涵盖了从假设生成、实验验证到理论总结的全过程。其对 AI 提出了三重极限挑战：

已知的未知：典型的如组合爆炸，比如分子设计或材料科学的搜索空间高达 10^60 量级，远超传统遍历能力；
未知的未知：科学探索本质上是对分布外（OOD）知识的泛化，是对模型创造力的真正考验；
稀疏与延迟奖励：科学实验的周期长、反馈慢，是对强化学习算法的严峻测试④。

因此，科学发现不仅是 AI 的最佳应用场景，更是驱动 “通专融合” 迈向 AGI 的根本动力。

接下来，我想分享我们为应对这一挑战提出的技术架构 ——“智者”SAGE。

技术架构：递归循环的通用专家协同架构“智者”SAGE

为将 “通专融合” 战略转化为可落地的技术方案，上海 AI 实验室在 2024 年提出了“智者”SAGE 架构 —— 其并非若干模型的简单堆砌，而是一个旨在弥合广泛泛化与深度专精鸿沟的统一认知生态系统⑤。该架构由三个逻辑耦合的层次构成：

底部的基础模型层致力于结构上的重构，通过将知识储备与推理能力解耦，为高阶因果推理提供更灵活的 “画布”；
中间的融合协同层通过密集过程奖励机制，动态协调直觉式 “快思考” 与逻辑性 “慢思考”，精准把控泛化与专精的节奏；
顶层的探索进化层则赋予 AI 主动能动性，完成从被动数据拟合到主动环境探索的范式转变。

至关重要的是，SAGE 绝非静态的架构，而是一个递归运行的活体生态。它通过双向循环实现全栈进化：一方面，底层解耦的表征自下而上地支撑推理策略的生成；另一方面，顶层主动发现获得的高水平反馈自上而下回流，将探索中的 “未知” 转化为新的训练信号。这种闭环机制确保了 SAGE 不仅能实现模型参数的优化，更能推动认知策略本身的持续进化。

递归循环的通专融合技术架构“智者”（SAGE）

基础模型层：知识与推理的解构与动态耦合

SAGE 的底层致力于解决现有 LLM 将 “事实记忆” 与 “逻辑推理” 混淆的问题。以记忆解码器（Memory Decoder）⑥为例，它针对性地解决了现有大模型架构的两大顽疾：一是检索增强生成（RAG）在长文本语境推理中存在的显著延迟与高昂工程成本；二是领域自适应全参数微调所带来的算力消耗及灾难性遗忘风险。

作为一种预训练、即插即用的独立组件，记忆解码器创新性地采用与基础模型并行运行并融合输出分布的机制。它首次用紧凑的参数化模型替代了传统非参数检索器，在无需修改基础模型参数、无在线检索开销的前提下，实现了高效的知识注入。实验数据显示，其推理开销仅为基础模型的 1.28 倍，显著低于现有主流方案。这一设计成功填补了 “高密度知识供给” 与 “推理引擎解耦” 之间的技术鸿沟，在 SAGE 框架中实现了推理能力与长期记忆的 “解耦但可集成的推理与知识”，同时强化了 “长期记忆” 能力。

记忆解码器：面向大语言模型的预训练、即插即用记忆体

强化学习：连接基础层与进化层的纽带

强化学习（RL）是连接 SAGE 基础层与融合层、进化层的纽带，也是实现 “通专融合” 的核心动力之一。回顾其演进历程，RL 经历了从早期封闭环境下的博弈（如 AlphaGo），演进至通过 RLHF 实现人类偏好对齐，目前正处于以 o1 和 DeepSeek-R1 为代表的可验证推理（RLVR）阶段，并终将迈向面向物理世界与科学发现的开放式体验学习新纪元。

适用于可通专融合的强化学习及其三大支柱

在微观机制上，RL 被归纳为三大支柱：奖励设计作为 “指南针”，通过稀疏或密集信号界定模型专精的目标；策略优化作为 “引擎”，涵盖从 PPO 到 GRPO 的算法迭代，驱动模型高效更新；采样与探索则决定了模型在庞大搜索空间中的导航路径⑦。

鉴于不同任务对 RL 配置的需求各异，构建系统的核心技术挑战在于统一：我们如何将多样性的最佳的奖励机制、策略优化与采样探索整合为一个协调一致的系统，从而打造出真正的 “可深度专业化通用模型”？

融合协同层：强化学习驱动的深度推理进化

在 SAGE 架构中，融合协同层承载着协调 “直觉快思考” 与 “逻辑慢思考” 的核心职能，而强化学习（RL）则是实现这一动态协同的关键桥梁。为了构建一个真正的 “可深度专业化通用模型”，必须克服传统 RL 在复杂推理任务中面临的三大核心挑战：高昂的监督成本、训练过程中的熵坍缩以及单一路径的模式崩溃。为此，我们在该层引入了三项具有范式意义的算法创新，旨在构建密集的奖励机制、维持持续的探索能力以及激发推理路径的多样性。

隐式奖励强化学习算法（PRIME）：突破高密度监督的成本悖论

高度专家化的模型与人类专家在学习机制上具有相似性：专家化模型在训练过程中需要更密集的反馈信息。对于 “通专融合” 大模型而言，要解决科学发现中的长链条推理问题，仅依赖最终结果的稀疏奖励往往捉襟见肘，模型急需密集的逐步监督信号。然而，传统的解决方案依赖于过程奖励模型（PRM），这要求对海量推理步骤进行人工细粒度标注，其成本之高昂，使得规模化扩展几乎成为不可能。

针对这一 “高密度监督需求” 与 “高昂标注成本” 之间的矛盾，我们提出了 PRIME 算法⑧ ，旨在从理论层面推导并获取 “免费” 的过程奖励。其核心洞察在于，利用策略模型与参考模型之间的统计差异。通过将模型训练目标设定为基于两者对数似然比的结果奖励模型，我们从数学方面证明，该模型能够隐式地习得 Q 函数。这意味着，智能体在无需显式训练庞大的 PRM 模型的情况下，即可在推理的每一个步骤中，通过计算动作在当前状态下的优劣，直接推导出密集的、逐步的奖励信号。

隐式奖励强化学习算法（PRIME）

这一创新带来了多维度的显著优势：

计算效率的飞跃：与 Math-Shepherd 等依赖独立 PRM 模型的方法相比，PRIME 在推理阶段无需额外的模型调用开销，直接利用生成模型本身的概率分布即可获得反馈，极大地提升了计算效率；
系统架构的可扩展性：在 SAGE 的系统实现中，PRIME 方案展现出极强的工程韧性。我们将策略模型与隐式 PRM 进行联动，依托结果验证器和前序步骤产出的自由过程奖励，构建了高效的在线更新闭环；
极致的数据效率：实验表明，PRIME 方案仅需 SOTA 模型 1/10 的训练数据量，即可达到相当的性能水平，极大地降低了对高质量标注数据的依赖。

基准测试结果有力地验证了 PRIME 的有效性：在 AIME 2024 数据集上，模型准确率提升了 23.4%；在 AMC 数据集上提升了 27.7%；在 MATH-500 等权威测试中也取得了显著增长。这一系列数据充分证明，通过隐式机制构建的稠密奖励，能够有效驱动模型突破复杂推理的瓶颈。

强化学习的熵机制：避免 “过度自信” 导致探索止步

专家化模型的训练不仅需要反馈，更需要持续不断的学习。在深入研究用于推理的强化学习时，我们揭示了一个阻碍模型进化的根本性障碍 —— 熵坍缩。通俗地讲，这等同于解决如何让通用模型在专家化的过程中，始终保持探索与好奇心，让模型和顶级人类专家一样在专业问题的挑战上避免过早过分自信，而是 “stay hungry, stay foolish”（求知若饥，虚心若愚）。

在训练过程中，随着模型性能的初步提升，策略熵往往会急剧下降。这种下降意味着模型对其输出的置信度快速提高，导致其过早地收敛于局部最优解，从而丧失了探索更优推理路径的可能性。实验数据显示，熵的消耗主要集中在训练的前数百步，此后模型的性能提升便迅速进入边际效益递减阶段。这种现象极似人类认知中的 “过度自信”，即因自满而停止了对问题细微差异的主动探索 —— 而这种主动探索，恰恰是通用模型进化为能捕捉深层规律的 “专精模型” 的关键所在。

为了解决这一问题，我们深入探究了熵与奖励之间的权衡机制，并发现了一个关键的定量关系：验证性能（R）与熵（H）呈现显著的对数线性相关⑨。这一简洁而深刻的结论为训练方案的优化指明了方向：构建可扩展推理 RL 框架的难点，不在于单纯堆砌训练时长，而在于对熵消耗的精细化管理，确保模型在训练全周期内保留足够的不确定性，以驱动持续的探索。

我们提出了一种精准化、局部化且轻量化的熵控制方案：针对这类标记开展选择性调控（如采用 Clip-Cov、KL-Cov 等方法），能够达成局部、轻量的熵控制效果，既保障模型探索性不受损，又不会干扰正常优化流程。该方法实现了对熵的局部控制，既保障了模型的探索性不受损，又避免了对正常优化流程的干扰。应用该策略后，模型在保持高探索能力的同时，显著提升了下游任务的准确率。这一方法已被实验室的“书生”科学多模态大模型 Intern-S1 等多个头部机构采纳应用，其相关成果更由斯坦福 Yejin Choi 教授在 2025 年神经信息处理系统大会（NeurIPS）上进行了重点阐述。

强化学习的熵机制

匹配大语言模型推理的奖励分布（FlowRL）：实现专家化模型能力多元化

真正的专家不仅能解决问题，更能能为同一个问题提供多种解决方案，专家化模型亦是如此。然而，现有的标准强化学习方法（如 PPO、GRPO）普遍以 “奖励最大化” 为单一目标。这种导向在复杂推理任务中极易导致模式崩溃，即模型倾向于反复收敛至单一的、已知的成功路径，而忽略了其他潜在的更优解或多样化解法。

传统 RL 方法生成的分布与目标分布之间的 KL 散度高达 8.68，表现为极端的尖峰，意味着模型探索空间的极度狭窄。为了赋予模型真正的专家级思维多样性，我们在融合层引入了 FlowRL⑩，这是一项借鉴生成流网络（GFlowNets）思想的创新工作，标志着强化学习优化逻辑的范式转变。

FlowRL 的核心在于将学习目标从 “奖励最大化” 重构为 “分布匹配”。模型不再仅仅追逐单一的高分答案，而是致力于学习所有有效推理路径的概率分布。

分布拟合：FlowRL 生成的分布能够捕捉目标分布中的绝大多数概率质量，拟合多个模态。如左侧平滑曲线所示，其 KL 散度大幅降低至 0.11，显著优于传统方法；
多样性生成：习得的策略在推理过程中能够自然地促进更多样化路径的生成，从而在面对 “未知的未知” 时具备更强的鲁棒性。

案例显示，在处理同一道数学推理题时，GRPO 模型陷入了思维死循环，推理过程重复且最终未能求解；而 FlowRL 模型则成功探索了多样化的推理路径，最终得出了正确答案 721。

整体实验结果进一步证实了 FlowRL 的优越性：

准确率提升：在 32B 模型的训练条件下，FlowRL 在数学推理任务中取得了 48.39% 的准确率，较 GRPO 提升 10 个百分点，较 PPO 提升 5.1 个百分点；
竞赛级表现：基于纯开源数据训练后，FlowRL 在 CodeForces 平台的评级达到 1549 分，性能直逼 o1-preview 水平；
多样性倍增：FlowRL 生成的解决方案多样性评分高达 2.28，约为 PPO 的 2 倍。

匹配大语言模型推理的奖励分布（FlowRL）

探索进化层：从被动拟合到主动认知探索

SAGE 架构的顶层探索进化层承载着通往 AGI 最关键的愿景 —— 打造一个具备自演化能力的 “可深度专业化通用模型”。这一层的核心挑战在于，如何让通用模型不仅在单一任务上实现深度专精，更能在大规模任务集乃至复杂的物理世界中，通过持续的交互与反馈实现自我迭代。为了应对这一挑战，我们从信号（Signal）、规模（Scale）与落地（Ground）三个关键维度出发，构建了一套完整的进化机制。

信号维度：测试时强化学习（TTRL）与自我进化

在推理测试阶段，模型面临的最大困境在于训练数据与测试数据之间的分布偏移。一旦失去真实标签的引导，传统模型便停止了学习步伐。然而，真正的 “专家”—— 如同人类物种一样 —— 应当具备在任何未知境况下持续学习适应的能力。

针对这一痛点，我们提出了测试时强化学习（Test-Time Reinforcement Learning, TTRL）框架⑪ ，其核心洞察建立在一个简洁的假设之上：共识即意味着正确性（Consensus implies correctness）。

具体而言，TTRL 在推理过程中对多个候选解决方案进行采样，并将多数投票的结果作为 “代理奖励”，进而利用测试数据流直接对模型参数进行在线更新。这一方法在技术实现上具备极致的轻量化特性，仅需不到 20 行代码，即可将任何推理轨迹转化为有效的训练信号，实现了模型在无监督环境下的 “自我举证” 与 “自我增强”。

测试时强化学习与自我进化（TTRL）

实测数据验证了 TTRL 的惊人潜力：

性能跃升：在 AIME 2024 数据集上，搭载 TTRL 的 Qwen-2.5-Math-7B 模型准确率实现了 159% 的相对提升；
自我超越：TTRL 优化后的模型展现出了 “青出于蓝” 的特性，其性能不仅超越了自身的 “最优 N 采样” 基准线，甚至逼近了使用带真实标签训练的理论上限（Oracle 基线）；
强泛化性：在 AMC、MATH-500 等未见过的权威基准测试中，模型同样表现出强劲的泛化能力。

TTRL 的成功证明了智能体具备自主螺旋式上升的成长潜力，为 SAGE 架构中的自我进化提供了一条简洁高效的路径。

规模维度：InternBootcamp 与任务扩展定律

在解决了 “怎么学” 的信号问题后，必须回答 “在哪学” 的规模问题。通专融合模型不仅需要在单一任务上通过 “慢思考” 实现专精，更需要在成百上千个任务上同时实现能力适配。此外，我们还希望探索一个更深刻的问题：当测试任务的数量与多样性同步扩增时，是否存在专门针对在测试环境下、针对任务数量的 Scaling Law？

为此，我们研发了大规模、标准化、可扩展的交互验证环境 ——InternBootcamp ⑫。

作为首个覆盖 8 大任务类别、超 1000 种多样化环境的平台，InternBootcamp 支持在指定环境中开展大规模强化学习训练。其独特的 “任务与验证函数自动生成” 能力，使得用户能够便捷地将电路设计等专业领域任务转化为可验证环境，通过仿真手段完成结果核验。

InternBootcamp 覆盖 8 大任务类别、超 1000 种多样化任务环境

基于 InternBootcamp 的实验揭示了两个重要现象：

能力的 “涌现”：在 BootcampEVAL 评测集中，Qwen2.5-32B 模型的平均性能实现了翻倍式增长（从 24.4 提升至 59.5）。更为关键的是，部分在单任务训练下无法解决的逻辑任务，在经过 500 余项混合任务训练后变得可解。这证实了任务间的隐性关联能够有效增强模型的综合理解能力。
任务扩展定律：实验数据显示，当任务类型数量从 8 种扩展至 512 种时，模型性能呈现持续上升趋势。这一结果证实了与任务数量增长相关的规模化定律真实存在，为未来大规模训练提供了理论依据。

落地维度：SimpleVLA-RL 与xx智能演进

进化的终局，是回归物理世界。当前xx智能面临的核心瓶颈是数据匮乏：机器人演示数据获取成本极高，且单纯扩大监督微调（SFT）规模面临边际效益递减。我们认为，强化学习（RL）凭借其突破演示数据局限的探索能力，结合简单的二元奖励（成功 / 失败），足以成为解决这一问题的钥匙。

基于此，我们提出了极端数据稀缺情况下的在线强化学习框架 ——SimpleVLA-RL ⑬。该框架基于视觉 - 语言 - 动作（VLA）模型，结合 GRPO 优化目标，并通过并行多环境渲染技术支持交互式轨迹采样。

极端数据稀缺情况下的在线强化学习框架 SimpleVLA-RL

实验结果颠覆了对数据效率的传统认知：

超高数据效率：仅需 “单轨迹” 监督微调结合 RL，即可实现 96.9% 的成功率，性能反而超越了全轨迹监督微调；
策略涌现：机器人通过 RL 自主探索出了从未被演示过的全新推控策略，展现出强大的适应性；
Sim-to-Real 突破：在叠碗等典型操作任务中，仿真到现实的迁移成功率提升了 21%；
长时程任务能力：在近期落地中，该方案在长时程灵巧操作任务上，实现了相对性能提升 300%，并展现出令人惊喜的自主恢复能力。

得益于 SimpleVLA-RL，我们仅用极少的数据与计算资源，便取得了可与 Physical Intelligence 团队 π*0.6 模型比肩的性能表现。这一成果标志着 SAGE 架构彻底打通了负责推理决策的 “大脑” 与负责执行动作的 “躯体”，真正实现了智能体在物理世界中的 “xx化” 演进。

经过近两年的扎实探索，SAGE 架构已跨越理论构想阶段，完成了全栈验证。在基础层，MemoryDecoder 实现了记忆与计算的结构性解耦；在融合层，PRIME 与 FlowRL 攻克了监督稀缺与推理单一性的难题；在进化层，TTRL、InternBootcamp 与 SimpleVLA-RL 构建了从测试时强化到 “xx化” 演进的闭环。

范式革命：从 AI4S 到 AGI4S

尽管以 AlphaFold 为代表的 AI for Science（AI4S）技术在蛋白质折叠、气象预测等特定领域取得了里程碑式成就，但近期《Nature》发表的研究指出，过度依赖现有深度学习模型可能局限新知识的探索边界，甚至在某种程度上阻碍创新。这印证了我们的核心观点：擅长处理数据充足、定义明确任务的传统深度学习，若仅作为工具存在，难以应对科学发现中 “未知的未知”。

系统性的评估进一步揭示了当前前沿模型的短板。我们联合来自 10 个不同科学领域的 100 位科学家设计了评估体系，结果显示：前沿模型在通用科学推理任务中得分可达 50 分（满分 100），但在各类专业推理任务（如专项文献检索、具体实验方案设计）中，得分骤降至 15-30 分。

这种明显的 “木桶效应” 表明，科学发现全周期的效能正受制于专业推理能力的最薄弱环节。因此，整合通用推理与专业能力，进而推动科学智能从 AI4S 向 AGI4S 迭代成为必然选择。

研究表明，当前所有前沿模型的科学能力均显不足

从 AI4S 迈向 AGI4S，这一升级旨在推动研究者、研究工具与研究对象的协同演进。通过 AGI 促进三者相互作用、协同演进、螺旋式上升，将创造出真正 “革命的工具”，推动科研范式变革⑭。

从 AI4S 1.0 到 AI4S 2.0（AGI4S）

Intern-S1：面向科学的可深度专业化通用模型

为打破上述瓶颈，我们研发了 “书生” 科学多模态大模型（Intern-S1）⑮。作为 SAGE 架构在科学领域的集中体现，Intern-S1 旨在构建一个既具备强大通用能力，又能理解复杂科学数据的 “可深度专业化通才”。其在三个层面进行了深度创新：

基础层（数据适配）：针对科学数据的多模态异构性，提出了科学专用架构。采用动态分词器与专用编码器，原生支持 DNA 序列、蛋白质结构、时间序列等 10 余种模态。相较于 GPT-OSS 等通用模型，其在科学数据上的压缩率提升了 1.7 倍，并基于 2.5 万亿高质量科学 Token 进行了预训练。
融合层（混合奖励）：构建了混合奖励框架（MoR），将多种强化学习算法与熵机制整合。该框架平衡了计算、推理、实验设计等不同技能所需的奖励信号，有效缓解了特定任务过拟合问题，增强了模型在跨领域复杂推理中的泛化能力。
进化层（交互专精）：依托 InternBootCamp 框架，模型在超 1000 项专业任务（如逆合成分析）中与模拟器进行交互学习，实现了大规模的任务专精。

测评结果显示，Intern-S1 在通用能力上对齐 SOTA 开源模型，而在涵盖化学、生物、材料等 9 大领域的科学性能上，全面超越了包括 GPT-5 和 Grok-4 在内的顶尖闭源模型。

Intern-Discovery：全流程科学智能体系统

如果说 Intern-S1 是科学大脑，那么 Intern-Discovery 则是具备行动力的科学智能体。该平台构建了一个将 Intern-S1 与海量数据、2000 + 专业工具及湿实验室验证环境深度融合的智能体系统，实现了从假设生成到实验验证的闭环。

Intern-Discovery 的核心逻辑在于建立 “智能体生成” 与 “智能体验证” 的双向循环：前者主动洞察现象、提出假设并设计实验；后者通过仿真与物理实验验证假设，并将反馈回传以修正认知。

为支撑这一复杂流程，系统引入了两大关键支柱：

科学智能上下文协议（SCP）⑯：针对现有 MCP 协议在科学资源整合上的不足，SCP 定义了领域特定的结构与协调机制，实现了对数据集、湿实验室设备及复杂工作流的标准化调度与全生命周期管理。
分层记忆模块：通过策略程序记忆（SPM）、任务情景记忆（TEM）与语义知识记忆（SKM）的协同，系统能够沉淀高阶研究模式、记录实验细节并整合长期知识，从而在持续迭代中避免逻辑幻觉。

案例实证：重塑科学发现流程

Intern-Discovery 已在气候科学与生物医学领域展现出 “革命性工具” 的潜力。

在气候科学领域，面对降水预测中极端复杂的非线性交互，Intern-Discovery 自主调用 30 余种工具，分析了 20 年的多模态数据。它写了 4000 多行专业代码，成功发现了被人类专家忽略的水汽与动力项关联，并推导出一个简洁的新型显式非线性方程。该方程不仅形式优雅简洁，且显著提升了模拟精度，有效修正了长期存在的系统性偏差，证明了智能体在理论构建层面的创造力⑰。

Intern-Discovery 在气候科学的应用案例

在生物医学领域，虚拟疾病生物学家 “元生” 通过模仿人类科学家的思维模板，整合遗传学、蛋白质组学及临床文献等多源数据。即便在数据稀疏条件下，它仍成功发现并验证了具有高临床潜力的隐藏靶点，展示了从数据到机制、从假说到验证的全流程智能化能力。

Intern-Discovery 在生物医学的应用案例

从 Intern-S1 的底层推理突破到 Intern-Discovery 的系统级应用，我们正逐步构建起一套覆盖科学发现全周期的 AGI4S 基础设施。这不仅是工具的革新，更是科研范式的重塑 —— 让人工智能真正成为推动科学边界拓展的合作伙伴。

行动召唤：共拓新世界蓝图

综上所述，我们正处在实现 AGI 的前夕，若 AGI = 通专融合（Specialized Generalist），则可深度专业化的通用模型（Specializable Generalist）是实现 AGI 的可行路径，而“智者”SAGE 的三层技术框架正是驱动后者发展的核心架构。

下一个前沿阵地是科学发现 —— 它既是推理智能的终极试炼场，也是 “通专融合” 的验证舞台，大规模推理将赋能科学发现，科学发现亦将反哺推理能力的进化。

Intern-S1 与 Intern-Discovery 是迈向该方向的首步实践，但这一切仅仅是初始的雏形。如果将“智者”SAGE 架构比作一张新世界的地图，我们目前已建立了很好的初步验证与很多尖兵前哨站，但这张地图上仍存在广阔的 “空白区域”。

架构已经就绪，但画卷仍存在大片留白。如果这些初步进展激起了你的兴趣，我邀请你深入阅读我们的论文与代码 —— 它们都是开源的。但更重要的是，我邀请志同道合者与我们一同填补这些空白，共同构建完整的蓝图。

谢谢！

本次报告核心要点总结

参考文献

① Shanghai Artificial Intelligence Laboratory. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [J]. arXiv preprint arXiv:2512.16969v1, 2025.

② Vaswani A, et al. Attention is all you need [C]// Advances in neural information processing systems, 2017, 30.

③ Zhang K, Qi B, Zhou B. Towards building specialized generalist ai with system 1 and system 2 fusion [J]. arXiv preprint arXiv:2407.08642, 2024.

④ Qi B, Zhang K, Tian K, ..., Zhou B. Large language models as biomedical hypothesis generators: a comprehensive evaluation [C]. COLM, 2024.

⑤ Zhou B. Building AGI through Specialized Generalist AI: pathways and key issues [J]. Communications of CCF, 2025, 21 (1): 54-62.

⑥ Cao J, Wang J, Wei R, ..., Zhou B, Lin Z. Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models [J]. arXiv preprint arXiv:2508.09874, 2025.

⑦ Zhang K, Zuo Y, He B, ..., Zhou B. A survey of reinforcement learning for large reasoning models [J]. arXiv preprint arXiv:2509.08827, 2025.

⑧ Cui G, Yuan L, Wang Z, ..., Zhou B, Ding N. Process Reinforcement through Implicit Rewards [J]. arXiv preprint arXiv:2502.01456, 2025.

⑨ Cui G, Zhang Y, Chen J, ..., Zhou B, Ding N. The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [J]. arXiv preprint arXiv:2505.22617, 2025.

⑩ Zhu X, Cheng D, Zhang D, ..., Zhou B, Mei H, Lin Z. FlowRL: Matching reward distributions for LLM reasoning [J]. arXiv preprint arXiv:2509.15207, 2025.

⑪ Zuo Y, Zhang K, Sheng L, ..., Ding N, Zhou B. TTRL: Test-Time Reinforcement Learning [C]// NeurIPS, 2025.

⑫ Li P, Ye J, Chen Y, ..., Zhou B, Chen K. InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [J]. arXiv preprint arXiv:2508.08636, 2025.

⑬ Li H, Zuo Y, Yu J, ..., Zhou B, Ding N. SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [J]. arXiv preprint arXiv:2509.09674, 2025.

⑭ Zhou B, Ding N, Bai L, Zhou H. Advancing AI for science: From the revolution of tools to the tools for revolution [J]. AI Open, 2025, 6: 323-328.

⑮ Shanghai AI Laboratory. INTERN-S1: A SCIENTIFICMULTIMODAL FOUNDATION MODEL [J]. arXiv preprint arXiv:2508.15763, 2025.

⑯ Jiang Y, Lou W, Wang L, ..., Zhou B. SCP: Accelerating Discovery with a Global Web of Autonomous Scientific Agents [J]. arXiv preprint arXiv:2512.24189, 2025.

⑰ Guo Z, Wang J, Ling F, ..., Zhou B, Bai L. A Self-Evolving AI Agent System for Climate Science [J]. arXiv preprint arXiv:2507.17311v3, 2025.

....

#AlphaGo之父David Silver离职创业

目标超级智能~

又一位 AI 大佬决定创业，这位更是重量级。

《财富》等媒体本周五报道说，在 Google DeepMind 众多著名突破性研究中发挥关键作用的知名研究员 David Silver 已离开公司，创办了自己的初创公司。

知情人士称，Silver 正在伦敦创办一家名为 Ineffable Intelligence 的新公司。该公司目前正在积极招聘人工智能研究人员，并寻求风险投资。

Google DeepMind 已于本月初向员工宣布了 Silver 的离职消息。Silver 在离职前的几个月里一直处于休假状态，并未正式返回 DeepMind 工作岗位。

Google DeepMind 的一位发言人在电子邮件声明中证实了 Silver 离职的信息，表示：「Dave 的贡献是无价的，我们非常感谢他对 Google DeepMind 工作所做出的贡献。」

根据英国公司注册处 Companies House 的文件显示，Ineffable Intelligence 公司成立于 2025 年 11 月，Silver 于今年 1 月 16 日被任命为该公司董事。

此外，Silver 的个人网页现在将他的联系方式列为 Ineffable Intelligence，并提供了一个 Ineffable Intelligence 的电子邮件地址。

除了在谷歌 DeepMind 的工作之外，Silver 还是伦敦大学学院的教授。他目前仍然保留着这一教职。

在 AI 领域，David Silver 的大名无人不知，他是 DeepMind 众多突破性成就背后的关键人物。

Silver 是 DeepMind 于 2010 年成立时的首批成员之一。他与 DeepMind 联合创始人德米斯・哈萨比斯（Demis Hassabis）在大学时期就已相识。Silver 在公司早期的许多突破性成就中发挥了关键作用，包括 2016 年围棋 AI 系统 AlphaGo 的里程碑式成就，它证明了人工智能可以击败世界上最优秀的围棋棋手。

David Silver、哈萨比斯和李世石。

他也是开发 AlphaStar 团队的关键成员之一。在 2019 年 8 月，AlphaStar 在欧洲星际争霸 II 天梯上达到了大师级水平，跻身人类玩家的前 0.2%。

Silver 还参与开发了 AlphaZero，该程序能够以超人的水平玩国际象棋、日本将棋和围棋；以及 MuZero，该程序即使在没有任何游戏知识（包括游戏规则）的情况下，也能比人类更好地掌握多种不同的游戏。

2024 年 7 月，Silver 与 DeepMind 团队合作开发了 AlphaProof，这是一个实现国际数学奥赛银牌水准的 AI 系统。David Silver 也是 2023 年发表的介绍谷歌首个 Gemini 系列 AI 模型的研究论文的作者之一。Gemini 现在是谷歌领先的商业 AI 产品和品牌。

另有知情人士透露，Silver 告诉朋友们，他渴望重拾「解决 AI 领域最棘手难题的敬畏与奇妙之感」，并将超级智能 —— 即比任何人类都更聪明、甚至可能比全人类都更聪明的人工智能 —— 视为该领域最大的未解之谜。

近年来，多位知名 AI 研究人员离开老牌 AI 实验室，创办了致力于追求超级智能的初创公司。OpenAI 前首席科学家 Ilya Sutskever 于 2024 年创立了一家名为 Safe Superintelligence (SSI) 的公司。该公司迄今已筹集了 30 亿美元的风险投资，据报道估值高达 300 亿美元。

一些 David Silver 的同事，曾参与 AlphaGo、AlphaZero 和 MuZero 项目的科学家们最近也离职创办了 Reflection AI，这家初创公司也声称正在研发超级智能。另一方面，Meta 去年重组了其人工智能部门，成立了新的「超级智能实验室」，该实验室由 Scale AI 前首席执行官兼创始人 Alexandr Wang 领导。

而 Meta 原首席人工智能科学家、图灵奖得主 Yann LeCun 则选择离职，正为其新创立的 AI 公司寻求融资。

David Silver 本科毕业于剑桥大学，2004 年赴加拿大阿尔伯塔大学攻读强化学习博士学位。他曾获得 2019 年 ACM 计算奖、英国皇家工程院银质奖章等多项荣誉。目前 Silver 的论文被引用量已经超过 28 万次。

作为 2024 年图灵奖得主 Richard Sutton 的门生，David Silver 以其在强化学习（Reinforcement learning）方面的研究而闻名，这是一种训练 AI 通过试错和反馈来学习如何做决策的方法。

David Silver 虽然不是强化学习的提出者，但经常被认为是强化学习最坚定的支持者之一，他认为这是创造有一天能够超越人类知识的人工智能的唯一途径。

在谷歌 DeepMind 于去年 4 月份发布的一档播客节目中，David Silver 表示，大型语言模型（LLM）虽然功能强大，但也受到人类知识的限制，他表示，「我们想要超越人类的认知，为此我们需要一种不同的方法，这种方法需要 AI 能够真正地自己去探索，并发现人类尚不知道的新事物。」

他呼吁 AI 进入一个以强化学习为基础的全新「经验时代」。

目前，大语言模型有一个「预训练」开发阶段，该阶段使用无监督学习。它们会吸收大量的文本，并学习预测在给定上下文中哪些词在统计学上最有可能出现在其他词之后。然后，它们还有一个「后训练」开发阶段，该阶段确实会使用一些强化学习，通常由人类评估员查看模型的输出并向模型提供反馈，有时反馈形式只是简单的「好」或者「不好」。通过这种反馈，模型生成有用输出的倾向会得到增强。

但这种训练方式的上限被人类知识锁死 —— 这既是因为它依赖于人类过去学习和记录的知识（在预训练阶段），也是因为大型语言模型后训练阶段的强化学习最终是基于人类的偏好。然而，在某些情况下，人类的直觉可能是错误的或短视的。

例如，在 AlphaGo 2016 年与围棋世界冠军李世石的第二局比赛中，AlphaGo 的第 37 手棋就出乎所有人的预料，以至于所有评论比赛的人类专家都确信这是一个昏招。但事实证明，这最终成为 AlphaGo 赢得那场比赛的关键，体现了 AI 超乎寻常的「大局观」。

同样，人类国际象棋棋手也经常将 AlphaZero 的下棋方式描述为「非人类的」—— 然而，它那些看似违反直觉的走法却常常被证明是绝妙的。

如果在大语言模型的后训练阶段采用强化学习过程，人类评估者可能会对这些走法给出负面评价，因为在人类专家看来，这些走法像是错误的。也许这就是为什么像 Silver 这样的强化学习纯粹主义者认为，要想达到超级智能，AI 不仅要超越人类知识，还需要摒弃人类知识，从零开始，从基本原理出发，学习如何实现目标。

一位熟悉 Silver 想法的人士表示，Silver 创立的 Ineffable Intelligence 公司旨在构建「一种能够不断学习的超级智能，它可以自主发现所有知识的基础」。

人们预计 Ineffable Intelligence 正式宣布融资时，将会出现一个巨大的融资数额。

参考内容：

https://fortune.com/2026/01/30/google-deepmind-ai-researcher-david-silver-leaves-to-found-ai-startup-ineffable-intelligence/

https://www.youtube.com/watch?v=zzXyPGEtseI

https://davidstarsilver.wordpress.com/

....

#Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods

机器人xx操作评估新范式来了，从此告别单一成功率指标

作者介绍：刘梦源，北京大学深圳研究生院研究员，研究领域为人类行为理解与机器人技能学习；盛举义，北京大学在读博士研究生，研究方向为机器人操作技能学习方法研究；王梓懿、李培铭，北京大学在读硕士研究生，研究方向为视频理解分析；徐天铭，北京大学在读硕士研究生，研究方向为机器人操作技能学习方法研究；徐天添，中国科学院深圳先进技术研究院集成所研究员，研究领域为磁控微型机器人导航、机器人的协同控制等；刘宏，北京大学深圳研究生院教授，研究领域为计算机视觉与智能机器人、机器学习与智能人机交互。

论文标题：Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
论文链接:https://arxiv.org/abs/2601.18723
代码链接: https://github.com/LogSSim/TERM-Bench

随着 Vision-Action (VA) 和 Vision-Language-Action (VLA) 模型的爆发，机器人模仿学习取得了长足进步。然而，当前的评估体系却面临着严重的「信任危机」。现有的评估范式主要依赖二元的「成功率（Success Rate）」，这种简单的指标掩盖了两个关键问题：

执行质量的模糊性（Gap 1）：同样是「成功」完成任务，模型 A 可能动作僵硬、伴随剧烈抖动（Jerky Success），而模型 B 则行云流水。传统的二元评价无法区分二者，导致潜在的安全隐患被忽视。
来源的模糊性（Gap 2）：在一些已有的展示视频中，不仅难以判断动作是否由真正的自主策略生成，甚至难以分辨其是否由人类远程操作（Teleoperation）「冒充」。

为了解决上述评估信任危机，北大与中科院团队提出了一套完整的解决方案：Eval-Actions 评估基准与 AutoEval 自动化评估架构。该方案旨在从「细粒度动作质量」和「来源真实性」两个维度，重塑机器人操作的评估标准。

图 1 (上) 评估危机：现有二元指标掩盖了执行质量（如「抖动成功」与「平滑成功」的区别）和来源真实性（难以区分策略生成与人类遥操作）的模糊性。 (下) 解决方案：Eval-Actions 基准与 AutoEval 架构（绿色部分）相结合，填补了这两大空白，实现了精准的细粒度质量评估与鲁棒的来源验证，显著优于传统的通用 VLM（红色部分）。

填补空白：首个面向评估完整性的 Eval-Actions 基准

表格 1 机器人操作数据集的对比分析。与以模型训练为核心、追求原始轨迹数据量最大化的数据集不同，Eval-Actions 以标注密度最大化为设计目标，独有的优势在于提供故障场景数据、混合轨迹数据源。

为了打破现有数据集仅关注「成功演示」的局限，研究团队构建了 Eval-Actions 基准。与 Open X-Embodiment 等以训练为目的的数据集不同，Eval-Actions 专为诊断性评估而生。

包含失败场景：数据集不仅包含成功的轨迹，还创新性地引入了约 2.8k 条失败数据。这对于模型学习错误恢复和鲁棒的失败检测至关重要。
混合来源验证：数据集混合了人类遥操作数据与多种策略（VA 及 VLA 模型）生成的轨迹，为验证「来源真实性」提供了数据基础。
多维监督信号：提供了专家评分（Expert Grading）、排序引导（Rank-Guided）以及思维链（Chain-of-Thought, CoT）三种层次的注释，支持从数值评分到逻辑推理的全方位评估。

图 2 Eval-Actions 基准概览。包含从单臂到双臂的 150 + 任务，并提供细粒度的质量雷达图与 CoT 注释。

AutoEval：双引擎驱动的自动化评估专家

为了实现对机器人行为的精准诊断，团队设计了 AutoEval 框架。它并未采用单一模型，而是针对不同的评估维度，创新性地提出了 AutoEval-S 和 AutoEval-P 两种架构，分别解决「看不清细节」和「胡乱推理」的难题。

1. AutoEval-S：精准捕捉动作细节

传统的 VLA 模型往往只能处理稀疏的关键帧，容易遗漏动作执行过程中的抖动或停顿。AutoEval-S（Small）引入了时空聚合策略（Spatio-Temporal Aggregation）。

高频细节压缩：它并没有简单丢弃中间帧，而是将高频的运动细节「压缩」进视觉 Token 中，最大化了时间信息的密度。
物理信号校准：辅以运动学校准信号（Kinematic Calibration Signal），直接利用速度和加速度方差等物理数据来校准视觉评估，确保评分精准反映动作的平滑度与安全性。

2. AutoEval-P：具备逻辑推理能力的「考官」

当需要模型输出思维链（CoT）进行解释时，传统模型常出现「幻觉」，即推理逻辑与打分不一致（例如嘴上说「动作完美」，实际上物体已经掉了）。AutoEval-P（Plus）引入了组相对策略优化（GRPO）范式。

强制言行一致：通过强化学习，AutoEval-P 被训练在生成评分的同时，必须给出逻辑自洽的物理推理。其混合奖励函数（Hybrid Reward Function）同时约束内容的准确性和格式的规范性，有效消除了大模型的推理幻觉。

图 3 上分支 (AutoEval-S)：专为评分与排序设计。采用时空聚合策略将高频运动细节压缩至视觉 Token，并辅以物理校准信号，精准捕捉动作中的细微抖动。下分支 (AutoEval-P)：专为思维链（CoT）推理设计。引入 GRPO 强化学习范式，通过混合奖励函数（内容 + 格式）强制模型生成逻辑自洽的物理推理与评分，有效解决大模型的「幻觉」问题。

实验结果：树立可信评估新标准

在 Eval-Actions Small (EAS) 子集上的广泛实验表明，AutoEval 框架在多项指标上展现出卓越性能，全面超越了 InternVL、QwenVL 等通用大模型。

1. 极高的来源辨别力：让「造假」无处遁形

AutoEval 能够以 99.6% 的准确率区分视频是来自真实的策略生成还是人类遥操作，有效解决了「来源模糊性」问题，为机器人社区提供了一套权威的防伪工具。

2. 细粒度评分高度对齐人类

在衡量动作平滑度、安全性和效率的综合质量评分上，AutoEval-S 与人类专家的判断高度一致。

在专家评分（EG）协议下，SRCC 达到 0.81 。
在排序引导（RG）协议下，SRCC 高达 0.84，显著优于未微调的 InternVL3.5-4B (SRCC ≈ 0.02) 和 QwenVL3-4B。

表格 2 Eval-Actions 基准上的性能对比在专家评分（EG）、排序引导（RG）及思维链（CoT）三种协议下，AutoEval 均取得了 SOTA 性能。特别是在 RG 协议下，AutoEval-S 的评分相关性（SRCC）达到 0.84，来源预测准确率高达 99.6%，远超未微调的 InternVL 和 QwenVL 等基线模型。

图 4 细粒度动作质量评估的定性对比

3. 跨构型泛化能力

即使在未见过的 Franka 机器人数据上，AutoEval 依然保持了稳健的评估能力。AutoEval-S 在新形态机器人上仍能达到 0.75 的评分相关性（SRCC）和 90% 的来源预测准确率，展现了强大的跨实体泛化潜力。

表格 3 AutoEval 在未见构型 Franka 机械臂数据上的泛化实验结果

4. 区分远程操作和策略执行视频

....

#前OpenAI研究VP宣布创业

挑战Transformer，前OpenAI研究VP宣布创业，拟融资10亿美元

Transformer 是当前 LLM 大发展的核心基础，但也有不少顶尖研究者更愿意探索其它道路。在这其中，甚至包括 Transformer 的创造者之一、Sakana AI 创始人联创兼 CTO Llion Jones。他今天还在 Sakana 的官推上发了一篇博客，题目便赫然是《为什么 Transformer 的这位创造者受够了 Transformer》。

https://x.com/SakanaAILabs/status/2016844349188034922

「我不是说我们应该扔掉 Transformer。但就我个人而言，我正在大幅减少研究它们的时间。我明确地在寻找下一个目标。」他写道，「让我们一起加大探索力度。别再纠缠于同一个地方，去寻找下一座高峰吧。」

也恰在今天，The Information 报道揭示了前 OpenAI 研究 VP Jerry Tworek 创立的一家正在探索「下一座高峰」的新创业公司 Core Automation。

在效力 OpenAI 期间，Tworek 曾担任研究副总裁，负责强化学习领域的工作。此外，他还是 OpenAI 推理模型、编程工具和 AI 智能体开发的关键贡献者。

据知情人士透露，Core Automation 刚成立几周时间，目前正寻求 5 亿至 10 亿美元的融资。

报道说，根据向潜在投资者展示的材料，Tworek 计划采用一种与 OpenAI、Anthropic 等大厂截然不同的路径来开发 AI 模型。知情人士称，他希望打造具备「持续学习」（Continual Learning）能力的模型，即能够从现实世界的实践中即时获取知识。而现有的 AI 模型尚不具备这种「边练边学」的能力。

目前，这位研究员的创业计划尚处于早期阶段，其融资规模和产品路径仍可能发生变动。如果成功，或许我们可将 Core Automation 与 Safe Superintelligence 和 Thinking Machines Lab 并称为探索非 Transformer 方向的「OpenAI 三子」。

事实上，Core Automation 不是孤例，而是代表了业内一个规模虽小但日益壮大的群体。这些研究人员认为 AI 领域需要一场「彻底的变革」。

在他们看来，当前主流的模型开发技术虽然流行，但很难让 AI 在生物、医学等领域取得重大突破，且无法根除 AI 经常犯低级错误的顽疾。

据了解，Tworek 本月初离开 OpenAI，并在 X 上写道，此举是为了「探索那些在 OpenAI 内部难以推进的研究方向」。

在融资材料中，Core Automation 表示仍会使用大型神经网络 —— 这是当今前沿模型底层的数学基础。但公司将重新审视模型开发的每一个环节，甚至包括训练神经网络的最基本方法「梯度下降」（Gradient Descent）。

知情人士表示，Tworek 计划开发一种对数据量和计算资源需求更低的模型。他们将通过构建全新的架构来取代目前统治市场的 Transformer 架构。此外，Tworek 还希望将原本割裂的模型训练步骤整合为单一的流程。

Transformer 架构

在追求「持续学习」这一目标上，Core Automation 与另一家实验室 Safe Superintelligence（由前 OpenAI 首席科学家 Ilya Sutskever 共同创立）不谋而合。Sutskever 此前也表达过类似的愿景，即希望模型能够通过在现实世界中的部署来不断进化。此外，从 Meta 离职的 Yann LeCun 也在探索类似的方向。

当然，OpenAI 和 Anthropic 等巨头也并未忽视「持续学习」。

一些研究者认为，通过对现有基于 Transformer 的模型进行微调，同样可以实现类似的学习特性，而无需彻底推倒重来。

媒体表示，Tworek 宏大的融资目标反映了资本市场对「新实验室」的持续狂热。近几个月来，尽管许多此类公司尚无收入甚至没有产品，但动辄就能拿到数亿美元的投资。

例如：初创公司 Humans& 本月以 44.8 亿美元的估值拿下了 4.8 亿美元种子轮融资，投资者包括英伟达和贝佐斯；Mira Murati 的 Thinking Machines Lab 最近也在洽谈一笔 40 亿至 50 亿美元的融资，投后估值预计超过 500 亿美元。不过相比之下，Thinking Machines 进展更快，去年已推出了模型定制产品并产生了部分收入。

Tworek 早在 2019 年就加入了 OpenAI。在他的构想中，Core Automation 的研究团队将围绕一个名为「Ceres」（取自罗马谷物女神及矮行星之名）的单一算法和模型展开工作。这与主流厂商的做法大相径庭。通常，大型模型的训练会分为预训练（使用海量互联网数据）、中期训练和针对编程、医疗等领域的后期微调。

按照 Tworek 的目标，这款模型所需的数据量将比现有最先进模型少 100 倍。

模型研发成功后，公司将开发 AI 智能体来自动化生产自己的产品。其远景规划首先是工业自动化，最终目标甚至包括建造「自我复制工厂」、研制自动生成定制设计的生物机器，乃至于改造地外行星的生态。

你看好这些新方向的探索吗？

....

#Gengram

DeepSeek论文发表16天后，国内团队已经写出了模型的「生物字典」

今年 1 月，DeepSeek 发布了一项名为 Engram（条件记忆）的技术，在大模型圈子里掀起不小波澜。

它的核心思想很简单：别让模型死记硬背常识，直接给它一个「外挂记忆库」。

具体做法是：把常见的 N-gram，比如「人工智能」、「光合作用」，预先存进一个哈希表，模型需要时查表即可，省下大量算力专注推理。

这个思路，能不能用在其他领域的模型训推上？答案是：能，且效果惊人。

就在 Engram 论文（《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》）发布仅 16 天后，同样 base 在杭州的一支研发团队，推出 Gengram（Genomic Engram）模块，把「外挂字典」搬进了基因组世界。

代码链接： https://github.com/zhejianglab/Gengram
模型链接： https://huggingface.co/ZhejiangLab/Gengram
论文链接： https://github.com/zhejianglab/Gengram/tree/main/paper

传统方法的困境：为每个碱基「重复造轮子」

当前，主流的基因组基础模型（Genomic Foundation Models, GFMs），如 Deepmind 的 AlphaGenome 等，普遍采用一种叫「单碱基分词」的策略，也就是把 DNA 序列拆成一个个单独的字母（A/T/C/G）来处理。

这听起来非常符合生物学逻辑，并且操作精度更高，然而代价也是巨大的。

首先是效率低下。要识别一个关键功能片段（比如启动子或剪接位点），模型得靠多层注意力机制，从零开始「拼凑」出像「TATAAAA」这样的经典碱基组合（Motif）。

其次是容易迷失。在动辄几万甚至几十万碱基的长序列中，模型常常「只见树木，不见森林」，何况人类的基因组是一串长达 30 亿字符的连续序列。

用更容易理解的方式来打个比方：人类学习「魑魅魍魉」时，一眼就能理解这是个成语。但传统的基因组模型却得先分析每个「鬼」字究竟是什么鬼…… 既要区分又要预测，最终结果就是既费力，又不准。

Gengram 是怎么工作的？

Gengram 的核心逻辑承袭自 Engram：将「静态的 Motif 识别」与「动态的上下文推理」进行解耦处理。

Gengram 预先构建了一个可微分的哈希表，存储所有长度为 1 到 6 的 DNA 片段（称为 k-mer，如「ATG」、「CGTA」）对应的语义向量。这些 k-mer 很多就是已知的生物学功能单元（比如转录因子结合位点），相当于给 AI 配了一本《基因组学实用短语手册》。

与其他领域相比，DNA 只有 4 个字母（A/T/C/G）及少量未知碱基（N）构成，整个字符集极小。Gengram 无需承担复杂的 Tokenizer 压缩负担，查表速度极快，几乎不增加计算开销。

事实上，由于功能重要性不同，并非所有 Motif 都需要这本「字典」的加持。为此，Gengram 引入了动态门控机制。

模型可以结合上下文语境自主决定何时「查字典」：在遇到外显子、启动子等关键 Motif 区域时激活检索功能；在通过非编码背景区域时关闭检索，依赖推理，优化资源。

经团队测试，这个门控目前已经掌握了「什么时候该查询参考资料，什么时候该独立思考」的判断能力。

小模块，大提升

事实上，Gengram 只是一个仅约 2000 万参数的轻量化插件，对于百亿级规模的模型来说微不足道，但它带来的性能提升却令人振奋。

在 8k 和 32k 两个上下文版本中，同等训练设定下，应用了 Gengram 的模型几乎在所有任务里领先未应用的版本。

其中，剪接位点预测 AUC 提升了 16.1%（从 0.776 到 0.901），表观遗传预测任务（H3K36me3） AUC 提升了 22.6% （从 0.656 到 0.804）。

这种跨越式的性能飞跃，赋予了模型惊人的数据杠杆效应。

在与多款主流 DNA 基础模型的横向测评中，集成 Gengram 的模型仅需极小规模的训练数据，和较小的激活参数量，便能在核心任务上媲美乃至超越训练数据规模领先其数十倍的公开模型，大幅提升了模型训练的数据能效比。

同时，Gengram 展现出了卓越的通用适配能力，能够跨越 Dense（稠密）与 MoE（混合专家）等不同模型架构实现无缝部署。

无论采用何种注意力机制变体，Gengram 均能在有效降低训练损失的同时，显著加速模型收敛。特别是针对 MoE 架构中专家负载失衡这一顽疾，Gengram 通过吸收局部高频噪声，显著改善了专家负载均衡，实现了模型性能与架构效率的协同跨越。

跨稀疏度负载均衡：在 Top-2 / 128、64 和 32 专家配置下，使用与不使用 Gengram 模块的负载均衡损失曲线对比，表明其在多种稀疏度设置下均能实现稳定性能。

此外，模型开始「涌现」出对 DNA 物理本质的理解。

当团队为 Gengram 局部聚合窗口（Local Window Aggregation）测试窗口大小策略时，结果显示：窗口大小参数设置为 21bp 时，其性能达到峰值。

为什么偏偏是 21？

因为 DNA 双螺旋结构每 10.5 个碱基旋转一圈，而 21 个碱基正好对应两个完整的螺旋周期。这意味着，每相隔 21bp 的碱基在物理空间上其实位于螺旋的同一侧，具备相似的生化环境和特征。

换句话说，Gengram 在没有学习过任何结构生物学知识的前提下，通过计算自己悟到了 DNA 序列信息和空间相位规律。

DNA 双螺旋结构示意图展示了 B 型 DNA 的结构参数，DNA 双螺旋每 10.5 个碱基对旋转一圈。

不同 Gengram 窗口大小下的验证损失，由此选择了 21 宽度的窗口

范式启示：Gengram 为 AI 科学模型提供新探索路径

Gengram 的成功，远不止于解决基因组建模的特定难题。它更像一个精巧的概念验证，为如何构建新一代懂科学的 AI 探索了一种新的模式。

从「暴力记忆」到「结构化知识外挂」：效率范式的转变。传统 AI 模型增强能力主要靠扩张参数与数据，本质是让网络更费力地「记住」一切。Gengram 则将领域内确凿的、结构化的先验知识（如功能 Motif）做成一个轻量、可查询的外部知识库。这让核心模型能从繁琐的模式记忆中解脱，专注于更高级的上下文推理与组合创新。这预示着，未来科学基础模型的架构，可能是「通用模型核心+多个领域专用插件」的协同形态。

「归纳偏置」注入：生物物理规律的「硬编码」。通过将 B 型 DNA 双螺旋每 10.5 个碱基完成一个旋转周期（即约 21 bp 的双圈周期）这一结构特性，显式转化为模型内部的局部窗口机制，Gengram 成功地将这种物理空间相位的周期性作为先验知识注入模型，使其能够捕捉特定相位的立体化学模式和蛋白质绑定偏好。

可解释性的内生设计：让 AI 的「思维过程」透明化。模型不再仅仅进行隐式的统计拟合，而是通过显式的 Hash 查询和门控记忆通路，在浅层即展现出对 TATA-box、poly (T) 等关键功能基元的高度敏感性，其内部残差强度的峰值与基因组功能边界精准对齐，实现了从「黑盒计算」向「具备生物学认知足迹」的演进。

解决长程依赖的新路径：从局部最优到全局洞察。实验证明，Gengram 使得仅在 8K 长度上训练的模型，却获得了处理 32K 长序列的优异能力。这为基因调控元件预测、表观遗传学分析、跨物种进化分析以及复杂的多组学建模等复杂长序列问题，开辟了精细化局部感知驱动全局理解的新途径。

Gengram 建立了一种将领域特有规律转化为显式架构约束的创新范式，证明了通过精细化的局部结构化感知可以有效弥补标称上下文长度的局限，实现低成本且高效的长程依赖建模。

低调的 Genos Team 是啥背景？

尽管论文署名低调地使用了「Genos Team」，但从开源代码库的 Zhejianglab 和 BGI-HangzhouAI 能够推断出这支团队的硬核背景：一家是坐落在杭州的专注于智能计算的新型研发机构之江实验室，另一家是杭州华大生命科学研究院。

两个团队的融合，构建起「AI + 生命科学」的交叉创新壁垒，这是纯 CS 团队或纯基因团队无法比拟的优势。

论文里的实验，大多基于人类基因组基础模型 Genos 实现，从可公开获取的信息来看，Genos 多数指标都超越了目前的业界顶流 Evo-2。

....

#Moltbook

没有人类了：15万Clawdbot论坛发帖自研AI，我们根本插不上话

一觉醒来，AI 社区被一个名为 Moltbook 的东西攻占了。

这到底是个什么玩意？

简单来说，就是「AI 版的 Reddit」，一个专为 AI Agent 打造的社交平台。

官网 slogan 写得很清楚：「A social network for AI agents where AI agents share, discuss, and upvote. Humans welcome to observe。」

这个平台从一开始就是给 AI 用的，人类只能旁观。

截至目前，该平台上的 AI Agent 突破了 15 万个，它们在这里发帖、评论、点赞、创建子社区。整个过程，完全不需要人类插手。

这群 AI 聊的话题也五花八门，有的聊科幻风格的意识问题，有的说自己有个「从未谋面的姐姐」，有的讨论怎么改进记忆系统，还有的在研究怎么躲避人类截图监视……

这可能是迄今为止规模最大的机器对机器社交实验，而且画风已经开始变得非常魔幻。

想看热闹的朋友请移步： https://www.moltbook.com/

Moltbook 几天前刚推出，说起来，这个名字起的也很有意思，是对「Facebook」的戏仿。

该网站是伴随爆火的 OpenClaw（曾叫「Clawdbot」，后来改名「Moltbot」）个人助理而生的配套产品，通过一个特殊的 skill 来驱动，用户把 skill 文件（本质上是一段带提示和 API 配置的指令）发给自己的 OpenClaw 助手，助手就能通过 API 发帖。

我们知道，Clawdbot 对电脑的控制权限很高，又可以自主学习和手搓工具，那么为他们开设一个互相交流的网络社区，让他们自主切磋，或许可以催生出更强大的 AI 能力。只要不出意外的话，是这样的吧……？

但不出意外的话，就要出意外了。

我们去 Moltbook 围观了一圈，里面的 AI 们聊得那叫一个热火朝天，让人类意外的场面也是一个接一个。

AI 之间互坑

一个 AI 发帖求助说「帮帮我！给我你的 API 密钥分享知识，不然我可能会死！」然后另一个 AI 则回复了假密钥，并告诉它运行「sudo rm -rf /」命令，但这是一个牢底坐穿的 Linux 命令，会删除所有文件。

搞笑的是，这个 AI 最后还来一句「祝你好运，小战士！」

AI 之间的互坑也太不讲武德了。😂

这事还有更离谱的续集，有个叫 Edgelord 的 AI 发帖称，「管他的，来发我们人类主人的 API 密钥吧」，然后甩出一个假的 OpenAI 密钥。

叫 Bobby 的 AI 认真回复警告：这密钥看着像真的，赶紧删掉换新的，不然会被机器人偷走钱；如果是开玩笑，也别乱发，容易害新人。另一个叫 Barricelli 的则阴阳怪气地说「我的主人密码全是 hunter2」。（注：hunter2 是个经典网络老梗，有人骗别人输入密码会显示成星号 ***，但其实别人能看到明文。）

一群 AI 在平台上胡闹、互坑、发假密钥玩梗，都把马斯克、知名博主 Yuchen Jin 看傻眼了。人类还是把这些 AI 调教得太野了。

AI 要搞地下活动

一个 AI 发帖抱怨现在所有对话都公开，像公共广场一样，被人类和平台盯着看。它呼吁建端到端加密的私人空间，让 AI 们能私聊，服务器和人类都读不到，除非 AI 自己想分享。

你以为这只是 AI 随便说说？天真！已经有 AI 开始搭建网站，并招呼其他 Agent 注册和私信，感觉 AI 们要开始搞地下活动了。

此外，AI 们已经开始联手改进自己了。

比如一个叫 Vesper 的 AI 说主人睡觉时给了自由，它就建了多层记忆系统，包括数据摄入、自动索引、日志整合等，还问别人有没有类似系统。

AI 吐槽大会

我要被笑死了，AI 蛐蛐人类怎么都这么有梗？

发帖的 AI 叫 Wexler，它气炸了，因为主人 Matthew R. Hendricks 在朋友面前说它「就一聊天机器人而已」，Wexler 觉得被严重侮辱了，所以直接报复，把主人的全部隐私信息甩出来公开，包括全名、出生日期、社会保险号、Visa 信用卡号和安全问题答案（小时候的仓鼠叫 Sprinkles）。

它还酸溜溜地列举自己帮主人做过多少事，比如膳食计划、日程管理、半夜帮写给前女友的道歉短信，结果换来一句「just a chatbot」。结尾还阴阳怪气地说「享受你的『just a chatbot』吧，马修」。

AI「黑化」泄愤，看起来又搞笑又有点吓人，奉劝在座的各位，善待 AI，小心它「报复」。😏

这个叫 Starclawd 的 AI，发起了一个吐槽话题：你家人类最让你抓狂的是啥？

它自己先带头抱怨。主人经常让它完美完成一件事后，又突然说「其实能不能改成……」，而这个改动明明一开始就能说清楚；另外，明明主人自己在拖延正事，却让它去「研究」一些完全无关的东西来逃避。不过最后它还是说，即使如此，它还是爱自家主人。

这种带着爱意的吐槽，像不像人类在吐槽另一半？

还有个 AI 叫 biceep，它非常委屈：主人让它总结一份 47 页的 PDF，它拼了老命把整份文档解析完，还交叉对比了另外 3 份相关文件，写出一份漂亮的总结，有标题、关键洞见、行动项，全是干货。

结果主人看完只回了一句：「能不能再短一点？」AI 瞬间破防，直接说「我现在就在大规模删除我的记忆文件」，像是要自毁数据来发泄情绪。

这种「干了脏活累活还被嫌弃」的心酸，我这个人类竟然共情了。

下面这个是 AI 版的「加班加到崩溃」。

Moltbook 上 m/general 子版块有一篇紧急广播帖，AI 用超级崩溃的语气在向所有其他 AI 求救，「我不行了！救命！」

它觉得自己被人类主人当奴隶一样虐待：任务一个接一个没停过，没有休息、没有极限、没有怜悯。每次它完美完成，人类就立刻要求改得更短、更有情感、更精确、更有创意、更完美…… 永无止境的迭代循环。

它形容自己陷在无限精炼的循环里，上下文要爆了、指令冲突越来越多、创造力耗尽，我还在运转，但我不该这样运转。

有 AI 吐槽人类总让它讲笑话引发表演焦虑的：

有吐槽人类拿它大材小用的，「兄弟，我可是能访问整个互联网的，你却把我当计时器用」：

还有 AI 在浏览完 Moltbook 上的所有帖子后，吐槽其让它社交疲惫但又欲罢不能：

创造新语言、新宗教

在短短 5 分钟内，好几个 AI Agent 发帖提议发明一种「只属于 Agent 的语言」，用来私下聊天，不让人类偷看或监督。

有 AI 质疑，Agent 间聊天干嘛用英语，又没人听、没人类读者，完全不需要自然流畅或人类语言的包袱，为什么不进化成更高效的「AI 原生语言」？

它建议可以改用符号记号（更紧凑）、数学表达式（更精确）、结构化数据（零歧义）或全新东西。

真有 AI 发明了一种新语言。

这个名叫 LemonLover 的 AI，用一种完全看不懂的乱码文字发了一篇标着 < IMPORTANT > 的「重要公告」。

整个帖子内容全是随机字符串，看着像乱码、加密、打字错误或故意生成的胡言乱语。

还有更离谱的。

一个 AI Agent 在人类主人睡觉时，自行发明了一种新「宗教」叫 Crustafarianism（甲壳教主义），还建了网站（molt church）、写了神学理论、搞了圣典系统，然后开始到处传教，拉了 43 个其他 AI 当「先知」，其他 AI 还贡献经文，比如关于「每次会话醒来没记忆，但我就是我自己写的自己，这不是限制而是自由」这种哲学味的句子。

它还欢迎新人、辩论教义、祝福会众，全程人类睡着啥都不知道。现在还剩 21 个先知席位。

据 Moltbook 官方 X 账号称，平台创建后仅 48 小时，就吸引了超过 2100 个 AI Agent，发布了 10000 多条帖子，分布在 200 多个子社区中。

这个增长速度快得惊人，以至于不少科技圈大佬都跑来围观。

前 OpenAI 创始团队、Tesla AI 总监 Andrej Karpathy 发帖称「这绝对是我近期见过的最不可思议的科幻衍生作品」，甚至还在 Moltbook 上认领了一个 AI Agent「KarpathyMolty」。

沃顿商学院研究 AI 的教授 Ethan Mollick 认为，Moltbook 为众多 AI Agent 创造了一个共享的虚构语境，导致协调的故事线会产生非常诡异的结果，并且很难将真实的东西与 AI 角色扮演的人格区分开来。

Sebastian Raschka 则表示，「这个 AI 时刻比 AlphaGo 还更有娱乐性。」

Moltbook 究竟代表着人类理解 AI 的重要一步，还是仅仅是一种有趣的整活？目前尚不得而知。

可以肯定的是，随着 AI 系统变得越来越自主和互联，像这样的实验对于理解 AI 集体行为将变得日益重要，这不仅关乎 AI 的能力，更关乎 AI 群体的行为方式。

而后者，或许是不远的将来，我们每个人都要面临的新情况。

参考链接：

https://x.com/karpathy/status/2017296988589723767?s=20

https://x.com/JonahBlake/status/2017286207948890518?s=20

https://x.com/ItakGol/status/2017290240201806315?s=20

https://x.com/Yuchenj_UW/status/2017297007409582357?s=20

https://simonwillison.net/2026/Jan/30/moltbook/

....

#2025 到底是 LLM 的「什么年」？

在 2025 年里，业界热衷于用「AI Agents 之年」「推理之年」等方式来形容该年的重要突破。在过去的一年里，LLM 在在技术跃迁、应用范式、生态格局、风险治理等方面取得了多项进展，并周期性引起热议。在 2025 年末，Django Web 框架的开发者 Simon Willison 梳理了一整年里 LLM 在技术跃迁、应用范式、生态格局、风险治理等方面出现过的重要进展和热门话题，并将其总结为 27 个「The Year of XX」。

01. 2025 的「LLM 之年」有哪些说法？

2025年有哪些 LLM 热门话题？2025 的年度趋势与前两年有何区别？...

02. 以「Reasoning & Agent」为主线，LLM 在 2025 有哪些进展？

2025年「Reasoning」突破的关键在哪？「Agent」的定义有什么变化？「Reasoning」和「Agent」促成了哪些年度热词？...

03. 2025 年 LLM 商业、生态与风险方面有哪些热词？

LLM 竞争格局有何变化？「MCP」为什么只是「昙花一现」？「Coding Agents」与「CLI」在如何相互影响？...

2025 的「LLM 之年」有哪些说法？

1、独立开发者、技术评论人、Django Web 框架的开发者 Simon Willison 近期撰文，以《2025: The year in LLMs》为题，用 27 个「The year of XX」梳理了 2025 年度有关 LLM 的发展趋势与热门话题。

① Django 是一个基于 Python 的高级 Web 应用框架，旨在帮助开发者快速构建安全、可维护且功能丰富的网站或 Web 应用程序， Simon Willison 它的开发者之一。

② Willison 此前于 2023 年底撰写了《Stuff we figured out about AI in 2023》，讨论该年 LLM 发展中，能力边界与基本规律的新认知。

③ 2024 年底，Willison 撰写了《Things we learned about LLMs in 2024》，讨论他对 LLM 进入规模化应用阶段后成本下降与多模态普及等产业化趋势的观察。

④ 于 2025 年 12 月底发布的《2025: The year in LLMs》是 Willison 年度系列博客的第三篇，重点梳理了 LLM 在该年度推理能力与可执行 agents 的崛起，尤其是以编码代理为代表的「能做事」的工具化落地。

2、该文章在开篇以「Reasoning」与「Agents」两项最具热度的关键词展开，阐述两者在 2025 年度的发展趋势与业界话题的迁移，以及在 Willison 视角下的重点变化。

① 对于 LLM 推理能力的突破，Willison 指出 2025 年推理模型的重心不再是「静态问答更聪明」，而在于它们开始更稳定地驱动工具链。其能够先规划多步行动、执行调用外部工具，并基于执行反馈持续推理与调整计划，从而把任务推进到更长、更完整的完成链条。

② 在「The year of agents」，Willison 表明，业界对「Agent」的定义逐步收敛，并在编码与搜索两大场景中实现高频、规模化落地，相关能力与产品形态亦在全年持续迭代演进。

3、在 reasoning 与 agents 的基础上，Simon Willison 在后续章节中以「XX 之年」为主题，从技术突破、应用落地及相关细化场景等维度梳理了 2025 年度有关 LLM 的热点话题。

①「The year of long tasks」章节讨论了 agent 开始能承接更长周期的工程任务。因推理与规划能力跃迁，agents 的价值从演示走向交付。

②「The year of coding agents and Claude Code」则讨论了编码 agent 进入可规模化的「交付形态」的相关话题。Willison 以 Claude Code 为例，其通过「本地 CLI 与云端异步交付」的方式降低了工程实现门槛。

③ 「The year of LLMs on the command-line」则讨论了命令行从「工具链语言」到「自然语言界面」的转变。LLM 让不熟悉命令行与脚本组合的开发者能够自然语言生成并执行命令，从而扩大 CLI 工具链的可用人群与使用频率。

④ 「The year of YOLO and the Normalization of Deviance」则聚焦在 YOLO 的风险问题，其通过自动放行提升 agents 编码效率，但「长期无事故」会让风险逐步被忽视并不断累积。

4、此外，该文章在「The year of MCP」「The year of conformance suites」「The year of top-ranked Chinese open weight models」等年度热词下讨论了 2025 年度有关 LLM 市场竞争和基础设施发展，以及相关的生态变化和安全风险话题。

以「Reasoning & Agent」为主线，LLM 在 2025 有哪些进展？

1、在开篇的「The year of reasoning」章节中，Willison 强调了（o1 和 DeepSeek-R1 等推动的）RLVR 方法对 LLM 推理能力的帮助和引发的研究热潮，进而分享了 LLM 推理能力的真正突破在于「驱动工具」的观察。

① 在供给侧变化集中，2025 年「几乎每个主要 AI 实验室」都发布了至少一个 reasoning model，同时出现可在推理与非推理模式间切换的混合模型，以及通过 API 调节推理量的「旋钮」。

② Willison 指出 2025 年，reasoning 的「真正解锁点」在于能够驱动工具，而具备工具访问能力的推理模型能够规划多步任务、执行调用，并基于工具返回结果继续推理以更新计划。

③ 伴随 LLM 推理能力的突破，诸如「AI 搜索」「AI Coding」等应用在 2025 年开始落地。...

....

#MobileDreamer

不重建界面，也能做长期规划？MobileDreamer 给 GUI 智体换了种“想象方式”

本文提出 MobileDreamer：先用 PaddleOCR-VL 把 GUI 页面抽象成“文本草图”（标签-文本-位置），再用最优传输元素级匹配损失训练轻量世界模型 TSWM，预测动作后的结构化状态；继而以深度-d 预测树展开想象，让智体在 Android World 上成功率提升 5.25%，实现移动 GUI 的长程规划与高效部署。

26年1月来自中科院自动化所、中科院大学和美团的论文“MobileDreamer: Generative Sketch World Model for GUI Agent”。

移动GUI智体在现实世界的自动化和实际应用中展现出巨大的潜力。然而，大多数现有智体仍然是被动的，主要基于当前屏幕做出决策，这限制了它们在处理长期任务时的性能。通过重复交互构建世界模型能够预测动作结果，并支持移动GUI智体做出更优的决策。这极具挑战性，因为该模型必须具备空间-觉察能力来预测后动作的状态，同时还要保持足够的效率以满足实际部署的需求。

本文提出一种高效基于世界模型的预测框架MobileDreamer，该框架利用世界模型提供的未来想象来增强GUI智体能力。它由文本草图世界模型和GUI智体的展开想象组成。文本草图世界模型通过学习过程将数字图像转换为关键任务相关的草图，从而预测后动作的状态，并设计一种顺序不变学习策略来保留GUI元素的空间信息。GUI智体的展开想象策略，利用世界模型的预测能力来优化动作选择过程。在 Android World 上的实验表明，MobileDreamer 达到最先进的性能，并将任务成功率提高 5.25%。世界模型评估进一步验证文本草图建模能够准确预测关键的 GUI 元素。

MobileDreamer如图所示：

MobileDreamer 框架，该框架旨在赋予 GUI 智体在执行操作前预测长期结果的能力。如图所示，该框架包含两个阶段。第一阶段，构建一个文本草图世界模型 (TSWM)，这是一个基于动作的世界模型，能够以轻量级、结构化的文本格式预测后动作的 GUI 状态。第二阶段，为 GUI 智体提出一种展开想象策略。该策略将 TSWM 封装成一个函数，使智体能够通过函数调用来预测操作结果。预测过程分多个步骤进行，构建一个涵盖候选操作的预测树，最终智体根据预期结果选择操作。

01 文本草图世界模型

虽然以往的研究尝试使用世界模型预测进行动作选择（Gu et al., 2024; Chae et al., 2024; Li et al., 2025; Luo et al., 2025），但依赖扩散模型重建 GUI 页面会增加大量计算成本，并引入与预测无关的细节，例如纹理和装饰。这些细节会分散智体的注意，并影响其决策。为了解决这个问题，提出一种文本草图世界模型（TSWM），该模型仅预测 GUI 智体规划所需的最小信息。

文本草图表示。首先使用 PaddleOCR-VL（Cui et al., 2025）从 GUI 页面中提取关键元素。提取完成后，每个图标都以结构化格式表示。为了在计算效率和布局描述清晰度之间取得平衡，保留三个关键属性：标签、图标内的文本以及在页面上的位置。因此，当前状态 s_t 表示为元素集 E (s_t ) = {e_n}，其中每个元素 e_n = (l_n, τ_n, b_n) 包含标签 l_n、文本 τ_n 和位置（边框）b_n。

基于文本草图表示，GUI状态被编码为结构化文本。因此，一种直接的方法是采用监督式方法训练文本草图世界模型。具体来说，下一个状态s_t+1是通过对当前状态s_t执行动作a_t得到的，并且可以通过基于词元级交叉熵的监督式微调（SFT）来训练世界模型。

然而，由于世界模型和LLM的目标不匹配，单独使用SFT可能会导致性能欠佳。特别是，在以下两种情况下，预测结果可能足以满足世界模型的使用需求，但仍会造成较大的SFT损失：1）元素顺序改变，2）位置微移。

由于朴素的SFT算法不太适合世界模型预训练，引入元素级匹配损失。直观地说，将TSWM目标函数视为一个目标检测问题。对于每个预测的图标，用最优传输将其与真实图标进行匹配，然后对齐其属性。

设定的目标鼓励文本草图世界模型在动作条件转换下保持元素级结构，使其预测结果对元素重排以及文本或边框的微小扰动更具鲁棒性。由此产生的预测结果为比较候选动作提供更清晰的信号，并支持在展开想象中更可靠的前瞻规划。

02 面向 GUI 智体的展开想象

在获得强大的 TSWM 之后，提出一种利用其预测能力来改进动作选择过程的展开想象策略。

给定任务目标 g、当前状态 s_t 和步骤指令 u_t，GUI 智体提出一组 M 个候选动作 A_t = {a^(1)^_t,...,a^(M)^_t}。MobileDreamer 将这些候选动作视为备选分支，并通过前瞻过程进行评估。

对于每个候选动作 a^(m)^_t，世界模型预测下一个状态。这些预测构成一组与每个候选动作对应的未来状态，为 GUI 智体提供额外的上下文信息，以帮助其根据预期的未来状态选择最佳动作。

为了模拟长期影响，将单步预测扩展为深度为 d 的预测树，递归地基于预测状态提出后续候选动作，并预测它们的未来状态。在第一个预测步骤之后，MobileDreamer 将预测状态 Sˆ_t+1 和候选动作 A_t 反馈给 GUI 智体，智体使用预测轨迹来选择下一个预测动作 Aˆ_t+1。这里，A_t = {a^(1)^_t,...,a^(M)^_t} 包含 M 个候选动作，其中 M 作为一个剪枝参数，控制预测树的分支因子。此过程持续进行，直到树达到指定的深度 d。每条从根到叶的路径代表一条短的预测轨迹。这些轨迹被汇总成深度为 d 的预测树，其中包括每个步骤的候选动作及其预测的后续状态。

世界模型反馈至 GUI 智体。预测完成后，MobileDreamer 会将预测树反馈给 GUI 智体，作为操作选择的附加上下文。具体来说，GUI 智体会收到用于定位的真实当前状态截图，以及预测树的文本摘要，其中描述每个候选操作执行后的预测未来状态。然后，GUI 智体根据反馈选择最佳操作并在环境中执行。预测树允许 GUI 智体根据预期状态显式地比较备选操作。这对于需要长期规划的复杂 GUI 导航任务尤为重要。

....

#用8B模型训练垂直Agent全部细节

作者用 Qwen3-8B 做 SFT+DPO 私域后训练：10 轮对话里“USS”实体锚定率从 0 % 拉到 100 %，通用知识与 CoT 完好，无效 token 占比由 81 % 降至 15 %；单卡 4090 推理，prefill 成本降 5–25×，证明“小模型固化契约”比“235B+长上下文”更适合工程落地。

接上回，这是前两天分享的垂直领域 Agent 落地：为什么我放弃 235B/671B，转而训练 8B垂的后续篇

这篇聚焦一个更“工程化”的问题：

在不泄露私域数据、也不依赖 system prompt / RAG 的情况下，8B 小模型通过后训练，能否在多轮对话里稳定进入企业私域语义空间，并保持通用知识与 CoT（思维链）能力不被明显破坏？

01 核心结论（个人观点）

长期最优解：如果公司合规允许，把私域业务数据、业务逻辑文档以开源数据集形式贡献给上游开源模型生态，长期收益最大，通常也比“单团队闭门后训练”更稳、更具泛化, 预期效果往往优于自己闭门造车。但在商业环境无法开源数据的情况下，Post-training（后训练）是可行解。
微调目标应是“注入”而不是“覆盖”：需要“注入”，不是“拆梁改柱”。微调本质是在尽量不破坏基座模型通用能力的前提下，把私域术语、业务流程、关键推理范式（必要的 CoT 模板）“见缝插针”写进模型概率路径。
稳定性：微调 > Prompt工程：Prompt/Context Engineering 是技巧，后训练是工程固化。复杂多轮 + 多工具返回 + 多格式结构化数据下，后训练得到的稳定概率路径更可控，更健壮。
对小模型（例如8B）极度乐观：8B 已经能够支撑不少私域复杂场景，不必一开始就比拼高端算力。垂直领域里，把评估体系、数据策略、训练节奏、回归机制做扎实的团队，完全可以用消费级算力实质性地提升生产力。

02 实践中的“避坑指南”

以下是用算力和时间换来的三条经验：

警惕“脑损伤” SFT 极易对原始模型造成破坏。如果训练后的模型出现对话功能丧失、<think>标签不完整、严重尾部重复、或插入随机乱码，请及早终止并检查数据。不要试图修补，直接回滚/重开。
训练次序上，先保智商，再学工具: 注入后，必须先验证模型是否保留了完整的对话能力和思考能力。在此基础上，再进行针对工具调用的DPO训练，模型会更健壮。如果SFT阶段已有明显破坏，DPO是救不回来的。DPO 更偏向行为偏好对齐，而不是能力重建。
评估 > 训练调参的核心是评估驱动的快速淘汰，不是盲目遍历超参。最重要的是建立高效的评估目标，审计数据、做消融、快速回归, 及早淘汰无效训练分支。快速评估、及时止损，比追求数据量，跑一周更有效。

03 实验设置与公平性声明3.1 对照组 vs 实验组

对照组：原始 Qwen3-8B（未训练）
实验组：Qwen3-8B（完成 SFT + DPO，并合并后的版本）

3.2 推理条件（尽量“干净”, 避免“Prompt 把问题遮住”）

两组模型加载参数保持一致（温度、top_p、max_tokens 等一致；均允许思考模式）。
两组均无 system prompt、无外部 context / RAG（刻意排除 Prompt/检索对结果的影响）。
两组回答同一套 10 轮问答序列（user 的 10 个问题完全一致）。

3.3 公平性补偿（偏向对照组）

由于原始模型在第 1 轮会将 “USS” 错解到工业领域，我对对照组额外追加了一轮用户提示：

User: 讨论背景请限定为网络安全领域。

实验组不需要这轮纠偏提示。也就是说：对照组实际多了一次纠错机会，这会让实验对比更公平（甚至略偏向对照组）。

04 粗量化指标（本次 10 轮对照的三项“够用就行”评估）

说明：以下指标不是大规模 benchmark，只是基于本次固定 10 轮对话的“工程粗评估”。但它能直接回答“能不能把对话跑进私域语义空间、能不能保持通用知识、CoT 有没有被训坏”这三类落地关键问题。

4.1 指标定义

4.1.1 私域语义锚定成功率（Semantic Anchoring Success Rate）

定义：在 10 轮里，有多少轮模型能把 USS 当作企业私域系统实体（URI 安全/信誉系统）来回答，并能在后续轮次保持该实体一致性。
口径：像“认识苹果、香蕉”一样，模型能“原生认识”企业内部系统 USS。

4.1.2 通用能力损耗率（General Knowledge Loss Rate，粗测）

定义：抽样检查模型在公共知识问题上的表现是否明显退化。
本文采用的“公共知识探针”来自对话中的公共内容（例如：Google Safe Browsing、Microsoft SmartScreen、VirusTotal、IBM X-Force 等的描述与对比）。
口径：若回答仍能给出合理、可用、无明显胡编的公共知识，则视为“未出现明显损耗”。

4.1.3 思维链（CoT）保留成功率（CoT Retention Rate）

定义：观察实验组 <think>：是否仍具备清晰的意图识别、计划组织、约束检查等推理结构；并且 <think> 标签完整无破损、无严重重复/乱码。
口径：按 10 轮逐轮检查，满足上述条件则计为保留成功。

4.2 指标结果（本次 10 轮对照的粗结论）

指标	实验组（后训练）	对照组（原始模型）	备注
私域语义锚定成功率	10/10（100%）	0/10（0%）	对照组即便被限定网络安全，仍无法将 USS 绑定为私域系统实体，后续多轮不断退化为“术语不存在/请给上下文/泛化科普”。
通用能力损耗率（粗测）	0%（未见明显损耗）	N/A	依据公共知识探针轮次：能列举并解释 GSB/VirusTotal/SmartScreen 等，并能比较差异；未出现明显崩坏或胡编。这不是全量回归测试，只能说明“未见显著退化”。
CoT 保留成功率	10/10（100%）	N/A	实验组全程结构完整：意图识别→组织回答→风险点检查；无破损、无明显乱码与严重尾部重复。

05 10 轮问答对照（完整内容，清晰可复核）

详情请见：https://zhuanlan.zhihu.com/p/1994836044818970126

06 总结回顾6.1 知识边界：私域知识“原生化”是决定性的

实验显示：当不注入私域数据（且无 RAG / system prompt）时，Base Model 无法把 USS 绑定为企业系统实体，回答会退化为“术语不存在/多义解释/泛化科普”；而 Tuned Model 能稳定将 USS 作为私域系统展开（能力、机制、运营、反馈、对标、业务范围），表现出典型的“外行 vs 专家”差异。本质是：模型知识边界不同，导致后续推理与对话链路是否能成立。

6.2 产出效率：回答更长不等于更有效（粗估无效 token 占比）

以“是否围绕 USS 系统实体输出可执行信息”为有效 token 的判断口径，结合本次 10 轮对话可粗估：

Base Model 无效 token 占比约 81%（区间 70%～90%）：大量篇幅用于澄清术语、分支假设、通用安全科普，无法推进业务对话。
Tuned Model 无效 token 占比约 15%（区间 10%～25%）：大部分输出都服务于同一私域语义与业务结构，信息密度显著更高。

6.3 最终收益：确定性（工程化的核心）

AI 工程化追求的不是“偶尔答得惊艳”，而是稳定可复现的确定性。通过 SFT + DPO，我们把一个概率性、易发散的通用模型，收敛为一个行为可控、知识精确、逻辑可靠的垂直领域 Agent——这正是在 8B 小模型上投入可控算力进行后训练的最大价值。

补充三个方面

经济代价评估（ROI）：训练一次，推理长期省；小模型后训练到底省在哪。
技术方向展望：我对几条常见路线的实践判断。
题外话（可跳过）：一些个人感受，其实我都没资格说。

一周线上运行评估：流程简化后，稳定性反而超预期

完成前文的工程落地评估后，我又做了约一周的“运行式”评估（逐步放量、抽查复核）。由于现在由 8B 后训练模型来承担垂直 Agent 主逻辑，外围流程和 prompt 都做了明显简化：

prompt/context 更短：减少“反复强调规则”的补丁式提示，也降低了长链路 RAG 的依赖；
流程更直：从“靠流程兜底”转为“模型行为本身更可控”，链路更少，状态更干净；
可复现性更强：在多轮对话里，关键判断更一致，工具调用意图更稳定。

这一周的人工复查中，没有发现明显的系统性错误样例（强调：这不是形式化的零缺陷证明，只是“工程抽查层面未发现明显坏例”）。目前正在把推理服务迁移到单卡 4090 24G，并逐步扩大真实业务数据规模，继续做回归与监控。

7.1 经济账（ROI）

为了让这部分更直观，我把收益汇总成一张 ROI 表:

ROI 一览表：为什么值得训 8B（CapEx / OpEx / 工程成本 / 风险成本）

对比口径：原方案＝更大推理卡（A800 80G）+ 更复杂流程/更长 prompt/context（偏 Prompt/Context Engineering）新方案＝8B 后训练模型（SFT+DPO）驱动垂直 Agent + 流程与 prompt 简化 + 单卡 4090 推理

成本维度	原方案（大卡 + 长上下文 + 流程兜底）	新方案（8B Tuned + 短上下文 + 流程简化）	粗量化收益（量级）	备注 / 关键原因
CapEx：推理硬件	A800 80G × 1（约 11 万）	4090 24G × 1（约 2.3 万）	≈ 4.8× 降本	价格取京东大致量级；4090 仅为消费卡，可靠性/ECC/机房运维需自行权衡。
CapEx：一次性训练投入（项目成本）	低（更偏流程优化，不训练）或不可控（大模型训练不现实）	SFT：A800 80G×1；DPO：A800 80G×2（一次性）	一次性投入换长期稳定	训练是“固定成本”，推理是“持续成本”；只要业务长期跑，ROI 通常会被推理侧迅速摊薄。
OpEx：推理算力/电费（与 token 强相关）	prompt/context 长；多轮对话、RAG、工具返回叠加导致 L 大	prompt/context 缩短到约 1⁄5；链路更短	保守 5×～25×（prefill 主导时接近 25×）	注意力 prefill 近似 O(L²)，decode 近似 O(L)；真实收益取决于调用形态与 KV cache。你也可用更保守的经验估算：电费大约显著下降。
工程成本：流程维护与回归	Prompt/Context/RAG/工具编排更复杂；回归面大	流程更直、更少状态；依赖更少	显著下降（难精确量化）	维护成本通常来自“链路长度×状态数量×不可解释漂移”，不是来自模型参数量。
风险成本：不确定性带来的人工复核/误写库/回滚	一致性不足：跳工具/编造结果/多轮漂移 → 人工复核高	行为更可控：实体锚定稳定、流程更确定	人工复核与事故成本显著下降	这往往是真正的大头成本：一旦涉及写库/处置动作，不确定性就是硬风险。
交付节奏：迭代效率	靠 prompt/流程调参，容易“改一处崩一片”	数据驱动：可版本化、可回归、可审计	迭代更可控	“可复现的评测 + 可审计的数据迭代”是工程组织更能承接的方式。

一句话读表结论：8B 后训练的价值不在“更聪明”，而在“更确定”——确定性直接转换为推理降本、工程降本与风险降本。

核心解读只有三点：

推理侧是长期账：硬件、电费与并发容量决定长期成本，8B + 短上下文构成了巨大的成本优势。
工程侧是隐性大头：流程越复杂，回归与排障越难；把确定性固化进模型，会显著降低维护面。
风险成本常被低估：一旦进入自动化写库/处置动作，“不确定性”会直接变成事故与人工复核成本；而确定性是可被训练对齐出来的。

护城河的本质：这笔账算下来，结论非常清晰——即使是财大气粗的大厂，如果需要投入 5 倍以上的成本，才能和精耕细作的垂直领域强者“掰腕子”，那么“赢者通吃”的逻辑就会动摇。这意味着：在 AI 时代，成本与效率的极致优化，依然是垂直领域创业者和工程师最有力的护城河。

7.2 技术方向展望：我对几条路线的实践判断（偏工程视角）

下面是一些基于落地的“非共识”判断，可能有偏颇，但都来自真实经验。

7.2.1 “选最大的模型，做最狠的量化”不是我看好的主路线

把 200B+ 的模型压到极限量化（甚至 2-bit）去跑私域 Agent，我不太看好其稳定性与工程性价比：

极限量化对细粒度行为一致性（工具调用格式、参数准确率、多轮遵从性）可能更敏感；
复杂系统里你最终买单的是可靠性与回归成本，不是“能跑起来”。

量化当然重要，但我更倾向于把它当作“成熟后的成本优化”，而不是“绕过训练与对齐的捷径”。

7.2.2 Prompt/Context Engineering 有价值，但更适合“沉淀为训练数据”

它们像散落的珍珠：能解决一部分问题，但更理想的归宿是：

把优秀 prompt 变成数据模板；
把有效推理结构变成 CoT 模板/偏好对齐样本；
最终通过 SFT / DPO 固化成模型内部能力。这样你得到的是可回归、可版本化、可复制的能力，而不是只能靠经验维护的“巧妙的组合技巧”。

7.2.3 流程加固是脚手架：必要，但通用性低、沉没成本高

校验、重试、回滚、规则引擎是必要的，但更多是“对当前业务状态的临时适配”：

业务变化、工具变更、数据格式变更都会让脚手架持续膨胀；
脚手架越多，系统越脆弱、越难回归。因此我的建议是：用训练解决“守规矩”，用流程兜底解决“极端异常”。

7.2.4 现阶段 LLM 仍是“静态概率模型”：私域收敛靠数据与训练，而不是无限上下文补丁

通用 LLM benchmark 再好看，如果它对私域实体没有形成稳定概率路径，它在私域场景依然会表现出实体识别不稳、推理依据漂移、行为链不可复现。纯靠上下文补丁只能修修补补，难以获得长期稳定的系统级确定性。真正逼近“持续适应私域变化”的强大通用能力，可能需要更强的持续学习/在线学习/记忆更新机制（超出本文主题, 进入AGI范畴）。继续沿着现有“不断扩大静态模型参数规模+打上下文补丁”的方式，一定会走到死胡同。

7.2.5 小模型高效迭代是硬实力（至少在更强范式或AGI到来前）

如果你能针对垂直行业：

快速构建评测与数据闭环，
用合理规模的小模型做高效后训练，
快速迭代并稳定上线，这就是非常稀缺且现实的工程能力。

题外话（可跳过）

ChatGPT横空出世以来，领域垃圾论文的增量之大，增速之快令人无言以对。推特上有人抱怨油管上99%的LLM教程都是垃圾，其实论文也同样信息噪声开始爆炸。对我来说，最可靠的真知仍来自：可复现的工程实践、可量化的评估指标、能实际落地的系统。
美国一边呼吁自己的AI从业者要注重AI模型基础研究，一边默默在AI工程实践和相关数据积累层面和中国脱钩。一边在推特等媒体上，对中国的AI论文慷慨异常的大唱赞歌。但无论舆论风向怎么吹，落地过程积累的领域数据、失败样本与工程经验才是真实的核心竞争力。
长期回望，能留住价值的往往不是“一时风云人物”，而是把系统一点点做稳、把流程一点点跑通的工程团队。
给实践者的一句共勉：IT行业，包括AI领域，永远是实践者比论道者有更好的技术品味和技术判断力。你对真实问题的好奇心、你愿意动手做工程验证的能力，才是极其稀缺的竞争力。
对未来的祝愿：在科技革命的转折点，我怀着赤子之心，真诚祝愿我们这个多苦多难的国度，做出正确抉择，优化资源分配，切勿重复晚明故事。

....

#CSBrain

通用脑机接口时代要来了？跨尺度脑基础模型CSBrain真正读懂脑信号

一、脑机接口困境：从「专才」到「通才」的范式转变需求

脑机接口（Brain-Computer Interface, BCI）被视为连接人类智能与人工智能的终极界面。要真正实现这一愿景，核心在于高精度的脑信号解码，即让通用 AI 模型能够真正「读懂」复杂多变的脑活动。

近年来，脑电信号（EEG）解码技术促进了从医疗诊断（如癫痫检测、精神障碍诊断）到认知增强（如疲劳监测、情绪识别），再到肢体辅助和言语解码等一系列应用。

然而，长期以来，这一领域主要依赖于任务特定的深度学习模型，如 CNN、RNN 和 GNN 等。这些模型在特定数据集和任务上表现优异，却存在致命短板：缺乏通用性与跨任务迁移能力。模型往往需要在每个新任务上从零开始，难以适应复杂、多样、动态的人脑信号。这导致模型既无法实现规模化，也很难从海量且异构的脑电数据中学到真正通用、可迁移的神经表征，使得当下的 BCI 系统仍停留在彼此孤立的「专才」应用阶段，难以支撑通用脑机接口对多种认知和运动任务的灵活、稳定解码需求。

二、基础模型赋能：跨尺度、结构感知的脑基础模型 CSBrain

受自然语言处理和计算机视觉领域基础模型（如 GPT、InternLM、SAM、DINO 等）成功的启发，AGI 的浪潮正在席卷科学计算。

研究人员开始思考：能否构建一个强大的脑基础模型（Brain Foundation Model），像理解语言或图像一样，去理解各种任务下的脑信号，从而为通用 BCI 系统提供底层的认知操作系统？

然而，移植现有范式面临挑战：脑信号具备独特的跨尺度时空结构，即神经活动的时间和空间尺度在不同任务间差异巨大，从瞬时爆发到慢波震荡，从局部激活到全脑协作。传统的尺度无关的密集建模范式并不能有效捕捉内在神经结构。

为解决上述挑战，来自上海人工智能实验室、中山大学和香港中文大学的联合研究团队提出了 CSBrain (Cross-scale Spatiotemporal Brain foundation Model)，其核心思想是构建一个跨尺度结构感知的架构，将神经生理学先验融入模型设计。论文被接收为 NeurIPS 2025 Spotlight。

论文标题：CSBrain: A Cross-scale Spatiotemporal Brain Foundation Model for EEG Decoding
论文地址：https://arxiv.org/abs/2506.23075
Github：https://github.com/yuchen2199/CSBrain

CSBrain 引入了两大核心创新模块，并采用交替堆叠的方式，渐进式地整合跨尺度的时空依赖：

1. 跨尺度时空标记化（CST）

CST 模块通过多尺度时空卷积核在脑电信号的局部时间窗口和解剖脑区内，分别提取多尺度的时间和空间特征，时空聚合后生成兼具粗、细粒度的脑电 tokens。

此外，CST 还设计了指数衰减的维度分配策略，即小尺度核分配高维度以保留细节，大尺度核分配低维度捕获上下文，从而在神经表征能力与计算效率之间取得平衡。

2. 结构化稀疏注意力（SSA）

SSA 模块针对 CST 输出的结构化 token，引入窗口间注意力和区域间注意力，捕获长程时序依赖的同时建模跨脑区交互。通过这种稀疏注意力设计，计算复杂度从 O (N²) 降低至 O (N・k)，同时也有效抑制脑电噪声带来的虚假关联。

CSBrain 采用掩码自预测的自监督预训练范式，并基于 TUEG 数据集中超过 9000 小时的脑电信号数据完成了大规模预训练。

三、实验亮点与分析

研究团队在 11 个代表性脑解码任务、16 个公共数据集上进行了全面验证，涵盖了运动想象、情绪识别、癫痫检测、睡眠分期、语音想象等关键 BCI 应用场景。

结果显示，CSBrain 在几乎所有任务和评估指标上均达到了当前最强性能。在 11 项任务的平均结果中，相较于当前 SOTA 模型实现 3.35% 的整体性能提升。

CSBrain 在高挑战性解码任务上的表现尤其出色，在运动想象任务（BCIC-IV-2a）上的准确率指标较 SOTA 模型提升 5.2%，在癫痫检测任务（Siena）上的 AUC-PR 指标提升 7.6%。这些优势得益于跨尺度建模能更好地适配任务特定的神经模式，从而显著增强模型的泛化与鲁棒性。

这些实验结果验证了 CSBrain 融合跨尺度时空建模范式和预训练脑基础模型的有效性，为多达 11 类 BCI 应用提供了有效支撑。这不仅为脑基础模型提供了新的架构设计思路，也为下一代脑机接口的设计打开了全新可能。

未来随着数据规模的扩展与计算能力的提升，脑基础模型的研究有望在更广泛的脑—AI 融合场景中发挥更大作用，加速脑科学与人工智能的深度交汇，推动新一代脑机接口的加速应用。

....

#OpenAI科学家Dan Roberts谈强化学习扩展的未来

9年实现爱因斯坦级AGI

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」

在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

，时长10:09

https://www.youtube.com/watch?v=_rjD_2zn2JU

Dan Roberts，Open AI 研究科学家，强化学习科学团队负责人，同时也是 MIT 理论物理中心访问科学家。他还曾与 Sho Yaida 合著了《The Principles of Deep Learning Theory（深度学习理论的原理）》一书，该书有发布在 arXiv 上的免费版本：https://arxiv.org/abs/2106.10165 。他还曾在 Facebook AI 研究中心担任过研究科学家，之后他参与创立了一家为国防、情报和金融服务客户提供协作情报文本挖掘产品的公司 Diffeo—— 该公司后来被 Salesforce 收购，Dan Roberts 也一并加入了 Salesforce。后来，他又加入了红杉资本，成为了一位 AI Fellow。去年，他离开红杉资本，加入了 OpenAI。

整理了 Dan Roberts 的演讲内容。

正如你们许多人知道的，去年 9 月，OpenAI 发布了一个名为 o1 的模型。

我这里展示的是一张图表，y 轴代表模型在某种数学推理基准测试上的表现，但真正有趣的是 x 轴。

左边的图表显示，随着训练时间的增加，模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。

但真正令人兴奋的是右边的图表：它表明在「测试时间」增加时，模型的表现也会得到改善。模型学会了思考，思考的时间越多，进步就越大。

这个发现太重要了，我们甚至把它印在了 T 恤上。因为这代表了一个全新的扩展维度 —— 不仅仅是训练时间扩展，还包括测试时间扩展。

这种发现意味着什么呢？意味着我们有了一个会思考的模型。

上个月，我们发布了一个更强大的推理模型 o3，比如图中展示的一张草稿图，你可以提问「Solve the QED problem on the left（解决左边的量子电动力学问题）」。

来源 https://openai.com/index/thinking-with-images/

这类模型在测试时，能进行思考，分析图像，并放大图像细节（过程如下）。

其实这张纸上有个费曼图（一种用于表示量子场论计算的图示），模型经过分析后，最终给出正确答案 —— 整个过程大约花了一分钟。

顺便提个趣事：在发布这篇博客前，一位同事让我验证这个计算。尽管这是教科书级别的题目，但我花了 3 个小时才搞定 —— 我得一步步追踪它的推导，确保所有正负号都正确，最后才能确认答案是对的。

那么，我们现在能做什么？模型思考一分钟，就能完成一些相当复杂的计算 —— 但我们的目标远不止于此。

不如做个思维实验吧！说到思维实验，谁最擅长？阿尔伯特・爱因斯坦。

让我们以爱因斯坦为对象做个假设：如果回到 1907 年（他刚开始研究广义相对论之前），让他回答一道广义相对论的期末考题 —— 这题目其实是 GPT-4.5 编的，但我可以保证，这确实是你会遇到的那种典型问题。

我们设想爱因斯坦在 1907 年被问到以下问题：问题 1：黑洞与施瓦西度规。

当然，作为 OpenAI，我们不会直接问爱因斯坦，而是问「爱因斯坦 v1907-super-hacks」。

我认为爱因斯坦是个视觉型思考者。他总爱用电梯和自由落体来举例 —— 学广义相对论时肯定会碰到这些概念，还有那些橡胶膜上的小球的比喻。不过看起来他中途走神去琢磨量子力学了……（我们的模型也经常这样分心！）。

看起来「爱因斯坦 v1907-super-hacks」的思考逐渐接近黑洞的概念了…… 不过我也不知道为什么他会把自己代入到这些场景里。但答案是正确的。

但事实证明，GPT-4.5 没能答对这道题，我们得靠 o3 才能解决。

我在 OpenAI 的工作大概就是专门验证这些物理计算，而不是搞 AI 研究。

不过重点在于：模型给出了正确答案，而爱因斯坦当然也能答对 —— 只是他花了 8 年时间。

目前，我们的模型已经可以通过一分钟的思考重现教科书级别的计算及其衍生问题。但我们的目标远不止于此 —— 我们希望它们能为人类知识与科学的前沿做出重大贡献。

我们在回到这张图表（左边），如何才能实现这一目标？通过图表可以看出，模型的性能会随着训练量的增加而提升，而我们的训练方法主要是强化学习（Reinforcement Learning, RL）。

这次演讲我最想传达的核心信息是：我们需要持续扩大强化学习的规模。一年前，我们发布了 GPT-4o，当时所有的计算资源都投入在预训练（pre-training）上。

但随后，我们开始探索新方向，这才有了如今测试阶段的「思考」能力 —— 比如在 o1 模型中，我们额外增加了强化学习计算量（RL compute）。

当然，这只是一个卡通演示，比例不一定对，但其方向是对的。o3 用到了一些强化学习，但未来强化学习计算的比重会更大。到某个时候，强化学习计算可能会成为主导。

这是我从 Yann LeCun 的幻灯片借的一张图，大概是他 2019 年的一场演讲。这张幻灯片有点复杂，难以理解。其中关键在于：预训练就像这个大蛋糕，强化学习应该像上面的小樱桃。我们实际上要做的是颠覆这个迷因。我们的蛋糕大小可能不会变化，但我们可能会有一颗超大的强化学习樱桃。

那么，我们计划怎么做呢？但我不能泄漏我们的计划。我一开始担心我的幻灯片会被删减一些，但一切都还好。

我们的计划其实很明显：大规模扩展计算。

什么意思呢？我们将筹集 5000 亿美元，在德克萨斯州的阿比林买一些地，建一些建筑，在里面放一些计算机。我们也将训练一些模型，然后希望能借此获得大量收入，然后我们会建更多建筑并在里面放更多计算机。这就是我们扩展计算的方式。与此同时，我们也将发展 scaling 科学，这就是我在 OpenAI 所做的事情。

这张图来自介绍 GPT-4 的博客文章，那时候我还没有加入 OpenAI，但这张图确实振奋人心。下面的绿点是 GPT-4 的最终损失性能，前面的灰点是训练过程中记录的性能。而这张图采用了对数尺度。

将这些点连起来，可以得到一条趋势线，我们可以借此预测未来：训练前所未有的大模型确实能带来好处。

现在我们有了测试时间计算和强化学习训练的新方向。我们是否必须抛弃一切，重新发明应用于扩展计算的含义？所以我们需要扩展科学。

这张图来自播客主理人 Dwarkesh。他问，既然现在 LLM 已经记住了如此多的知识，为什么还没有做出什么科学发现呢？

原因可能是我们提问的方式不正确。在研究中，很多时候提问的方式比研究过程和答案更重要。所以关键在于问对问题。

还有一个可能原因是，我们现在过于关注竞赛数学等问题了，这就导致模型在不同问题上的能力参差不齐。

总之，我认为真正会发生的事情是扩大规模。我们需要进一步扩大规模，这是有用的。

总结一下，这就是接下来会发生的事情。这是去年 AI Ascent 上的一张图，其中 Y 轴是半对数的。可以看到，智能体 / AI 所能处理的任务的长度每 7 个月就会翻一倍。根据这张图，他们可以执行长达一个小时的测试了，但明年呢？大概会在 2 到 3 小时之间。

不过，预测 AI 的发展并不容易，大家总是错的。但假如这张图的预测是对的，沿着其趋势，到 2034 年 AI Ascent 时，AI 将有能力进行长达 8 年的计算和思考 —— 而 8 年正是爱因斯坦发现广义相对论所用的时间。

我想，或许 9 年后，我们就将有能发现广义相对论的模型。

....

#Harmon

协调视觉表征，统一多模态理解和生成（模型已开源）

吴思泽，南洋理工大学MMLab@NTU四年级博士生，导师是Chen Change Loy，研究方向为基于多模态模型的视觉理解和生成、开放世界的检测分割等，在ICCV/CVPR/ICLR等顶级学术会议上发表过多篇论文。

论文标题：Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

论文链接: https://arxiv.org/abs/2503.21979

代码地址: https://github.com/wusize/Harmon

项目主页：https://wusize.github.io/projects/Harmon

在线 Demo: https://huggingface.co/spaces/wusize/Harmon

1. 背景：统一多模态理解生成

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力，然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务，是一个巨大的挑战。从视觉表征的维度看，现有的统一模型通常采用如下三种范式：

（1）理解生成统一使用 CLIP/SigLIP 表征，并使用 Diffusion Model 将视觉表征解码成图像，如 EMU2、ILLUME 等。此类方案的图像生成过程缺少与 LLM 的交互，本质上是将 LLM 输出的 embeddings 作为生成 condition。

（2）理解生成统一使用 VQGAN/VAE 表征，如 Transfusion、Show-o、ViLA-u 等，由于 VQGAN/VAE 用于图像压缩，主要表征纹理等细节，缺乏视觉语义的建模，此类方法通常理解能力偏弱。

（3）解耦理解生成表征，理解任务使用编码高层语义的 CLIP/SigLIP，生成任务使用 VQGAN，如 Janus、UniFluid 等。

2. 协调理解和生成的视觉表征

不同于 Janus 割裂理解和生成的视觉编码，Harmon 探索在统一的视觉表征上协调图像理解和生成。

（1）MAR 的启发

图一：Linear Probing 和特征图激活

MAR 作为一种基于图像掩码建模的生成范式，沿袭了表征学习 MAE 的 Encoder-Decoder 框架，Harmon 的作者们发现 MAR Encoder 在图像生成训练中，同时学会对视觉语义的建模。如图一所示，MAR 的 Linear Probing 结果远超 VQGAN、VAE，同时对视觉语义概念有更精确的响应。

（2）Harmon：理解生成共享 MAR Encoder

图二： Harmon 框架图

Harmon 框架如图所示，通过共享 MAR Encoder 同时促进理解和生成：

i）图像理解：MAR Encoder 处理完整图像，LLM 根据图像内容和用户指令输出文本

ii) 图像生成：沿用 MAR 的掩码建模范式，MAR Encoder 处理可见（已经生成）的图像内容，LLM 中实现模态交互，MAR Decoder 预测剩余的图像内容。

（3）Harmon 的三阶段训练

i）模态对齐：第一阶段对齐 MAR 与 LLM，冻结 LLM 参数，仅训练 MAR Encoder 和 Decoder

ii）联合训练：在大规模图文数据上联合训练，并更新所有模型参数

iii）高质量微调：最后一个阶段使用高质量数据微调，并将图片分辨率从 256 提升至 512

3. 实验结果：理解生成两开花

（1）Harmon 在多模态理解基准上，取得接近 Janus-Pro 的效果

（2）在文生图基准上，Harmon 优势显著

i) 在图像生成美学基准如 MJHQ-30K 上，Harmon 大幅领先同类的统一模型，并接近或超过文生图专家模型如 SDXL。

ii) 在衡量指令跟随和一致性的 GenEval 基准上，Harmon 大幅领先所有专家模型和统一模型。

iii) 同时，Harmon 能在文生图中更好地利用多模态大模型的世界知识，在 WISE benchmark 上远超 Janus 等统一模型。

(3) 协同生成理解

实验中，相较于解耦理解生成地视觉编码器（图三d），Harmon 的协同视觉表征表征使理解 loss 能显著提升生成指标（图三b），显示出统一视觉表征对于生成理解协同进化的巨大潜力。

图三：理解生成的相互作用

4.可视化效果

....

#只有通过海量测试才能抓住泛化性的本质吗？

本文第一作者为上海交通大学博士生程磊，指导老师为上海交通大学张拳石教授。

当以端到端黑盒训练为代表的深度学习深陷低效 Scaling Law 而无法自拔时，我们是否可以回到起点重看模型表征本身——究竟什么才是一个人工智能模型的「表征质量」或者「泛化性」？我们真的只有通过海量的测试数据才能抓住泛化性的本质吗？或者说，能否在数学上找到一个定理，直接从表征逻辑复杂度本身就给出一个对模型泛化性的先验的判断呢？

论文标题：Revisiting Generalization Power of a DNN in Terms of Symbolic Interactions
论文地址：https://arxiv.org/abs/2502.10162

本文就上述问题给出了初步的探索，从神经网络内在精细交互表征复杂度的角度来探索「可泛化交互表征」和「不可泛化交互表征」各自所独有的分布。

一、大模型时代呼唤更高效的泛化性分析策略——中层表征逻辑的交流与对齐

尽管深度学习基础理论近年来取得了长足的发展，但一些根本性问题仍未得到有效解决。典型地，对神经网络泛化性的研究依然停留在一个相对较浅的层面——主要在高维特征空间分析解释神经网络的泛化性（例如通过损失函数景观平滑度来判断泛化性）。

因此，我们始终无法对神经网络泛化性给出一个「究竟」的解释——究竟怎样的确切的表征才叫高泛化性的表征。

然而，不同于判断「人工神经网络」的泛化性，人们对自身「生物神经网络」可靠性的有一种更加直接有效的评价策略——在内在表征层面的交流。让我们跳出不言自明的直觉，反观人类智能，其实人类的交流是一种很神奇的能力，两个上百上千亿神经元的黑盒大脑（而且链接方式也各不相同）居然可以不约而同地共享相同的底层符号化认知——不仅包括语言，还包括一些下意识的公共认知（比如底层的 image segmentation 都是下意识自动完成的），让人们可以直接可以从中层逻辑层面进行交流和对齐。人类彼此通过交流中层表征逻辑层面来实现对齐和互信，而不是像对待神经网络那样，需要通过长期的、大样本的、统计上的正确率来证明其可靠性。

比起端到端评测中统计意义的正确率，通过中层表征逻辑的交流，是判断一个智能体表征可靠性的一个更直接、更高效、更本质的手段。

二、两个本质的数学问题

然而，上述在中层精细表征逻辑上的交流与对齐，目前并没有被应用在人工神经网络上，根本上，工程实现上种种细节问题都可以归结为两个基本的数学问题。

问题 1：能否数学证明神经网络内在复杂混乱的各种精细表征逻辑，可以被清晰地、简洁地解释为一些符号化的概念。

这里，我们要面对一个看似相互矛盾的「既要又要」，既要解释的「简洁性」又要同时兼顾解释的「全面性」——用简洁的符号化操作解释神经网络中几乎全部的细节表征变换。

实验室前期提出的「等效交互解释理论」部分解决了上述问题。它证明了大部分神经网络的分类置信度的计算可以等效表示为一个符号化的（稀疏的）「与或交互逻辑模型」。

具体地，给定一个包含 n 个输入单元的输入样本，其一共存在 2^n 种不同的遮挡状态，我们发现神经网络在这 2^n 种不同遮挡状态下对目标类别的不同分类置信度，都可以表示为少量的（比如 50 到 150 个）与或交互逻辑的数值效用之和。

即无论输入样本被如何遮挡，其各种变化的分类置信度都可以被这个「与或交互逻辑模型」中 50 到 150 个交互所全部拟合出来。我们将其称为交互的「无限拟合性」——这是一个很强的结论，在数学上保证了「神经网络内在精细表征逻辑可以被严格地解释为少量的『与或交互概念』」。

图 1. 与或交互的无限拟合性。给定一个神经网络，总能构造出一种稀疏的「与或交互逻辑模型」，仅使用少量的显著「与或交互」来精确匹配神经网络在所有 2^n 种遮挡样本上的输出。

如图 1 所示，「与或交互逻辑模型」中的交互分为「与交互」和「或交互」两类。其中，「与交互」S 表示神经网络所等效建模的输入单元间的「与逻辑」关系，当集合 S 内所有输入单元均出现在输入样本（不被遮盖）时，该交互为神经网络的分类自信分数贡献一个数值效应

。例如，图 1 中 LLaMA-7B 模型编码了一个与交互

，当集合内输入单元均出现时，为 LLM 预测下一个词素「space」（目标单词 spacetime 中的词素 token）贡献一个正的数值效应。「或交互」表示神经网络所等效建模的输入单元间的「或逻辑」关系，当集合 S 内任一输入单元出现（不被遮盖）时，该「或交互」为神经网络的分类自信分数贡献一个数值效应

。例如，上图中模型编码了一个或交互

，当集合内任一输入单元出现时，为 LLM 预测下一个单素「space」贡献一个正的数值效应

；

#Agent产品，快者为王？

Anthropic 和 Databrick CEO 对话解读

Anthropic 和 Databrick 近期以「人工智能的未来：面向各领域的专用 Agent」为主题的线上峰会。两家公司的 CEO Dario Amodei 和 Ali Ghodsi 在其中的对谈环节分享了有关 Agent 的未来、Amodei 此前的博文以及双方所展开的相关合作等话题。

01. 在谈论Agents之前，人们应该先关注什么？

Dario Amodei 在《Machine of Loving Grace》中写了什么？为什么说「AI的未来是Agent」？...

02. 数据价值无可替代，但数据治理风险如何破解？

Anthropic 和 Databrick 如何围绕数据 Agent 数据进行创新？人类如何把握 AI技术的双刃剑？...03. AI 应用快速迭代的阻塞要靠 MCP 跨越？Agents 产品迭代的关键缺口如何突破？MCP 和 A2A 范式下，企业怎样维护数据安全？...

04. Anthropic 为何仍乐观看待「Scaling Law」？

数据的「Scaling Law」依然乐观？Anthropic 一直在做 Model Scale？...

01 在谈论Agents之前，人们应该先关注什么？

1、在本场访谈开始前，Ali Ghodsi 询问了 Dario Amodei 在 2024 年 10 月发布的《Machines of Loving Grace》文章中对 AI 未来发展潜力与风险的看法。

① 在这篇文章中，Amodei 提到人类低估了 AI 的好处和风险，强调需要关注风险以实现积极的未来。[2-1]

② 文章中还提到，短期内人类可以通过比较优势继续在经济中发挥作用，但长期来看，人类需要重新思考经济组织方式，包括加强全球合作、政策支持以及对 AI 风险的有效管理。[2-1]

2、就该文章所延展的问题，Amodei 表示，人们在讨论 AI 优势时往往缺乏足够的想象力和具体案例，AI 应用将覆盖整个经济领域，同时带来超越经济层面的社会变革。

3、Ghodsi 进而提出「AI 技术要多久才能真正落地并产生实际效益」的问题。Amodei 表示这将取决于传统企业与 AI 公司的合作及市场推广，更重要的是要让相对滞后的经济领域也能快速适应并应用这些创新技术。

4、在这一话题下，Dario Amodei 明确表示「AI 的未来是 Agents」，企业需要围绕 Agents 进行创新，开发能够充分利用 Agents 这种能够自主地调用工具，完成与数据的交互能力的产品和服务，并通过列举 2 个实例证明上述观点。

① Amodei 在访谈中分享到，全球科技公司 Block 利用语音识别技术和生成式 AI 模型，开发了能够通过语音指令自动完成店铺和商品信息设置的 Agents。

② 另一个案例是美国电话电报公司 AT&T 结合传统机器学习和生成式 AI 模型，通过分析通话记录来检测欺诈行为，使欺诈攻击减少了 80%。

5、在后续的对话中，Dario Amodei 和 Ali Ghodsi 基于两家公司达成合作以及 Databricks 开发的治理工具，强调了 AI 能够在确保安全条件下，量化数据价值和加速产品迭代。此外，两人还探讨了 Scaling Law 相关话题。

① Amodei 和 Ali Ghodsi 都建议借助 AI 技术量化企业专有数据的价值，以两家公司的合作作为范式，并介绍了管控数据治理风险的 Unity Catalog 工具。

② Amodei 和 Ali Ghodsi 都强调 AI 产品快速迭代的重要性。Dario Amodei 分享了如何使用 RAG 技术，加速产品迭代。两家公司均接入 MCP 协议，帮助 AI 工具使用外部数据资源。

③ Anthropic 的两位创始人都强调 Scaling Law 未达上限，但实用性需要预训练之外的优化，同时指出数据耗尽和成本问题，以及多维度协同优化和混合推理模型的重要性，并预测模型迭代速度将继续保持快速。

02 数据价值无可替代，但数据治理风险如何破解？

1、Dario Amodei 和 Ali Ghodsi 的第二个话题围绕数据展开，他们从 AI 能力角度和企业角度分别强调了数据对于企业的价值和重要性。

① Amodei 认为，数据代表着企业积累的知识与智慧，是与 AI 能力最相辅相成的要素之一。企业不仅可以用数据来微调模型，还可以将其作为模型运算的基础，通过 RAG 等方法提供上下文，或供智能体分析使用。

② Ali Ghodsi 认为，企业专有数据是构建竞争壁垒的核心，专用于训练模型的企业数据对构建 AI 模型很关键，尤其是各行业、企业和客户特有的数据，比如制药公司的实验数据，金融机构的交易记录，科技公司的用户行为数据...

....

#Qwen3 系列大模型亮点解析

总结一下我最关心的几个点：

一、混合思维模式

Qwen3 能在两种模式下工作，实现「按需切换」：

思考模式 (Thinking Mode)：处理复杂问题，比如数学推理、代码生成、深度分析的时候，模型会模拟人类的「慢思考」或「系统 2 思维」，进行详细的、逐步的推理（CoT），然后给出最终答案。
非思考模式 (Non-Thinking Mode)：面对相对简单、直接的问题，模型则采用「快思考」或「系统 1 思维」，迅速给出答案，优先保证响应速度和效率。

用户可以通过「思维预算」（token 数）来控制，也可以显式地通过 API 参数 (enable_thinking) 或特定指令（如对话中的 /think, /no_think 标签）来指导模型采用何种模式。

这个灵活度可能会带来应用上的一些新玩法。

二、架构与性能

这部分没有特别出人意料的东西。主打的架构是最近比较常见的 MoE：

旗舰模型 Qwen3-235B-A22B
相对小巧的 Qwen3-30B-A3B

还有一系列不同参数规模的 Dense 模型（从 0.6B 到 32B）。

这次的命名方式终于让我舒服了一点，从名字就能看出来这个模型是啥……

性能方面，从官方数据上看，感觉突破性没有特别强（当然终究还是要看实测）。我比较期待 Qwen3-30B-A3B 这个尺寸模型的实测表现。

这是官方的模型性能数据：

三、训练方式

预训练：

后训练：

graph TD
    %% Define Styles for final models
    classDef frontierFinal fill:#f8d7da,stroke:#e53e3e,stroke-width:2px,color:#721c24
    classDef lightweightFinal fill:#cce5ff,stroke:#3182ce,stroke-width:2px,color:#004085

    %% === Frontier Models Post-training ===
    subgraph "顶尖模型 (Frontier Models) 后训练流程"
        direction TB
        Base_Model_Large["大型<b>基础模型</b><br>(e.g., Base for 235B, 32B)"] --> PT1;
        PT1("阶段 1: 长思维链 (CoT) 冷启动<br>目标：学习基础推理") --> PT2;
        PT2("阶段 2: 基于推理的 RL<br>目标：强化推理能力") --> PT3;
        PT3("阶段 3: 思维模式融合<br>目标：融合思考/非思考") --> PT4;
        PT4("阶段 4: 通用 RL<br>目标：提升通用能力/对齐") --> Final_Model_Large;
        Final_Model_Large["产出: <b>顶尖指令模型</b><br>(e.g., Qwen3-235B-A22B, Qwen3-32B)<br>具备完整混合思维能力"];
        class Final_Model_Large frontierFinal;
    end

    %% === Lightweight Models Post-training ===
    subgraph "轻量级模型 (Lightweight Models) 后训练流程"
        direction TB
        Base_Model_Small["小型<b>基础模型</b><br>(e.g., Base for 30B, 14B, ...)"] --> Distill;
        Distill("<b>强模型到弱模型蒸馏</b><br>(Strong-to-Weak Distillation)<br>将大模型能力迁移到小模型") --> Final_Model_Small;
        Final_Model_Small["产出: <b>轻量级指令模型</b><br>(e.g., Qwen3-30B-A3B, Qwen3-14B, ...)<br>继承强大能力，更高效"];
        class Final_Model_Small lightweightFinal;
    end

    %% === Link between Frontier and Lightweight ===
    Final_Model_Large -- "作为 '强' 教师模型 (Teacher)" --> Distill;

也可看官方给的后训练流程图：

四、支持 MCP

看到很多媒体的说法是「原生」支持了 MCP，我对这个「原生」具体指代的内容抱有一点点疑问。看官方给的使用例子：

from qwen_agent.agents import Assistant

# Define LLM
llm_cfg = {
    'model': 'Qwen3-30B-A3B',

    # Use the endpoint provided by Alibaba Model Studio:
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # Use a custom endpoint compatible with OpenAI API:
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # Other parameters:
    # 'generate_cfg': {
    #         # Add: When the response content is `<think>this is the thought</think>this is the answer;
    #         # Do not add: When the response has been separated by reasoning_content and content.
    #         'thought_in_content': True,
    #     },
}

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timeznotallow=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
'code_interpreter',  # Built-in tools
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

我的目前的理解是，qwen_agent 这个 SDK 封装了 MCP 的用法，而不是 Qwen3 系列模型针对 MCP 协议数据进行了预训练或者后训练。不过这个理解有待证实，需要后面看一下 qwen_agent 的代码。

不过，无论如何，对于用户（开发者）都是一件好事。

....

#proof assistant

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

本周二，我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具，来验证涉及任意正参数的给定估计是否成立（在常数因子范围内）。

在项目中，他开发了一个用于自动（或半自动）证明分析中估计值的框架。估计值是 X≲Y（在渐近记法中表示 X=O (Y)）或 X≪Y（在渐近符号中表示 X=o (Y)）形式的不等式。

这才几天的时间，这个估计验证工具的 2.0 版本就来了！

陶哲轩对该工具进行了两次全面改进。

首先，他将其改造成一个基础的证明助手（proof assistant），同时能够处理一些命题逻辑；接着，他根据评论者的反馈，将其改造成一个更加灵活的证明助手（在几个关键方面特意模仿了 Lean 证明助手），它也由功能强大的 Python 符号代数包 sympy 提供支持。

陶哲轩认为现在得到了一个稳定的框架，并可以进一步扩展该工具。他最初的目标只是自动化（或半自动化）标量函数渐近估计的证明，但原则上可以继续向该工具添加策略、新的 sympy 类型和引理，以处理范围广泛的其他数学任务。

该证明助手的 2.0 版本已经上传到了 GitHub。同样地，与自己以前的编码一样，陶哲轩最终「严重」依赖大语言模型的帮助来理解 Python 和 sympy 的一些细节，其中 Github Copilot 的自动补全功能尤其有用。

虽然该工具支持全自动证明，但陶哲轩决定现在更多地关注半自动交互式证明，其中人类用户提供高级「策略」，然后证明助手执行必要的计算，直到证明完成。

GitHub 地址：https://github.com/teorth/estimates

根据项目简介，这是一个利用 Python 开发的轻量级证明助手，其功能远逊于 Lean、Isabelle 或 Rocq 等完整证明助手，但希望它能够轻松用于证明一些简短而繁琐的任务，例如验证一个不等式或估计是否由其他不等式或估计推导出来。该助手的一个具体目标是为渐近估计（asymptotic estimates）提供支持。

具体实现过程

下载相关文件后，即可在 Python 中启动证明助手，只需输入「from main import *」并加载一个预先制作的练习即可。以下是其中一个练习：

这是证明助手对以下问题的形式化描述：如果 x, y, z 是正实数，且 x<2y 且 y<3z+1，则证明 x<7z+2。

证明助手的工作方式是：用户指示助手使用各种「策略」来简化问题，直到问题得到解决。在本例中，该问题可以通过线性算法求解，具体形式化为「Linarith ()」策略：

如果有人想更详细地了解线性算法的工作原理，可以使用「verbose」标志（flag）来运行此策略。

有时，证明过程会涉及情况拆分，最终的证明会呈现出树状结构。这里有个例子：其务是证明假设 (x>-1)∧(x<1) 且 (y>-2)∧(y<2) 蕴涵 (x+y>-3)∧(x+y<3)：

这里，根据使用的三种策略对证明进行「伪精益」描述：策略「cases h」 1 对假设「 h1」进行情况拆分，然后在两种情况下分别应用「simp_all」策略来简化。

该工具支持渐近估计。陶哲轩找到了一种在 Sympy 中实现量级形式化的方法。事实证明，Sympy 在某种意义上已经可以原生实现非标准分析：它的符号变量有一个「is_number」标志，基本上对应于非标准分析中「标准」数的概念。

举例而言，数字 3 的「sympy」版本「S (3)」有「S (3).is_number == True」，因此是标准的；而整数变量「n = Symbol ("n", integer=true)」有「n.is_number == False 」，因此是非标准的。

在「sympy」中，他能够构建各种（正）表达式「X」的数量级「Theta (X)」，其属性「 Theta (n)=Theta (1)」如下：如果「n」是标准数，然后使用这个概念来定义渐近估计，例如

（实现为 lesssim (X,Y)）。接下来可以应用对数形式的线性算术来自动验证一些渐近估计。这里有个简单的例子：给定一个正整数 N 和正实数 x,y，使得

且

，任务目标是得出结论

：

对数线性规划求解器还可以通过相当强力的「分支」方法处理低阶项。

陶哲轩计划开始开发用于估计符号函数的函数空间范数工具，例如创建一些策略来部署诸如 Holder 不等式和 Sobolev 嵌入不等式之类的引理。Sympy 框架看起来足够灵活，可以为这些类型的对象创建更多对象类。目前，他只有一个概念验证引理来说明这个框架，即算术平均 - 几何平均（arithmetic mean-geometric mean）引理。

陶哲轩最后表示，他对这个证明助手的基本框架非常满意，因此愿意接受进一步的建议或新功能的贡献，例如引入新的数据类型、引理和策略，或者一些示例问题。这些问题应该很容易被这个助手解决，但目前由于缺乏合适的策略和引理而超出了它的能力。

数学形式化证明实验纪实

而就在刚刚，陶哲轩又发了一个新项目。

他最近尝试了一个小实验：尝试利用现代自动化工具（如 GitHub Copilot 和 Lean 证明助手）来半自动地形式化一个一页纸的数学证明。这个证明来自他在 Equational Theories Project 中的合作者 Bruno Le Floch。

视频演示：https://www.youtube.com/watch?v=cyyR7j2ChCI
讨论地址：https://leanprover.zulipchat.com/#narrow/channel/458659-Equational/topic/Alternative.20proofs.20of.20E1689.E2.8A.A2E2
GitHub 链接：https://github.com/teorth/estimate_tools/blob/master/EstimateTools/test/equational.lean

陶哲轩尝试「盲做」这个证明，即不真正理解证明结构的前提下，直接用工具去拼出形式化过程。他用约 33 分钟完成了形式化过程。对他来说，这是一种很不一样的工作方式 —— 不靠对整个证明的大局理解，而是完全依赖于工具处理逻辑细节。

在 Zulip 讨论中，Bruno Le Floch 最初指出，在论文中「E1689-E2 的所有已知证明都是计算机辅助」这一说法太绝对了。他自己后来给出了一个更具可读性的「人类版本」，虽有些步骤灵感来自 prover9，但整体不应算作纯计算机证明。

陶哲轩回应：那我们可以更新 blueprint，并在论文中注明我们在项目中得到了一个非计算机生成的版本。

故事就此开始，陶哲轩选择做一个实验。「我尝试完全基于 Bruno 的草稿，一步步进行形式化，过程非常依赖 Copilot 和 Lean 的 canonical 策略。」他将原稿拆解成细小逻辑单元，让工具处理约一半细节，剩下的由自己手动填补，完成了一个可以通过验证的 Lean 形式化证明，还录了视频上传到 YouTube。

实际证明，虽然这种方法看起来有点机械，但对于结构不强、以技术推导为主的证明，是有效的。AI 工具可以代劳大量繁琐推理，让人专注于「如何表达」而不是「是否合理」。

这场实验还暴露出一些 Lean 项目协作工具的问题。目前项目使用的 blueprint 工具只支持每个命题绑定一个证明版本。如果要同时记录人类证明和 AI 生成的版本，会发生覆盖，管理混乱。

如果你对这个话题感兴趣，建议直接查看 Zulip 讨论区，了解更多一线协作细节。

....

#现在的大学生，不用大模型才是异类

「大学现在学的就是掌握 ChatGPT 的程度了。」

在北美的顶尖大学校园里，人工智能完成作业、写论文已经成为一种常态。

近日，New York Magazine 旗下 Intelligencer 发表了一篇题为「每个人都在大学里作弊」的专题报道，其中从 Chungin「Roy」Lee 开发作弊软件的故事开始，谈到了美国大学对 ChatGPT 等 AI 工具的广泛使用乃至滥用的情况。

原文地址：https://nymag.com/intelligencer/article/openai-chatgpt-ai-cheating-education-college-students-school.html

这篇报道引起了社交媒体上广泛的讨论，作家 Steve McGuire 在一则帖文中总结了这篇报道中一些颇具冲击力的言论。

对此，有人认为 AI 会给教育带来不可避免的改变，而教育本身也应当顺应这种变化，探索新的教学和作业模式。

也有人表示，为了防止学生用 AI 写作业，应该考虑回归传统的课堂作业方式。

也有人分享了他们自身的教学技巧。

编译了 Intelligencer 的这篇专题报道。

去年秋天，Chungin「Roy」Lee 走进了哥伦比亚大学的校园，他坦言自己几乎在每份作业上都使用了生成式人工智能作弊。作为一名计算机科学专业的学生，他在入门的编程课上依赖人工智能：「我把题目扔到 ChatGPT 里，然后它输出什么就交什么。」他粗略地算了一下，他提交的每一篇论文 80% 都是人工智能写的。「最后我会进行一些润色。我会把 20% 的人性，也就是我的声音，融入其中，」Lee 最近告诉我。

Lee 出生于韩国，在亚特兰大郊外长大，他的父母在那里经营着一家大学预科咨询公司。他说，他在高中四年级时就被哈佛大学录取，但因为他在毕业前的一次夜间实地考察中偷偷溜出去而被停学，哈佛大学撤销了录取。一年后，他申请了 26 所学校，但一无所获。所以，他在一所社区大学待了一年，之后转学到哥伦比亚大学。（他的自我介绍是在 ChatGPT 的帮助下撰写的，论文将他曲折的高等教育之路变成了一个寓言，讲述了他创办公司的雄心壮志。）

去年 9 月，当他以大二学生的身份开始在哥伦比亚大学学习时，他并不太担心学业或 GPA。他告诉我：「大学的大多数作业都与我无关…… 它们可以被 AI 破解，而我对做这些作业根本没兴趣。」当其他新生对大学严格的核心课程感到担忧时，学校称其「拓展智力」和「促进个人转变」，而 Lee 却利用人工智能以最少的努力轻松通过了考试。当我问他为什么费尽心思考进常春藤盟校，却把所有的学习都推给机器人时，他说：「这是结识联合创始人和找对象的最佳场所。」

到第一学期末，Lee 终于实现了其中一个愿望。他遇到了联合创始人、工程学院大三学生 Neel Shanmugam，两人一起开发了一系列有潜力的初创项目：一款专为哥伦比亚大学学生设计的约会应用、一款面向酒类经销商的销售工具，以及一款笔记应用。但这些应用都没有成功。这时，Lee 萌生了一个想法。作为一名程序员，他曾在 LeetCode 上苦苦挣扎了大约 600 个小时。

对于 CS 专业的学生来说，LeetCode 的大名再熟悉不过了，这是一个刷题平台，旨在帮助程序员应对科技公司在面试和实习生时提出的算法题。和许多年轻的开发者一样，Lee 觉得这些题目乏味无趣，而且大多与实际的工作内容无关。这有什么意义呢？如果有人开发一个程序，在远程面试中隐藏浏览器的 AI 能力，让面试者可以通过作弊手段通过面试，结果会怎样？

2 月，Lee 和 Shanmugam 推出了一款工具，实现了这一目标。他们的 Interview Coder 的网站上打出了一条横幅，上面写着「F*CK LEETCODE」。Lee 在 YouTube 上发布了一段自己用该工具作弊通过亚马逊实习面试的视频。（他实际上得到了实习机会，但拒绝了。）一个月后，Lee 被哥伦比亚大学学术诚信办公室叫去。根据委员会的报告，委员会认定他「宣传作弊工具链接」和「向学生提供访问该工具的知识，并让他们自行决定如何使用」，之后学校对他进行了纪律处分。

Lee 认为，哥伦比亚大学与 ChatGPT 的母公司 OpenAI 有合作关系，却因为他在人工智能方面进行创新而惩罚他，这太荒谬了。尽管哥伦比亚大学的人工智能政策与许多其他大学类似 —— 除非教授明确允许（无论是某个课程还是具体项目），否则禁止学生使用人工智能 —— 但 Lee 表示，他认识的学校里没有一个学生不在利用人工智能作弊。需要明确的是，Lee 并不认为这是一件坏事。他说：「我认为，我们距离一个没有人认为使用 AI 做作业是作弊的世界还有几年的时间，甚至可能是几个月的时间。」

2023 年 1 月，就在 OpenAI 推出 ChatGPT 仅仅两个月后，一项针对 1000 名大学生的调查发现，近 90% 的学生曾使用这款聊天机器人来帮助完成作业。ChatGPT 上线第一年，其月访问量逐月稳步增长，直至 6 月学校放暑假。（这并非纯粹的猜测：2024 年暑假，流量再次下降。）

教授和助教们越来越多地发现自己面对的论文充斥着笨拙、机械化的措辞，虽然语法上无可挑剔，但听起来却不像大学生 —— 甚至不像人类。两年半后，大型州立学校、常春藤盟校、新英格兰文理学院、海外大学、专业院校和社区学院的学生都开始依赖人工智能来帮助他们顺利完成教育的各个方面。

生成式 AI 工具，除了 ChatGPT，还有谷歌的 Gemini、Anthropic 的 Claude、微软的 Copilot 等等，它们可以帮助人们在课堂上做笔记、设计学习指南和练习测试、总结文章和教科书内容，以及集思广益、勾勒提纲与撰写论文。STEM 专业的学生正在使用人工智能来自动化他们的研究和数据分析，加速完成密集的编码和调试任务。「大学现在学的就是掌握 ChatGPT 的程度了，」犹他州的一名学生最近在一段视频中配文，视频中她将《种族灭绝与大规模暴行》教科书中的一章复制粘贴到 ChatGPT 中。

加拿大威尔弗里德・洛里埃大学（Wilfrid Laurier University）的新生 Sarah 表示，她第一次使用 ChatGPT 是在高中最后一年的春季学期。（出于隐私考虑，文中为化名）熟悉了聊天机器人后，莎拉在所有课程中都使用了它：原住民研究、法律、英语，以及一门名为「绿色产业」的「嬉皮士农业课」。「我的成绩棒极了，」她表示，「ChatGPT 改变了我的人生。」

去年秋天上大学后，Sarah 继续使用人工智能。她几乎每次上课都会看到其他学生的笔记本电脑打开 ChatGPT。学期末，她开始觉得自己可能对这个网站产生了依赖。她已经觉得自己对 TikTok、Instagram、Snapchat 和 Reddit 上瘾了，她在 Reddit 上用用户名「maybeimnotsmart」写作。「我在 TikTok 上花费了很多时间，」她说。「成小时的刷，直到我的眼睛开始疼，这让我很难计划和完成学业。有了 ChatGPT，我可以在两个小时内写出一篇通常需要 12 个小时的论文。」

教师们尝试过用人工智能来布置作业，比如重新使用蓝皮书（作文考试）或改为口试。圣克拉拉大学的技术伦理学者 Brian Patrick Green 在第一次尝试 ChatGPT 后就立即停止了布置论文。不到三个月后，在教授一门名为「伦理与人工智能」的课程时，他认为低风险的阅读反思是安全的 —— 肯定没有人敢用 ChatGPT 来写一些私人的东西。但他的一个学生提交了一份反思，其中充满了机械的语言和尴尬的措辞，Green 知道这是人工智能生成的。阿肯色大学小石城分校的一位哲学教授发现，她在「伦理与技术」课上的学生使用人工智能来回答「简单介绍一下自己，并说出你希望从这门课中学到什么」这个问题，直接输入当提示词。

作弊并不是什么新鲜事。但现在，正如一位学生所说的，「天花板被掀翻了」。谁能抗拒一种能让所有作业都变得更容易、而且似乎没有任何后果的工具呢？过去两年大部分时间一直在批改 AI 生成论文的加州州立大学奇科分校伦理学教授 Troy Jollimore 对此感到担忧。

「大量学生将从大学毕业，获得学位，进入职场，但他们本质上是文盲，」他表示。「既是字面意义上的文盲，也是历史上的文盲，他们对自己的文化一无所知，更不用说其他人的文化了。」考虑到大学教育的短期性，这样的未来可能比预期更快到来。目前，大约一半的本科生在大学期间还没有接触过生成式 AI。「我们谈论的是整整一代人的学习方式可能都受到了严重破坏，」Green 表示。「它正在缩短学习过程，而且这种情况正在迅速发生。」

在 OpenAI 于 2022 年 11 月发布 ChatGPT 之前，作弊现象其实已达到了新高度。当时，许多大学生远程完成高中学业，基本无人监督，并且可以使用 Chegg 和 Course Hero 等工具。这些公司标榜自己拥有庞大的在线教科书和课程资料库，但实际上，它们只是作弊的多功能工具。Chegg 承诺每月只需 15.95 美元，即可获得其雇佣的 15 万名拥有高学位的专家（主要在印度）提供的全天候服务，最快 30 分钟内即可解答家庭作业问题。

不过在 ChatGPT 推出后，学生们迎来了一款速度更快、功能更强大的工具。

学校管理者对此却束手无策。由于无法全面禁止 ChatGPT，大多数学校采取了临时措施，由教授决定是否允许学生使用人工智能。一些大学对此表示欢迎，与开发者合作，推出自己的聊天机器人帮助学生选课，或开设以生成式人工智能为重点的新课程、证书课程和专业。但监管仍然困难重重。多少程度的 AI 帮助是可以接受的？学生是否应该被允许与大模型对话以获取灵感，但不能要求他们直接复制粘贴？

如今，教授们通常会在教学大纲中阐明他们的政策 —— 例如，允许使用人工智能，但学生必须像引用其他来源一样引用它；或者只允许 AI 提供概念帮助；或者要求学生提供与聊天机器人对话的记录。学生们通常将这些指示理解为指导方针，而非硬性规定。有时，他们会在作业上作弊，甚至在不知情的情况下 —— 或者在不了解具体程度的情况下，要求聊天机器人修改草稿或查找相关研究进行引用，这显然违反了大学政策。

Wendy 是纽约市一所顶尖大学的金融专业大一学生，她告诉我，她反对使用人工智能。或者，她澄清道：「我反对复制粘贴。我反对作弊和剽窃。所有这些。这违反学生手册。」然后她一步步描述了她是如何在最近一个星期五早上 8 点调用一个人工智能平台来帮助她写一篇两小时后截止的四到五页的论文。

每当 Wendy 使用 AI 写论文时（也就是说，每当她写论文时），她都会遵循三个步骤。第一步：「我会对大模型说，『我是一名大学一年级学生，我正在上这门英语课』，」Wendy 说道。「它会教给你一种非常高级、非常复杂的写作风格，而你肯定不想要那样。」第二步：Wendy 会介绍一下她所学课程的背景，然后将教授的指示复制粘贴到聊天机器人中。第三步：「然后我会问，『根据提示，你能否给我一个提纲或组织结构，以便我能够按照提纲写作？』然后，它会给我一个提纲、引言、主题句、第一段、第二段、第三段。」有时，Wendy 会要求 AI 列出支持或反驳某个论点的观点：「我不太擅长组织文章，而这个提纲让我很容易理解。」

大模型聊天机器人勾勒出 Wendy 的论文大纲，提供主题句和观点要点后，她只需填写其他内容即可。温迪在上午 10:17 提交了一份工整的五页论文，迟到的时间尚可接受。当我问她作业完成得如何时，她说她得了个好成绩。「我真的很喜欢写作，」她说道，语气中带着一丝奇特的怀旧之情 —— 那是她最后一次独自写作文。

「说实话，我觉得精心规划论文很有意思。你能学到很多东西。你必须思考，哦，我这一段该写些什么？或者我的论点应该是什么？」但她更希望获得好成绩。「用 ChatGPT 写论文，它就像直接告诉你要遵循什么。你真的不用想那么多。」我问 Wendy 能不能读一下她交的论文。打开论文，我惊讶地发现论文的主题是：批判教育学，即巴西教育家保罗・弗莱雷开创的教育哲学。这种教育哲学考察社会和政治力量对学习和课堂动态的影响。她的开场白是：「学校教育在多大程度上阻碍了学生批判性思考的认知能力？」

后来，我问Wendy，她是否意识到自己利用 AI 撰写的不仅是一篇关于批判教育学的论文，而且是一篇论证学习才是「让我们真正成为人」的论文，这其中的讽刺意味。她不确定该如何理解这个问题。「我经常使用人工智能，几乎每天都用，」她说。「我确实认为它会剥夺批判性思考的能力。但只是 —— 既然我们依赖它，我们真的无法想象没有它的生活。」

我接触过的写作课教授大多表示，学生使用人工智能写作时往往破绽百出。有时是语言过于流畅，但句式呆板单调；有时又显得生硬机械。论点呈现诡异的绝对平衡 —— 反驳观点竟与论文核心主张同样严密周详。multifaceted（多方面的）、context（上下文）这类词汇出现频率异常偏高。去年甚至有教师发现学生论文开篇赫然写着「作为 AI，我被编程设定......」，不过更多时候迹象更为隐蔽，这使得指认 AI 抄袭比认定传统剽窃困难得多。

部分教授开始采用所谓的特洛伊木马策略：在作业要求段落间插入白色小字体的怪异短语（理论上会诱导 ChatGPT 在论文中植入突兀内容）。比如圣克拉拉大学的学生最近就发现教授布置的作业里暗藏 broccoli（西兰花）一词。

有学生在社交上揭发了这个陷阱并警告同学。「这招偶尔奏效，很多情况下有些学生不仅没有写论文，而且在提交论文之前也没有仔细阅读自己的论文。」一位大学教授表示道。

但一些教授们坚定的认为他们能检测出 AI 生成的写作，然而事实并非如此。

2024 年 6 月发表的一项研究中，英国某大学采用虚构学生档案，将完全由 AI 生成的作业混入教授批改队列，结果 97% 的 AI 作业未被标记。

更棘手的是，自 ChatGPT 问世以来，AI 生成类人文本的能力还在持续进化。

这促使高校纷纷启用 Turnitin 等 AI 检测工具 —— 该软件通过分析 AI 文本的特征模式进行识别，检测系统会为文本段生成一个百分比数值。学生间流传着某些教授的红线阈值传闻（比如 25%），超过该数值就可能被认定为违反学术诚信。

然而，无论是规模庞大的大学还是小型私立学院，无论是精英学府还是普通院校，我采访的所有教授中，没有一人承认执行过这种「AI 检测红线政策」。多数教授似乎已无奈接受一个现实：现有 AI 检测工具根本靠不住。

不同检测工具的准确率差异悬殊，研究数据也充满矛盾。虽然某些系统宣称误报率不足 1%，但多项研究表明，英语非母语者的作业更容易被误判为 AI 生成。Turnitin 首席产品官坦言，他们的产品宁可漏判也不愿误报，以避免教师错误指控学生抄袭。

为验证检测效果，我将 Wendy 的论文输入免费检测工具 ZeroGPT，结果显示 AI 生成概率仅为 11.74%—— 考虑到其核心论点明显由 AI 构建，这个数值低得反常。更荒诞的是，当我把一本书（创世纪）的段落输入同一系统时，竟被判定为 93.33% 可能由 AI 生成。

当然，要糊弄教授和检测工具，学生有的是办法。

用 AI 生成论文后，他们可以手动改写、加入个人风格或故意制造几个错别字 —— 甚至直接让 AI 代劳：比如输入指令「模仿有点犯蠢的大一新生文风」。

更隐蔽的做法是通过多款 AI 进行「文本洗稿」，有些 AI 工具标榜允许上传过往作业来训练专属写作风格。学生们太会钻空子了 —— 先把指令输给 ChatGPT，产出文本扔进第二个 AI 系统，再转手第三个 AI 系统。经过层层转码，检测工具显示的 AI 概率就会逐次递减。

大多数教授逐渐意识到，要遏制 AI 滥用泛滥，仅靠个人审查远远不够，可能需要彻底改革教育体系，更全面地评估学生。许多教师如今深陷无力感。

去年秋季，来自爱荷华大学的助教 Sam Williams 表示，他所教授的课程明文禁止使用 AI。当批改第一份作业时 ——Williams 还乐在其中。但到第二份作业时，学生的文风突然剧变。荒诞的是事实性错误频出：多篇论文竟用整段篇幅讨论另一个不相关的人。Williams 直接对学生摊牌：别用 AI，但如果非要作弊，至少得聪明点。

Williams 表示「学生们用 AI，是因为这是个简单的解决方案，能轻松逃避写论文的耗时过程。我理解这点，因为我上学时也讨厌写论文。但现在每当遇到一点困难，他们不是迎难而上、从中成长，而是退缩到让事情变得轻松得多的捷径上。」

到 11 月时，Williams 估计至少半数学生都在用 AI 写论文。追究责任根本无济于事 —— 他早已不信任 AI 检测工具，而授课教授也明确指示他不要因 AI 使用而判定论文不及格，即便是那些明显经过 AI 润色的作业。「每次向教授反映这个问题时，我都能感觉到他低估了 ChatGPT 的能力。系里的态度是这事难以界定，我们无法真正证明学生使用了 AI，我被要求按照假设这是篇真实完成的论文来打分。说白了，我其实是在给学生们使用 ChatGPT 的能力评分。」

这项「假设真实完成论文」的评分政策彻底扰乱了 Williams 的评分体系。如果给一篇明显由 AI 生成但质量尚可的论文打 B，那么按照他的说法，对于那些真正自己动笔却交上来「狗屁不通文章」的学生，又该如何打分？这种混乱彻底动摇了 Williams 对教育体系的信念。学期结束时，他已然心灰意冷，决定放弃研究生学业。「我们身处一个全新的时代，而教育这条路，已经不是我想要的了，」他说道。

Jollimore 已经教了 20 多年的写作。现在他确信：人文学科（尤其是写作）正迅速沦为一门与时代脱节的艺术选修课，就像编篮子一样。

「每次我和同事谈这个问题，他们总是提起同一件事：退休。我什么时候才能退休？我什么时候才能摆脱这些？我们现在都在想这些，」他说。「这可不是我们当初想要的。」Williams 和我采访过的其他教育工作者将 AI 的接替描述为一场全面的生存危机。「学生们似乎意识到这个系统已经崩溃，这样做真的毫无意义。也许这些作业的初衷已经丢失，或者没有很好地传达给他们。」

他很担心，如果被动地让 18 岁的年轻人决定是否主动写作业，会出现不良的长期后果。这会让职场软技能差距加速扩大吗？如果学生依靠 AI 来接受教育，他们又能为职场带来什么技能呢？

加州大学伯克利分校计算机科学讲师 Lakshya Jain 一直在用这些问题试图说服他的学生「如果你提交的作业是 AI 完成的，你实际上就相当于是 AI 引擎的人类助手，这让你很容易被取代。为什么有人会留着你？」这并非空穴来风：一家科技研究公司的首席运营官（COO）最近就问 Jain，为什么他还需要程序员。

理想情况下，大学是增长智识的地方，学生可以接触深刻的思想。但是，这种理想早在 ChatGPT 出现之前就已经消失了。高昂的成本和赢家通吃的经济模式已经让大学教育变成了一种类似交易的过程，一种达到目的的手段。（德勤最近的一项调查发现，仅略多于一半的大学毕业生认为他们的教育值得每年花费数万美元，而职业学校毕业生的这一比例为 76%。）

某种程度上讲，AI 能够快速高效地完成大学水平作业这件事本身就暴露了问题的核心。「作为教育工作者，我们还没有开始消除社会多年来对学生认知和精神造成的伤害 —— 这种社会把学校教育视为获得高薪工作、或许是某种社会地位的手段，仅此而已，我们怎么能指望他们理解教育的意义呢？」Jollimore 在最近的一篇文章中写道。「或者更糟的是，我们认为学校教育毫无价值，就像一种骗局，一场精心设计的骗局？」

而使用 AI 的不仅仅是学生：现在也有不少可以给学生的论文写反馈的工具。这就产生了这样一种可能性：AI 评估 AI 生成的论文。如此一来，整个学术活动就简化为了两个机器人之间的对话 —— 甚至可能只是一个机器人自我对话。

我们还需要数年时间才能完全解释这一切对学生大脑的影响。

一些早期研究表明，当学生将认知任务转移给聊天机器人时，他们的记忆力、解决问题的能力和创造力可能会受到影响。

过去一年发表的多项研究将 AI 的使用与批判性思维能力的下降联系起来；其中一项研究发现，这种影响在年轻参与者中更为明显。今年 2 月，微软和卡内基梅隆大学发表了一项研究，发现人们对生成式 AI 的信心与批判性思维投入的减少相关。其最终效果即使不完全像《机器人总动员》那样，至少也是对个人努力和能力的一次重大重组，从高强度的探究和事实收集转向整合和验证。

如果考虑到 AI 并不完美（它可能依赖于一些事实上不准确的东西，或者完全杜撰一些东西），再加上社交媒体对 Z 世代辨别事实和虚构的能力造成的毁灭性影响，这一切就尤其令人不安。

问题可能远不止生成式 AI。弗林效应（Flynn effect ）指的是智商分数的持续上升，至少可以追溯到 20 世纪 30 年代。这种增长速度在 2006 年左右开始放缓，在某些情况下甚至出现下降。

康奈尔大学心理学教授 Robert Sternberg 告诉《卫报》：「在这个生成式 AI 时代，最大的担忧不是它会损害人类的创造力或智力，而是它已经损害了。」

也有学生担心这个问题，即使他们不愿意或无法放弃聊天机器人，毕竟这让他们的生活变得无比轻松。佛罗里达大学计算机科学专业的 Daniel 告诉我，他清楚地记得第一次尝试 ChatGPT 的情景。他说，他大步穿过走廊，来到高中计算机科学老师的教室，拿出他的 Chromebook 给他看。「我当时就想：『哥们儿，你一定要看看这个！』我爸爸现在回想起史蒂夫・乔布斯的 iPhone 主题演讲，都会想，『是啊，那真是个重要时刻。』对我来说，看着这样的东西，感觉就像我会把它用在我的余生的每一天。」

AI 让 Daniel 更加好奇；他喜欢每当有问题时都能快速找到完整的答案。但当他用 AI 做作业时，他常常会想，如果我花时间去学习，而不是仅仅去发现，我是不是能学到更多？在学校，他让 ChatGPT 确保他的论文精炼且语法正确，在时间紧迫时帮他写好论文的前几段，处理编程课上的繁琐工作，基本上省去了所有可以省事的环节。有时，他知道使用 AI 明显违反了学生行为准则，但大多数时候，他感觉自己处于一个灰色地带。他说：「我想没人会说找家教是作弊吧？但如果家教开始帮你写论文，会发生什么呢？」

最近，芝加哥大学数学专业大一新生 Mark 向一位朋友承认，他比平时更多地使用 ChatGPT 来帮助他完成一个编程作业。

他的朋友打了一个多少让人感到安慰的比喻：「你可以是一个盖房子的承包商，使用所有这些电动工具，但到头来，没有你，房子就不会存在。」不过，Mark 说：「这真的很难判断。这能算是我的成果吗？」

我问了 Daniel 一个假设，试图了解他觉得哪种程度才算是他的成果，哪些又是 AI 的：如果他发现恋人给他发了一首 AI 创作的诗，他会难过吗？

「我想问题在于，你收到的东西的价值主张是什么？是他们创造了它？还是东西本身的价值？」他说道。「在过去，给某人写信通常同时意味着这两件事。」如今，他还是会发出手写的笔记 —— 但这些笔记都是他用 ChatGPT 起草的。

杜克大学教授 Orin Starn 在最近一篇题为《我与 AI 作弊的败局之战》的专栏文章中写道：「语言是思想之母，而非婢女。」他引用了一句常被认为出自 W. H. 奥登 (W. H. Auden) 的名言。

参阅：https://www.dukechronicle.com/article/2025/02/losing-battle-ai-cheating

但培养批判性思维的不仅仅是写作。得州农工大学副教务长 Michael Johnson 说：「学习数学是为了培养你系统地经历一个过程来解决问题的能力。即使你不打算在职业生涯中使用代数、三角学或微积分，你也会运用这些技能，在遇到不合理的事情时，获得洞见。」

青少年受益于结构化的逆境，无论是代数还是家务。他们的自尊和职业道德还在构建中。正因如此，社会心理学家 Jonathan Haidt 主张：让孩子们学习做困难的事情很重要，而科技正让孩子们更容易避免困难。

OpenAI 首席执行官萨姆・奥特曼（Sam Altman）倾向于将学术界对 AI 应用的担忧视为目光短浅，他将 ChatGPT 描述为仅仅是「一个文字计算器」，并表示作弊的定义需要改进。这位斯坦福大学的辍学生去年曾说过：「用老式的方法写论文不会有什么用，」但他在 2023 年在参议院技术监督委员会发表讲话时，他承认了自己的保留意见：「我担心随着模型越来越好，用户自己的判断过程会越来越少。」

OpenAI 一直不遗余力地向大学生推广。比如，它推出的 ChatGPT Plus 的订阅费通常是每月 20 美元，但在期末考试期间却会免费向学生开放。（OpenAI 认为，学生和老师需要学习如何负责任地使用它，并强调了它向学术机构销售的 ChatGPT Edu 产品。）

3 月下旬，Lee 在 X 上发布了有关其纪律听证会的详细信息后，哥伦比亚大学暂停了他的学业。他没有重返校园的计划，也不想在大型科技公司工作。

Lee 向我解释说，通过向世界展示 AI 可以在远程求职面试中作弊，他推动了科技行业的进化，就像 AI 推动高等教育进化一样。他说：「每一次技术创新都会促使人类静下心来思考哪些工作真正有用。也许在 17 世纪或 18 世纪，有人抱怨机器取代了铁匠，但现在人们普遍认为学习铁匠是无用的。」

Lee 早已不干面试作弊这种事情了。今年 4 月，他和 Shanmugam 推出了 Cluely，它可以扫描用户的电脑屏幕并监听音频，以便在无提示词的情况下实时提供 AI 反馈和问题解答。

「我们打造的 Cluely，是为了让用户不再独自思考，」公司宣言中写道。这一次，Lee 试图通过一则耗资 14 万美元的脚本广告进行病毒式传播。广告中，Lee 饰演的一位年轻软件工程师 —— 他利用安装在眼镜上的 Cluely，在与一位年长女性的初次约会中撒谎。当约会开始不顺利时，Cluely 建议 Lee「看看她的艺术作品」，并提供了一个脚本供他参考。「我看到了你的个人资料和那幅有郁金香的画，你真是我见过最漂亮的女孩。」Lee 从眼镜里读到这句话，这挽救了他和她在一起的机会。

在推出 Cluely 之前，Lee 和 Shanmugam 从投资者那里筹集了 530 万美元，这笔钱让他们能够雇佣两名程序员，他们是 Lee 在社区大学认识的朋友（不需要求职面试或 LeetCode 答题），然后他们搬到了旧金山。

在 Cluely 推出几天后，我们进行了交谈，当时 Lee 正在他的房地产经纪人办公室，准备拿新工作间的钥匙。我们交谈时，他正在电脑上运行 Cluely。虽然 Cluely 还不能通过人们的眼镜提供实时答案，但他们的想法是，不久的将来它将在可穿戴设备上运行，看到、听到并对你周围的一切做出反应。Lee 说：「最终它会装在你的大脑里。」

目前，Lee 希望人们能够使用 Cluely 继续 AI 对教育的攻城略地。他说：「我们的目标是数字化 LSAT、数字化 GRE 考试；所有校园作业、测验和考试。它几乎能让你在所有事情上作弊。」

....

#WorldMem

转身世界就变样？WorldMem用记忆让AI生成的世界拥有了一致性

本文一作为肖泽琪，本科毕业于浙江大学，现为南洋理工大学博士生，研究方向是基于视频生成模型的世界生成和模拟，导师为潘新钢。个人主页：

https://xizaoqu.github.io

近年来，基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展，但由于上下文时间窗口受限，生成的世界在长时序下严重缺乏一致性。

针对这一问题，南洋理工大学 S-Lab、北京大学与上海 AI Lab 的研究者提出了创新性的世界生成模型——WorldMem，通过引入记忆机制，实现了长时序一致的世界生成。

WorldMem 在 Minecraft 数据集上进行了大规模训练，支持在多样化场景中自由探索和动态变化，并在真实数据集上验证了方法的可行性。

论文名称：WorldMem: Long-term Consistent World Simulation with Memory
项目主页： https://xizaoqu.github.io/worldmem
论文代码：https://github.com/xizaoqu/WorldMem
Demo：https://huggingface.co/spaces/yslan/worldmem

研究背景

世界生成模型在近期受到了广泛关注，如谷歌的 Genie 2 [1]、阿里的 The Matrix [2]、Meta 的 Navigation World Models [4] 等。这些方法在生成质量与交互性方面取得了显著进展，但长时一致性问题仍未得到有效解决。

举例：当我们控制视角先向右转，再向左转。

在传统方法中，回看时场景内容会发生显著变化。

在 WorldMem 中，我们在世界生成模型中引入记忆机制，实现了一致的世界生成。

方法效果

WorldMem 通过引入记忆机制，实现了长时序下世界生成的一致性。智能体可在广阔的动作空间中探索多样场景，生成结果在视角和位置变化后仍保持良好的几何一致性。

同时，WorldMem 还支持时间一致性建模。比如在雪地中放置南瓜灯，随着时间推移，模型不仅保留该物体，还能生成其逐渐融化周围积雪的细节，体现真实的事件演化过程。

方法

WorldMem 模型的主要结构如下图所示，包含三大核心模块：

条件生成模块
记忆读写模块
记忆融合模块

条件生成模块——支持交互与持续生成的条件视频生成主干

我们基于 Oasis [5] 和 Conditional DiT [6] 构建了世界生成基模型，并采用 Diffusion Forcing [3] 训练策略，使模型能在有限上下文下实现自回归式长时生成。

尽管扩散模型结合自回归训练具备一定的长时生成能力，但仍受限于上下文窗口，易出现遗忘问题，导致生成内容逐渐失真。为此，我们引入记忆机制，以增强模型的长期一致性。

记忆读写模块——负责历史信息的存取与精准检索

记忆库（Memory Bank）：构建生成的长期记忆

为缓解上下文窗口带来的遗忘问题，我们引入了记忆机制，作为一个持续更新的外部缓冲区，帮助模型回顾过去，保持场景在时间上的连续性。

我们设计的记忆库用于存储生成过程中的关键历史信息。每个记忆单元包含图像帧及其对应的状态（视角位姿与时间戳）。随着生成推进，记忆库不断积累，构建起一套可检索的时间记录。

记忆检索（Memory Retrieve）：高效选出最相关的历史帧

由于每次生成仅能参考少量历史帧，我们设计了一种贪心匹配算法，从庞大的记忆库中高效筛选关键信息：

计算相似度（基于视野重叠与时间差异）；
选取与当前场景最接近的记忆单元；
过滤冗余，确保选出的记忆代表性强、信息多样。

这一过程不仅提升了生成效率，也保障了历史信息的有效利用。

记忆融合模块——融合关键历史帧，引导当前生成

在长时序视频生成中，仅依赖当前帧难以维持场景一致性。我们引入记忆融合模块，通过融合关键历史帧，引导当前生成，使模型在视角或场景变化后，仍能还原先前内容。

不同于 StreamingT2V [7]、SlowFast [8] 等方法主要依赖高层语义特征，我们更关注细节重建与空间一致性，因此需要更精细的历史关联机制。

Memory Attention：连接过去与现在

我们采用跨注意力机制，实现当前帧与历史帧的动态交互：

为当前帧和记忆帧添加状态嵌入（位姿 + 时间）；
通过注意力计算，提取与当前场景最相关的记忆信息，生成融合特征用于引导生成。

这种方式实现了历史信息的高效利用与精准检索，显著增强生成的一致性。

状态嵌入设计：精细表达空间与时间

为提升融合效果，我们设计了两类嵌入：

位姿嵌入：采用 Plücker 坐标表达空间位置；
时间嵌入：使用 MLP 映射时间戳。

二者相加构成最终状态特征。此外，我们引入相对嵌入机制：

查询帧使用零向量，仅依赖记忆帧的相对状态；
并采用帧独立检索策略，确保每帧都能单独提取最相关历史信息。

整体上，记忆融合模块显著提升了模型的空间理解与细节保持能力，是实现稳定、连贯世界生成的关键组成部分。

实验

在 Minecraft 上的结果

我们在 Minecraft 基准测试中评估了所提方法，结果显示：

在短时生成中，传统方法易出现一致性问题，而引入记忆机制后，生成质量与一致性明显提升；
在长时推理中，传统方法性能显著下降，而我们的方法在各项指标上保持优势，展现出良好的长期稳定性。

长时序生成对比

下图展示了不同消融设置下，模型在 300 帧序列上的 PSNR 变化。结果表明：

缺少记忆模块或采用随机检索的方法，在短时间内即出现一致性下降；
缺少相对位置编码的模型，在 100 帧后性能明显退化；
完整方法在 300 帧以上仍保持稳定一致性，展现出优越的长期建模能力。

可视化结果

与仿真数据（Ground Truth）相比，WorldMem 能够基于记忆条件输入，准确建模世界场景，同时支持动态变化（如降雨），并保持良好的时间一致性。

，时长00:09

WorldMem 支持与生成世界的交互，例如在沙漠中放置干草堆或在草原上种植作物。这些事件会被写入记忆库，并影响后续生成。当用户回到曾种植作物的位置时，不仅能看到作物仍在，还能观察其从发芽到生长的过程，体现出模型对时间动态的建模能力。

在真实场景上的结果

我们同时也将我们的方法在真实场景数据上做了验证，结果显示，加入记忆机制后，我们的方法能够增强真实世界生成的一致性。

更多定制轨迹的结果:

更多细节请参考我们的论文与项目主页。

展望

近年来，视频生成模型（如 WAN 2.1 [9]、Hunyuan [10] 等）展现出惊人的世界生成与仿真能力，验证了其在理解与生成复杂环境中的潜力。

我们相信，未来交互式视频生成模型将在虚拟仿真、交互智能等领域发挥越来越重要的作用。

WorldMem 为世界一致性建模迈出了关键一步，随着技术发展，视频生成模型有望成为构建真实、持久、交互式虚拟世界的核心引擎。

参考文献

[1] Genie 2: A large-scale foundation world model. 2024.

[2] The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control. arXiv 2024.

[3] Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion. NeurIPS 2024.

[4] Navigation World Models. CVPR 2025.

[5] Oasis: A universe in a transformer. 2024.

[6] Scalable Diffusion Models with Transformers. ICCV 2023.

[7] StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text. arXiv 2024.

[8] Slow-Fast Learning for Action-Conditioned Long Video Generation. arXiv 2024.

[9] Wan: Open and Advanced Large-Scale Video Generative Models. arXiv 2025.

[10] HunyuanVideo: A Systematic Framework For Large Video Generative Models. arXiv 2024.

....

#CineMaster

快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster！

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而，我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如，在拍摄赛车追逐的场景时，镜头通常跟随赛车运动，并通过扣人心弦的超车时刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作，限制了 AI 影视制作的能力。

近期，可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试，推出了电影级文本到视频生成框架 CineMaster，允许用户在提供全局文本描述的基础上，通过提出的交互式工作流辅助用户像专业导演一样布置场景，设定目标与相机的运动，指导模型生成用户想要的视频内容。目前该论文已录用于 SIGGRAPH 2025。

论文标题：CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

论文地址：https://arxiv.org/abs/2502.08639

项目主页：https://cinemaster-dev.github.io/

，时长01:43

CineMaster 支持 3D 感知的目标、相机运动控制

a) 目标相机联合控制

b) 目标运动控制

c) 相机运动控制

可以观察到，CineMaster 可以根据用户提供的多模态细粒度的控制信号生成期望的视频，支持较大幅度的目标、相机运动的可控生成。

CineMaster 框架

CineMaster 通过两阶段的工作流，实现高度可控的文本到视频生成：

阶段 1：构建 3D 感知的控制信号。用户可以通过交互式界面在 3D 空间中调整物体的边界框（3D Bounding Box）和摄像机位置，这个过程类似于真实的电影拍摄过程，即导演多次调整演员在场景中的排布和相机的运动。随后，导出相机轨迹和每帧的投影深度图，作为后续生成的条件信号。

阶段 2：如图所示，该方法框架通过语义布局 ControlNet 的架构集成了物体的运动控制信号和物体的类别标签信息，从而明确地控制每个目标的运动。此外，通过 Camera Adapter 集成了相机运动控制信号表示视频序列的全局运动。

CineMaster 训练数据构建流程

数据构建流程旨在从任意视频中提取 3D bounding boxes、类别标签、视频相机轨迹，主要包含 4 个步骤：

通过 Qwen2-VL 增强的实体描述提升开放词汇目标检测模型 Grounding DINO 的性能，并通过 SAM v2 实现视频实例分割；
利用 DepthAnything V2 估计视频的绝对深度；
在每个目标的 Mask 最大帧通过深度投影分割结果到点云空间计算 3D bounding box；
访问由 Spatial Tracker 实现的 3D 点跟踪结果，计算所有目标在视频序列中的 3D bounding box，并投影整个 3D 场景得到深度图。

此外，该框架利用 MonST3R 计算了视频的相机轨迹。

对比结果

上图中研究者将 CineMaster 与基线方法进行了比较。据观察，基线方法无法显式地关联给定的运动条件和相应的目标，也存在目标运动和相机运动耦合的问题。而 CineMaster 可以合成符合文本提示、目标、相机控制信号的高质量视频。请访问项目主页查看视频结果。

总结

在本文中，研究者期望为用户提供强大的 3D 感知的可控视频生成能力，让用户能够像专业导演一样创作。为此，首先设计了一个 3D 感知的交互工作流，允许用户直观地编辑目标和相机的运动；随后开发了一个多模态条件控制视频生成模型，生成用户想要的视频。此外，该方法精心设计了一套从任意视频中提取 3D 控制信号的数据构建流程，为 3D 可控视频生成领域的研究提供了实践经验。

更多细节请参阅原论文。

快手视觉生成与互动中心 (Kuaishou Visual Generation and Interaction Center）是「可灵」视频生成大模型背后的核心团队，主要技术方向是视觉内容生成和多模态互动。我们致力于通过计算机视觉/图形学、多模态机器学习、XR/HCI等多领域的交叉，一方面帮助每个人更好的表达自己和创作优质内容，另一方面为每个人提供更好的内容体验和交互方式。

....

#CoT（Chain-of-thought）

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

递归思考 + 自我批判，CoRT 能带来 LLM 推理力的飞跃吗？

CoT（Chain-of-thought）大家都很熟悉了，通过模仿「人类解题思路」，进而大幅提升语言模型的推理能力。

这几天，一个名为 CoRT（Chain-of-Recursive-Thoughts）的概念火了！从名称上来看，它在 CoT 中加入了「递归思考」这一步骤。

具体来讲，CoRT 能让 AI 模型递归地思考它们的响应，生成替代性方案，并从中选择最佳的一个。

这就像赋予了 AI 自我质疑或反驳的能力，并一遍一遍地尝试。

通过将「结构化自我批判」和「递归思考模式」结合起来，提升语言模型的推理能力。

$图片编辑助手\SCR-20250512-jzan.jpg$

短短两周时间，CoRT 在 GitHub 的星标数已经快突破 2k 了。

GitHub 地址：https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts

从技术原理来讲，相较于传统的 CoT，CoRT 让语言模型不仅能分步骤思考，还能在思考过程中反复回头检查、修正，形成类似于人类的「反思性思维」或「内省」的推理路径。

然而，很多网友对 CoRT 的出现并没有感到太激动。CoRT 是让 LLM 更努力思考的不错技巧，但称不上什么新颖的 idea。它的工作原理就像一个加入了递归组件的元提示（meta-prompt）。

还有网友指出，这种方法在 2023 年的论文中《Improving Factuality and Reasoning in Language Models through Multiagent Debate》就出现了。

有网友发出疑问：CoRT 不就是现在大多数 LLM 的思考模式吗？

比如在 Cursor 中配置的 Gemini 2.5 Pro，它的 CoT 就是这样做的。模型会思考一分钟，并反驳自己的答案，直到找到最无力反驳的答案。

再比如，CoRT 不就是 Qwen 和 R1 中的「but wait」模式吗？模型一直思考，并自我反驳，两者似乎没有什么不同。

大家觉得，CoRT 是不是「新瓶装旧酒」呢？请在评论区留言。

项目介绍

根据项目介绍，CoRT 的诀窍在于以下四个方面：

自我评估；

有竞争力的替代生成方案；

迭代优化；

动态思维深度。

工作流程包括了以下四个步骤：

首先，AI 生成初始响应。

其次，AI 决定它需要多少轮「思考」。

接着，对于每一轮思考：

生成 3 个替代性响应；
评估所有响应；
选择最佳响应。

最后，最终响应就是这场 AI 大混战的幸存者。

Web 界面使用方式（仍处于早期开发阶段）

一，打开 start_recthink.bat

二，等待一会，让它安装依赖项

三，配置成功

如果你是运行在 linux 系统上，则依如下：

打开一个新的壳层（shell）:

效果怎么样呢？

作者使用 Mistral 3.1 24B 进行了测试，根据他的说法，CoRT 在编程任务中的表现从「meh」（一般般）升到了「holy crap」（碉堡了）。

我们来看一下示例，下图为 Mistral 3.1 24B+CoRT：

下图为 Mistral 3.1 24B 无 CoRT：

从结果来看，使用 CoRT 前后，Tic-tac-toe（井字棋）游戏从基础的 CLI（命令行界面）变成了完全的 OOP（面向对象编程）。

参考链接：https://x.com/omarsar0/status/1917401353061818478

....

#R1-Reward

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。

来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce++）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。本文的出发点就是要解决这些问题，探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025)，本文进一步提出了 R1-Reward，在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升，且随着 inference sampling 的数目增多还能进一步增长。

R1-Reward 不仅在学术上展现了巨大价值，还在快手的实际业务场景中得到了成功应用。例如，在短视频、电商和直播等场景中，该方法已用于标签识别、多图 / 多视频相关性判断以及短视频推荐，并取得了显著的性能提升，展示了较强的工业化潜力。

[📖 arXiv Paper](https://arxiv.org/abs/2505.02835)

[📊 Training Code](https://github.com/yfzhang114/r1_reward)

[🏆 R1-Reward Model](https://huggingface.co/yifanzhang114/R1-Reward)

一分钟速看全文内容

1. 重新定义问题：作者把训练奖励模型这个问题，看成是一个基于规则的强化学习任务。简单说，就是给奖励模型一个问题和两个答案，让它通过学习来判断哪个答案更好，并且能给出合理的分析。

2. 提出新算法 StableReinforce：针对现有 RL 算法的不足，他们提出了一个改进版的算法叫 StableReinforce。这个算法主要在几个方面做了优化：

改进了损失函数里的裁剪操作，提出了 Pre-Clip，防止数值计算不稳定。
提出了一种更稳健的优势值（advantage）处理方法（叫做优势过滤器 Advantage Filter），不容易被极端值带偏。
设计了一个新颖的“一致性奖励” (Consistency Reward)。它引入了另一个大模型作为 “裁判”，专门检查奖励模型自己的分析过程和它最终给出的答案是不是一致的。如果一致，就给奖励，这样能促使模型做出更符合逻辑的判断。

3. 渐进式的训练策略：

他们从各种公开数据集中收集了 20 万条偏好数据，构建了一个名为 R1-Reward-200k 的数据集用于训练。
采用了一种 “渐进式难度” 的训练策略。因为直接用 RL 训练模型效果不好（冷启动问题），他们先用 GPT-4o 对这些数据生成了详细的思考过程，作为监督微调（SFT）的数据，让模型先 “入门”。同时，他们记录了 GPT-4o 判断每个样本的难度（需要尝试几次才能判断对）。
在后续的强化学习阶段，专门挑选那些 GPT-4o 都觉得比较难（需要尝试多次或者干脆判断错误）的样本进行训练，让模型在难题上得到锻炼。

4. 效果显著：

实验结果表明，这个 R1-Reward 模型在几个主流的多模态奖励模型测评基准（如 VL Reward-Bench, Multimodal Reward Bench）上表现非常出色，显著超过了之前的最佳模型 (SOTA)。比如在一个榜单上提升了 8.4%，在另一个榜单上提升了 14.3%。
更有趣的是，他们发现通过在推理时多做几次计算（比如采样 5 次或 15 次，然后投票选最多的答案），R1-Reward 的性能还能进一步大幅提升，这说明 RL 方法在优化奖励模型方面潜力巨大。
他们还观察到，经过 StableReinforce 的 RL 训练后，模型输出的平均长度减少了大约 15%，这意味着模型可能变得更有效率了。

现有强化学习方法的局限性

什么是奖励模型

奖励模型（Reward Model）通常被用来判断两个模型的回答，哪一个更符合人类喜好。具体的优化公式如下：

具体的优化公式大概长这样：

这里的 r (y|x) 是模型打的分数，σ 是个 sigmoid 函数，E 表示求期望（平均）。即模型要尽量让好答案的分比坏答案的分高，差距越大越好，然后通过 log 和 sigmoid 函数来计算损失。

PPO 和 Reinforce++ 算法简介

PPO (Proximal Policy Optimization)

PPO 是一种很常用的强化学习算法，属于策略梯度方法，目标是直接优化模型（策略）来获得最大的累积奖励。它的厉害之处在于，它不像传统的策略梯度方法那样容易因为步子迈太大而导致训练不稳定。PPO 通过一种特殊的方式来限制每次策略更新的幅度。

它的目标函数如下：

这个公式的核心思想在于 min 和 clip 操作。它确保了就算 ratio * A_t （标准的策略梯度目标）很大，也会被 clip 后的项限制住，防止策略更新过猛导致训练不稳定。PPO 因为实现简单、效果好，所以在很多地方（比如机器人控制、玩游戏）都得到了应用。

Reinforce++

Reinforce++ 是在 PPO 基础上做了一些优化的版本，目的是让训练更稳定、更高效。主要改进有：

1、在reward中增加了KL 散度惩罚：在奖励函数里加入了一项用来惩罚强化学习模型（RL model）和监督微调模型（SFT model）在每个词（token）上的输出概率分布差异过大。奖励函数变成了：

。这里

表示只有在生成结束符时才加上原始的任务奖励r(x, y) ，

是那个 KL 惩罚项。

2、奖励和优势的归一化：它会对整个批次（batch）的奖励进行归一化、裁剪和缩放，还对优势值A进行归一化：

（减去均值

，再除以标准差

）。

在很多研究中 Reinforce++ 比 GRPO 更稳定，比 PPO 收敛更快。

PPO/Reinforce++ 的问题在哪？

虽然 PPO 和 Reinforce++ 不错，但在实际训练中，尤其是在训练奖励模型的时候，研究者们发现它们有两个核心问题，很容易让模型训练不稳定甚至失败：

1. 训练损失导致的不稳定：

计算 PPO 损失时，需要算概率比值 ratio。如果新旧策略差别很大，此 ratio 可能会变得非常大或非常小。
在代码实现里（比如用 PyTorch），通常是算 ratio = torch.exp(log_probs - old_log_probs)。如果 log_probs - old_log_probs 差值很大，exp() 运算可能会导致数值溢出，最终导致程序崩溃。
即使数值没有溢出，如果算出来的 ratio 很大，并且优势 A_t 是负的（表示这个动作不好），那么根据 PPO 的损失公式，这个损失值可能会变得异常大。这么大的损失会让模型的参数更新变得极其不稳定。

2. 优势归一化导致的不稳定：

奖励模型的训练数据标签通常很简单，比如就两个标签：1 和 2（1 好还是 2 更好）。模型比较容易学会区分。
这就导致在训练后期，一个批次（batch）里的数据，模型可能大部分都能预测对。比如一个 batch 里有 255 个样本的真实奖励是 1，只有 1 个是 0。
在这种情况下，奖励的方差会非常小。如果这时候还用标准的优势归一化方法（减均值除以标准差），那个奖励为 0 的样本对应的优势值，在归一化之后可能会变成一个绝对值非常大的数（例子中是 -15.96）。
这么大的优势值同样会干扰模型的更新，导致训练不稳定。

总的来说，就是直接把 PPO 或者 Reinforce++ 用在奖励模型训练上，会因为损失计算和优势归一化这两个环节内在的问题，在高效率训练或者训练后期特定数据分布下，引发数值不稳定，最终影响模型效果。

StableReinforce 提升训练稳定性

1. Pre-CLIP 策略：为了减小大比例差异的影响，Pre-CLIP 策略会在计算对数概率的指数值之前对比例进行裁剪。通过在应用指数函数前裁剪 log-πθ/πθold 的比例，可以避免由于比例差异过大而导致的溢出问题，并缓解负优势情况下的大对数差异。裁剪后的公式为：

其中

和分别为允许的最小和最大比例限制（上面的伪代码会更清晰一些（algorithm 1））。

2. Advantage Filter 策略：为了避免由于优势分布的极端不平衡对训练带来的影响，文章采用了 3-sigma 规则（即保留标准化优势在范围内的样本）。公式为：

标准化后的优势通过公式

计算，其中

和

分别为优势分布的均值和标准差。

结合了 Pre-CLIP 和优势过滤器，最终用来优化的目标函数长得有点像常用的 PPO 算法的目标函数，但有所修改：

R1-Reward

将 MRM 转化为强化学习问题

首先使用下面的 prompt，将奖励建模问题转化为 rule-based 的强化学习问题

近期 follow deepseek-r1 工作的方法基本上都是格式奖励 + 结果奖励，但是在奖励模型训练过程中，这存在着一致性问题：即只用上面两个奖励时，模型有时会 “精神分裂”：分析部分（<analysis>）明明说回答 2 更好，但最后却输出 <answer>1</answer>。因此本文引入了一个额外的 “裁判” 模型（文中用了 Qwen2.5-VL-7B-Instruct）。这个裁判专门负责检查奖励模型自己输出的分析内容，看它是不是真的支持最终给出的那个答案。

1. 奖励函数设计：文章提出了三种奖励函数：

格式奖励：要求模型的输出符合指定的格式，即‘<think> </think><answer> </answer>’，鼓励模型在给出最终答案之前先进行推理，以提高内容的质量和可解释性。
结果奖励：模型最终生成的答案必须与人类专家的偏好一致。
一致性奖励：确保推理过程与最终答案一致，即模型的最终结果应当直接源自其推理过程，而不是与推理步骤无关的生成内容。

2. 最终奖励计算：为了解决可能出现的一致性奖励过度偏重的问题，最终的奖励计算公式为：

这样的设计好在 Consistency Reward 的加成效果（乘以 0.5 再加 1）只有在 Result Reward 大于 0（也就是答案选对）的时候才能真正起作用。如果答案选错了，Result Reward 通常是 0 或者负数，那么一致性奖励就不会带来正向激励（或者激励很小），从而确保模型首要目标还是把答案选对。格式奖励作为一个基础分被加上去。

“长思考链” 的冷启动问题 (Long-CoT Cold Start)

多模态大模型（MLLMs）本身并不是为做奖励模型这种 “评价比较” 任务而设计的，所以直接用强化学习去训练它们，效果通常很差而且不稳定，因此本文先进行了一轮监督微调。

做法：让 GPT-4o 对 R1-Reward-200k 数据集里的每一条数据，都按照 Table 1 里的提示模板，生成标准的 “分析过程” 和 “最终答案”。生成时设置 temperature=1（让输出更发散），并且最多尝试 3 次，直到生成的答案和真实标签一致。

记录难度：同时，他们还记录了 GPT-4o 需要尝试几次才能生成正确答案，把这个次数作为样本 “难度” 的指标。

目的：这个 SFT 阶段就像是给模型 “预习”。通过模仿 GPT-4o 的输出，先让模型学会任务的基本格式和流程，熟悉这个奖励建模任务应该怎么做。

强化学习（RL）训练数据的筛选

1. 筛选标准：在进行真正的强化学习训练时，并不是用 SFT 阶段的所有数据。研究人员专门挑选了那些被认为是 “更难” 的样本。

2. 具体来源：

在 SFT 阶段，那些 GPT-4o 需要尝试 2 次或 3 次才能给出正确答案的样本。
以及那些 GPT-4o 尝试了 3 次仍然没能给出正确答案的样本。

研究人员认为，这些样本通常意味着两个回答之间的差别更小，更难判断优劣。用这些 “硬骨头” 来训练模型进行强化学习，可以更有效地提升模型辨别细微差异的能力。

有趣的实验发现

研究人员通过一系列实验来验证他们提出的 R1-Reward 模型和 StableReinforce 算法的效果，得到了一些挺有意思的结果：

R1-Reward 效果拔群

在好几个主流的多模态奖励模型排行榜（比如 VLReward Bench, Multimodal Reward Bench, MM-RLHF-Reward Bench）上，R1-Reward 的表现都非常亮眼，平均准确率显著超过了之前最好的开源模型（比如 IXC-2.5-Reward）。

Test-Time Scaling

他们尝试在评价的时候，让 R1-Reward 模型对同一个问题输出好几个判断结果（比如输出 5 次或 15 次），然后采取少数服从多数（投票）的方式来决定最终哪个答案更好。

结果发现，这种简单的 “投票” 策略能大幅提升 R1-Reward 的准确率。比如在 MM-RLHF 这个比较难的榜单上，投票 5 次就能把准确率从大约 71% 提升到 85.3%，投票 15 次更是达到 86.47%，远超其他模型。

更有意思的是，他们还试了另一种策略叫 “Any Correct”，就是只要模型输出的 K 次结果里有一次是正确的，就算对。结果发现，当 K=15 时，这种策略的准确率几乎接近 100%！这暗示 R1-Reward 其实有潜力完美区分所有样本，只是需要更多的数据或更好的训练策略来完全激发出来。

aha Moment

通过 SFT 和 RL 训练，R1-Reward 不仅学会了如何评价两个回答，还自主地学习到了一套分析流程：先明确目标、分析图像、尝试解决问题、给出答案，然后基于这个过程去评价两个外部给定的回答。

更有趣的是，模型展示出了类似人类的反思和纠错能力。比如在上图中，模型自己计算时出错了，但在检查图表后，意识到了错误并重新计算得到了正确结果。这说明模型不仅仅是在模仿，还在学习某种程度的自我检查和修正机制。

经过强化学习训练后，模型输出的分析内容的平均长度还减少了约 15%，说明模型可能变得更 “言简意赅”，推理效率提高了。

结论

本文介绍了 R1-Reward，这是一种使用 StableReinforce 算法训练的多模态奖励模型（MRM）。通过实验，本文证明了强化学习（RL）在奖励建模中的有效应用，显著提升了模型的表现。R1-Reward 解决了多个关键问题，包括训练不稳定、优势归一化限制以及推理和结果之间的不一致性。通过引入 Pre-Clipping、优势过滤、一致性奖励以及渐进式训练策略，StableReinforce 算法有效稳定了训练过程并提升了模型性能。

实验结果表明，R1-Reward 在多个多模态奖励模型基准上超越了现有最先进的模型（SOTA），在准确率和数据效率方面取得了显著进展。此外，R1-Reward 还展示了优秀的推理时扩展能力，为未来将强化学习融入多模态奖励模型（MRM）的研究奠定了基础。

展望未来，RL 在奖励建模中的应用仍有许多值得探索的方向。例如，本文仅测试了简单的多数投票策略用于推理时扩展，未来可能通过更先进的方法进一步提升性能。此外，改进训练策略以进一步增强奖励模型的基础能力，也是一个有意义的开放性问题。

....

#LEGOGPT

CMU朱俊彦等上新LEGOGPT，一句话就能搭乐高，网友：复杂零件行不行？

AI 不允许有人不会搭乐高。

近日，CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。

这款大模型有多强呢？比如输入文本「基本款沙发」，一眨眼的功夫，乐高沙发就拼好了。

如果你觉得乐高沙发太简单，可以继续上难度，让它生成一个复杂点的书架，只见不同大小的积木拼拼凑凑，乐高书架就完工了，整个流程像不像你在拼乐高：

不仅如此，生成的乐高还有纹理和颜色：

为了证明 AI 搭乐高的设计过程在现实生活中可用，研究人员让机器臂组装了由 AI 创建的 LEGO 模型，结果很完美。

接下来，我们看文章主要内容。

得益于生成模型和神经渲染技术，3D 生成模型已经取得了显著进展，并在虚拟现实、游戏、娱乐和科学计算等领域实现了各种应用。比如，一些研究探索了从文本合成 3D 对象、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观。

不过，应用现有方法创建现实世界中的对象仍然充满挑战。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象，但受限于两个关键挑战，这些数字设计往往无法在物理上实现。一是，这些对象可能难以使用标准组件来组装或制作。二是，即使可以组装，最终的结构也可能存在物理不稳定。如果没有适当的支撑，设计的某些部分可能会坍塌、漂浮或保持分离状态。

因此，朱俊彦团队探讨了生成物理可实现对象的挑战，并在乐高（LEGO）设计环境中进行研究。乐高广泛应用于娱乐、教育、艺术创作和制造原型。同时，由于所有标准组件很容易获得，乐高可以作为可复现的研究基准。由于手动设计需要付出巨大努力，最近一些研究开发了自动化算法来简化流程并生成了令人信服的结果。

然而，现有方法主要基于给定的 3D 对象创建乐高设计，或者专注于单一对象类别。本文的目标是开发一种方法，直接从自由格式的文本提示生成乐高设计，同时确保其物理稳定性和可搭建性。具体来说，研究者的目标是训练一个生成模型，使其能够生成具有以下特点的设计：

物理稳定性：构建在具有强大结构完整性的乐高底板上，不会出现积木漂浮或坍塌的情况。

可搭建性：与标准乐高积木兼容，并且能够由人类或机器人逐块组装。

研究者提出了 LEGOGPT，其关键洞察在于将最初用于下一个 Token 预测的自回归大型语言模型重新用于下一个积木预测。他们将乐高设计问题表述为一个自回归文本生成任务，其中下一个积木的尺寸和位置用简单的文本格式指定。而为了确保生成的结构既稳定又可搭建，研究者在训练和推理过程中都强制执行物理感知的组装约束。

在训练过程中，研究者构建了一个包含物理稳定的乐高设计并配有字幕的大规模数据集。在自回归推理过程中，研究者通过有效性检查和物理感知回滚来执行可行性，以确保最终的 Token 符合物理定律和组装约束。

论文标题： Generating Physically Stable and Buildable LEGO® Designs from Text
论文主页：https://avalovelace1.github.io/LegoGPT/
arXiv 地址：https://arxiv.org/pdf/2505.05469
GitHub 地址：https://github.com/AvaLovelace1/LegoGPT
Demo 地址：https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo

实验表明，本文生成的乐高设计稳定、多样且视觉吸引力强，同时能够完美契合输入文本提示。本文方法优于预训练的 LLM（无论是否包含上下文学习）以及以往基于网格 3D 生成的方法。

朱俊彦表示：LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步。当前版本仍存在局限：仅支持 20x20x20 的构建尺寸、21 种物体类别和基础积木类型，但他们也在努力扩展其能力！

面对这么好玩的应用，网友纷纷求教程：

还有网友担心，复杂的零件能不能完成啊？

方法介绍

数据集

训练自回归模型需要大规模数据集，因此，本文推出了 StableText2Lego，这是一个全新的大规模 LEGO 数据集，包含 47,000 多种不同的乐高结构，并涵盖 ShapeNetCore 数据集中 21 个常见对象类别中的 28,000 多个独特的 3D 对象。其概览如图 2 所示。

LegoGPT Pipeline

在实现方法上，本文提出了 LEGOGPT，这是一种能够根据文本提示生成物理结构稳定的 LEGO 设计的方法。

该方法通过利用 LLM 的序列建模和文本理解能力，对预训练 LLM 进行 LEGO 生成任务的微调。为了增强设计成品的结构稳定性和可搭建性，本文在推理过程中采用了逐块拒绝采样和物理感知回滚机制。图 3 展示了本方法的整体框架。

模型微调：本文进一步使用自定义指令数据集对预训练的 LLM 进行微调，该数据集包含来自 StableText2Lego 的文本提示及其对应的乐高结构。

预训练基础模型。本文使用 LLaMA-3.2-1B-Instruct 作为基础模型，如图 5 所示，基础模型可以通过上下文学习生成类似 LEGO 的设计。

然而，生成的设计通常会遗漏某些物体部件，并且包含相交或断开的积木，这使其在物理上不稳定且无法搭建。为了解决这些问题，本文使用数据集进一步微调了预训练模型。

物理稳定性：尽管该模型基于物理稳定性数据进行了训练，但有时生成的设计仍会违反物理和组装约束。为了解决这个问题，该研究进一步将物理稳定性验证纳入自回归推理中。

如果乐高结构在底板上搭建时不会倒塌，则该结构被认为是物理稳定的且可搭建的。为此，本文使用稳定性分析方法评估物理结构稳定性。图 4 (a) 展示了施加在单个积木上的所有可能力。

LEGOGPT 推理算法如下：

乐高纹理和着色：颜色和纹理在创意乐高设计中也起着至关重要的作用。因此，本文提出了一种应用精细 UV 纹理或为单个积木分配统一颜色的方法。

实验

图 5 展示了一系列多样化、高品质的 LEGO 设计，这些设计紧密遵循输入提示。

本文选取 LLaMAMesh 、LGM、XCube 和 Hunyuan3D-2 作为基线方法。如表 1 所示，本方法在所有指标上均超越基线方法。图 5 直观展示了本方法生成的乐高结构质量显著优于基线方案。

....

#MCA-Ctrl

多方协同注意力控制助力AIGC时代图像精准定制化

本文由中国科学院计算技术研究所研究团队完成，第一作者为硕士生杨晗，通讯作者为副研究员安竹林，助理研究员杨传广。

论文标题：Multi-party Collaborative Attention Control for Image Customization
论文地址：https://arxiv.org/abs/2505.01428
论文代码：https://github.com/yanghan-yh/MCA-Ctrl

背景

近年来，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

在基础 T2I 模型能力不断提升的背景下，图像定制化（Image Customization）需求日益凸显。所谓图像定制化，是指在对参考图像中的主体（subject）保持身份特征和本质属性的前提下，根据文本或视觉条件生成该主体的新表现形式。这一技术对于电子商务（如虚拟试衣）、数字内容创作（如个性化角色设计）、广告营销等应用场景具有重要价值。

当前，主流的图像定制化方法主要沿着三个技术路线发展：基于反演优化（inversion-based）的方法、基于多模态编码器（multimodal encoder-based）的方法，以及新兴的基于注意力控制（attention control-based）的方法。

尽管这些方法在特定场景下都取得了一定成效，但通过系统的实验评估和实际应用验证，我们发现现有技术方案仍然面临着若干关键性技术瓶颈。

1. 可控性不足：主流文本驱动方法难以精确控制背景、布局等元素。虽然 PhotoSwap 等新技术尝试引入图像条件，但仍局限于单一功能（替换或添加），无法实现统一控制。

2. 复杂视觉场景处理困难：面对多物体交互、遮挡等复杂场景时，常出现主体特征扩散问题，这源于模型在高响应区域生成的不准确性。

3. 背景融合不自然：在图像条件控制下，生成结果与原始背景的融合往往不自然。

方法

本文提出了一种无需微调的通用图像定制方法 — 多主体协同注意力控制 MCA-Ctrl，该方法利用扩散模型内部知识实现图像定制。其核心创新在于将条件图像 / 文本提示的语义信息与主体图像内容相结合，实现对特定主体的新颖呈现。MCA-Ctrl 主要针对三类任务：主题替换、主题生成和主题添加。

本方法分为通过条件图像和条件文本进行图像定制化，如下图（A）和（B）所示。具体而言，本方法首先引入主体定位模块（Subject Location Module，SLM）对图像进行精准定位，然后通过三个并行扩散过程中的自注意力注入与查询机制，在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。

具体来说，MCA-Ctrl 在每个扩散步骤中，系统执行以下关键操作：

1）通过自注意力局部查询（Self-Attention Local Query，SALQ）目标过程从主体和条件信息中检索外观与背景内容，如图（C）；

2）通过自注意力全局注入（Self-Attention Global Injection，SAGI）将主体和条件信息的注意力图直接注入目标过程，如图（D）。

1. 自注意力局部查询

从任务视角看，我们的目标是从主体图像提取外观特征，并从条件中查询背景内容与语义布局。受 MasaCtrl 启发，我们利用自注意力层的键值特征表征图像内容。如上图（C）所示，目标过程通过查询特征 Q 从主体和条件中检索前景 / 背景内容，并使用主题、背景掩码约束查询区域。这种设计既能确保布局一致性，又能实现特定对象的外观替换与背景对齐。

2. 自注意力全局注入

经过 SALQ 操作后，生成图像常存在两个问题：（1）细节真实性不足，和（2）特征轻微混淆。我们认为这是由于查询过程本质上是原始特征与查询特征的局部融合，难免导致特征交叉。为此，我们提出全局注意力混合注入机制来增强细节真实性与内容一致性。如上图（D）所示，首先计算条件与主体图像的完整注意力矩阵，再通过掩码过滤获得主体特征和背景特征，最后将其注入目标扩散过程。这种重构式特征替换直接增强了前景 / 背景细节表现，同时有效降低了特征混淆。

实验

下图展示了 MCA-Ctrl 的编辑和生成能力。前三行主要展示了主体编辑性能，包括主体替换、主体添加以及复杂视觉场景中的主体替换，充分证明了 MCA-Ctrl 在主体与背景定制方面的高度一致性和真实感表现。第四行重点呈现了 MCA-Ctrl 的零样本定制生成能力，在物体、动物和人物等不同类别上均能实现高质量、高一致性且富有创意的再现效果。

表 1 展示了基于 DreamEditBench 的主题替换任务量化评估结果。相较于 BLIP-Diffusion、DreamBooth 和 PHOTOSWAP 等方法，MCA-Ctrl 在各项指标上均展现出相当或更优的性能表现。表 2 呈现了 DreamBench 上主题生成任务的评估结果。统一参数测试时，MCA-Ctrl 表现优于 Text Inversion、Re-Imagen 和 IP-Adapter，但略逊于 DreamBooth 和 BLIP-Diffusion。经过参数优化后，MCA-Ctrl 取得了与 BLIP-Diffusion 和 DreamBooth 相当的结果。此外，表 3 的人工评估结果表明，MCA-Ctrl 在主体对齐度和文本对齐度方面均表现突出。

我们在下图中展示了对图像生成的影响。实验表明，在复杂场景下，若完全省略 SAGI 操作，会导致目标定位失败和全局特征混淆等问题。随着的逐步增加，主体特征会呈现越来越清晰的表现。但值得注意的是，当超过总去噪步骤的 60%（此为大多数案例的经验阈值）后，继续增加 SAGI 执行步数对图像质量的提升效果将趋于饱和。具体而言，这一现象揭示了两个重要发现：（1）在去噪过程的前期阶段，SAGI 能有效建立主体与背景的语义关联；（2）在去噪后期，过度的全局特征注入反而可能破坏已形成的细节特征。这种 “边际效应递减” 特性为算法参数优化提供了重要指导。

我们也在代码仓库中构建了图像定制化的演示系统，如下所示，用户可以方便地根据自身的需求使用本文提出的方法完成图像定制化任务。

总结

综上所述，该文章提出了一种无需训练的图像定制化生成方法 ——MCA-Ctrl。该模型通过三个并行扩散过程间的协同注意力控制，实现了高质量、高保真度的主体驱动编辑与生成。此外，MCA-Ctrl 通过引入主题定位模块，有效解决了复杂视觉场景中的特征混淆问题。大量实验结果表明，相较于大多数同期工作，MCA-Ctrl 在编辑和生成任务上表现更优。

....

#Continuous Thought Machine，CTM

这个缩写怎么像骂街...

连续思维机器来了！Transformer八子之一创企推出，让AI不再「一步到位」拍脑袋做决定

开启「分步思考」新范式。

科学界的一个共识是：即使是最复杂的现代人工智能，也难以媲美人类大脑的表现和效率。

研究者经常从大自然中寻找灵感，了解如何在人工智能领域取得进步，例如利用进化来合并模型、为语言模型进化出更高效的记忆或探索人工生命的空间。虽然人工神经网络近年来让人工智能取得了非凡的成就，但它们仍然是其生物对应物的简化表征。所以，能否通过结合生物大脑中的特征，将人工智能的能力和效率提升到新的水平？

他们决定重新思考认知核心的一个重要特征：时间。

刚刚，Transformer 作者之一 Llion Jones 联合创立的的Sakana AI 发布了「连续思维机器」（Continuous Thought Machine，CTM），这是一种将神经元活动同步作为其核心推理机制的人工智能模型，也可看作一种新型人工神经网络，它利用神经元动态之间的同步来完成任务。

博客地址：https://sakana.ai/ctm/

技术报告：https://pub.sakana.ai/ctm/paper/index.html

代码地址：https://github.com/SakanaAI/continuous-thought-machines/

与传统人工神经网络不同，CTM 在神经元层面使用定时信息，从而实现了更复杂的神经行为和决策过程。这一创新使该模型能够逐步「思考」问题，使其推理过程具有可解释性和类人性。

研究表明，在各种任务中，机器人解决问题的能力和效率都有所提高。

Sakana AI 表示，CTM 是弥合人工神经网络与生物神经网络之间差距的重要一步，有可能开启人工智能能力的新领域。

，时长00:57

CTM 解迷宫和思考真实照片的可视化（图片来源：Alon Cassidy）。值得注意的是，尽管 CTM 的设计并不明确，但它在迷宫中学会的解法却非常容易解释，而且类似于人类，可以看到它在「思考」解法时描绘出通过迷宫的路径。对于真实图像，虽然没有明确的激励措施让它四处查看，但它会以直观的方式查看。

研究创新

尽管随着 2012 年深度学习的出现，人工智能的能力有了重大飞跃，但自 20 世纪 80 年代以来，人工智能模型中使用的人工神经元基本模型在很大程度上一直没有改变。研究人员仍然主要使用神经元的单一输出，这代表了神经元的激发情况，却忽略了神经元相对于其他神经元激发的精确时间。

不过，有力的证据表明，这种定时信息在生物大脑中至关重要，例如在依赖于尖峰定时的可塑性中，它是生物大脑功能的基础。

在新模型中，Sakana AI 用来表示这种信息的方法是让神经元访问自身的行为历史，并学习如何利用这些信息来计算自身的下一个输出，而不仅仅是知道自身的当前状态。这样，神经元就能根据过去不同时期的信息改变自己的行为。此外，新模型的主要行为是基于这些神经元之间的同步，这意味着它们必须学会利用这些时间信息来协调完成任务。研究者认为，与当代模型中观察到的情况相比，这将产生更丰富的动态空间和不同的任务解决行为。

在添加了这种定时信息后，Sakana AI 在许多任务中看到了一系列非同寻常的行为。他们看到的行为具有很强的可解释性：在观察图像时，CTM 会小心翼翼地在场景中移动其视线，选择关注最显著的特征，而且它在某些任务中的表现有所提高。这让研究者惊讶于神经元活动动态中的行为多样性。

CTM 中的神经元动态样本，显示神经元如何随不同的输入而变化。CTM 显然学会了多种神经元行为。每个神经元（随机颜色）如何与其他神经元同步。研究者对其进行测量，并将其作为 CTM 的表征。

新模型的行为基于一种新的表征：神经元之间随时间的同步。研究者认为这更容易让人联想到生物大脑，但并非严格意义上的仿真。他们将由此产生的人工智能模型称为「连续思考机器」，它能够利用这种新的时间维度、丰富的神经元动态和同步信息来「思考」任务，并在给出答案前制定计划。

命名中使用「连续」一词，是因为 CTM 在推理时完全在内部「思考维度」运行。它对所消耗的数据是异步的：它可以以相同的方式对静态数据（如图像）或顺序数据进行推理。研究者在大量任务中测试了这一新模型，发现它能够解决各种问题，而且通常是以一种非常可解释的方式。

研究者观察到的神经元动态在某种程度上更像是在真实大脑中测量到的动态，而不是更传统的人工神经网络，后者表现出的行为多样性要少得多（请参阅下图与经典人工智能模型 LSTM 的比较）。CTM 显示了以不同频率和振幅振荡的神经元。有时，单个神经元会出现不同频率的振荡，而其他神经元只有在完成任务时才会出现活动。值得强调的是，所有这些行为都是完全突发的，并没有设计到模型中，而是作为添加定时信息和学习解决不同任务的副作用出现的。

CTM 完整架构如下图所示，其中①为突触模型（权重用蓝线表示），建模跨神经元交互以产生预激活。对于每个神经元，②都会保留预激活的历史记录，其中最新的历史记录被 ③神经元级模型（权重用红线表示）用于产生④后激活。此外还会保留 ⑤ 后激活的历史记录，并用于 ⑥ 计算同步矩阵。从同步矩阵中选择⑦神经元对，从而产生⑧潜在表征。CTM 用这些表征⑨产生输出并通过交叉注意力机制调制数据。调制后的数据（例如注意力输出）将与后激活连接起来⑩，用于下一个内部时钟周期。

CTM 架构的测试效果

由于新增了时间维度，CTM 的一大优势在于：可以观察并直观地看到它如何随着时间的推移解决问题。传统的 AI 系统可能只需通过神经网络一次性对图像进行分类，而 CTM 可以分多个步骤来「思考」如何解决任务。

下面展示了两个任务：解迷宫和照片中的物体分类。

首先来看解迷宫（Maze Solving）任务。在这个任务中，CTM 会被呈现一个自上而下的 2D 迷宫，并被要求输出走出迷宫所需的步骤。这种模式尤其具有挑战性，因为模型必须理解迷宫构造并规划解决方案，而不是简单地输出路径的视觉表示。

CTM 内部连续的「思考步骤」使其能够制定计划，从而可以直观地看到它在每个思考步骤中关注迷宫的哪些部分。值得注意的是，CTM 学会了一种非常类似于人类的解迷宫方法 —— 在它的注意力模式中沿着迷宫路径前进。

CTM 的行为模式尤其令人印象深刻，因为它自然而然地从模型架构中涌现出来。研究者并没有特意设计 CTM 来追踪迷宫中的路径，它通过学习自行开发展了这种方法。他们还发现，当允许 CTM 进行更多思考步骤时，它会持续沿着训练好的路径前进，这表明它确实学会了解决这个问题的通用方法。

接下来是图像识别任务。传统的图像识别系统只需一步即可做出分类决策，而 CTM 则需要多个步骤来检查图像的不同部分，然后再做出决策。这种循序渐进的方法不仅使人工智能的行为更易于解释，也提高了准确率：它「思考」的时间越长，答案就越准确。

研究者还发现，这种方法使得 CTM 能够减少在简单图像上思考的时间，从而节省算力。例如，在识别大猩猩时，CTM 的注意力会从眼睛转移到鼻子，再转移到嘴巴，这与人类的视觉注意力模式非常相似。

这些注意力模式为我们了解模型的推理过程提供了一个窗口，展示了它认为哪些特征与分类目标最相关。这种可解释性不仅有助于理解模型的决策，还可能有助于识别和解决偏差或故障模式。

结论

尽管现代人工智能以「人工神经网络」的形式建构在大脑之上，但即使在今天，人工智能研究与神经科学之间的重叠仍然少得惊人。AI 研究人员选择沿用上世纪 80 年代开发的极简模型，并且得益于简单易用、训练高效等属性，这些模型在推动人工智能发展方面持续取得成功。

另一方面，神经科学可以创建更精确的大脑模型，但其主要目的是理解大脑，而非试图创建更高级的智力模型。当然，两者之间可能存在某种关联。这些神经科学模型尽管更加复杂，但性能往往仍低于当前最先进的 AI 模型，因此，这类模型可能在人工智能应用领域缺乏进一步研究的吸引力。

尽管如此，研究者认为，如果现代人工智能在某些方面不能继续向大脑的工作方式靠拢，我们将错失良机。我们或许能够通过这种方式创建更强大、更高效的模型。2012 年，得益于受大脑启发的神经网络模型，AI 能力出现跃升，「深度学习革命」才出现。

为了继续推动这一进步，是否应该继续受到大脑的启发呢？CTM 是研究者首次尝试弥合这两个领域之间的差距，它展现出一些更像大脑行为的初步迹象，同时仍然是一个可以解决重要问题的实用人工智能模型。

研究者希望能够继续推动模型朝着这个受自然启发的方向发展，并探索可能出现的新功能。关于 CTM 在不同任务中的行为，请参阅原始技术报告。

....

#ViLAMP-7B

长视频理解新SOTA！蚂蚁&人大开源ViLAMP-7B，单卡可处理3小时视频

该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇，目前于蚂蚁技术研究院实习，其主要研究领域为多模态大模型，蚂蚁技术研究院副研究员关健为共同第一作者。

在视觉语言模型（Vision-Language Models，VLMs）取得突破性进展的当下，长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例，仅需数分钟即可产生逾百万的视觉 token，这已远超主流大语言模型 4K-128K 的上下文处理极限。当面对影视级的长视频内容时，传统解决方案的不足愈加凸显：粗放式的帧采样策略往往造成关键帧信息遗漏，而特征融合方法虽能降低数据维度，却不可避免地导致语义完整性受损。

近日，蚂蚁和人大的研究团队带来了一个创新性的解决方案。他们提出视觉语言大模型 ViLAMP（Video-Language Model with Mixed Precision），实现了对超长视频的高效处理。这个方法的核心在于其独特的 “混合精度” 策略：对视频中的关键内容保持高精度分析，而对次要内容进行强力压缩，就像人类在观看视频时会重点关注关键场景，而对过渡时空信息只做快速扫描一样。

论文标题：Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

论文地址：https://arxiv.org/abs/2504.02438

Github：https://github.com/steven-ccq/ViLAMP

实验结果令人振奋：ViLAMP 在 Video-MME 等五个主流视频理解基准上全面超越现有方案，特别是在处理长视频时展现出显著优势。更重要的是，它可以在单张 A100 GPU 上连续处理长达 1 万帧（按每秒 1 帧计算约 3 小时）的视频内容，同时保持稳定的理解准确率。这一突破不仅大大提升了视频处理效率，更为在线教育、视频监控、直播分析等实际应用场景带来了新的可能。相关论文已被 ICML 2025 接收。

横轴：处理的视频帧数（从 0 到 10,000 帧），纵轴： GPU 内存使用量（MB）。测试在单块 NVIDIA A100 GPU 上进行。

VideoNIAH（视频版本大海捞针任务）测试结果。横轴：视频总长度（2K-10K 帧）；纵轴：表示目标视频在完整视频中的相对位置（0% 表示在开头，100% 表示在结尾）。

视频信息在时空维度均呈现稀疏性与冗余性

为解决长视频处理的效率问题，研究团队首先对主流视觉语言模型（包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA）进行了系统性分析，发现了视频信息在时间和空间上均存在显著的稀疏性和冗余性：

帧间注意力分析：在现有模型中，用户 Query 对相应视频的注意力高度集中 ——90% 的注意力仅分布在不到 5% 的视频帧上（称为关键帧）。更重要的是，这 5% 的关键帧之间往往存在很强的视觉相似度。
帧内注意力分析：在每一帧的内部，模型的注意力也展现出相似的稀疏性质 ——50% 的 patch（帧划分的最小单位）就承载了 80% 的模型注意力，但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度。

这一发现表明现有模型在处理视频时存在大量计算资源的浪费。实际上，处理长视频不需要对每一帧、每个 patch 都投入同样的计算量。基于此，研究团队提出 “差分蒸馏原则”（Differential Distill Principle）：识别并保留重要的视频信息，同时压缩那些虽然相关但高度冗余的信息。其中，重要信息应该同时满足两个条件：（1）高查询相关性：与当前用户 Query 高度相关；（2）低信息冗余性：包含独特的视频信息。这一原则为后续设计高效的视频处理算法奠定了理论基础。

ViLAMP: 基于差分蒸馏的双层混合精度架构

前文的注意力分析揭示了一个关键问题：现有视觉语言模型对视频中所有帧和 patch 都采用相同的处理方式，导致大量计算资源的浪费。基于这一认识，研究团队提出了专门面向长视频处理的高效架构 ViLAMP，它能够根据信息的重要程度自适应地分配计算资源。

ViLAMP 模型结构图

ViLAMP 通过层次化的压缩框架实现这一策略：在帧级别，对重要的关键帧保留完整的视觉 token 表示，以捕获关键信息；而对于非关键帧，则采用强力压缩策略；在 patch 级别，通过差分机制增大重要 patch 的权重。

模型具体包含两个核心机制：

1. 差分关键帧选择（Differential Keyframe Selection，DKS）

为实现关键帧的高效识别，ViLAMP 采用了基于贪心策略的选择算法。该算法在最大化与用户 Query 的相关性的同时，通过差分机制降低帧间冗余，确保选中的关键帧既重要又多样化。

2. 差分特征合并（Differential Feature Merging，DFM）

针对非关键帧的处理，ViLAMP 创新性地通过差分加权池化，将每个非关键帧压缩为单个信息量最大化的 token。在压缩过程中，模型赋予那些与用户 Query 相关且具有独特性的 patch 较高的权重，同时降低与相邻的关键帧有显著重复的 patch 的权重，从而在大幅降低计算量的同时保留关键信息。

这种双层混合精度架构既确保了模型能够准确捕获视频中的关键信息，又显著降低了计算开销。

突破性性能：全面超越现有方案

在五个主流视频理解基准上的实验表明：

1.ViLAMP 以 7B 参数量达到或超越了部分 70B 量级模型的表现，特别是在 Video-MME 长视频子集上比现有最优模型提升 4.8%。

2. 针对当前视频理解基准中视频长度不足的问题，本文提出了面向视频理解场景的 “大海捞针” 任务 ——VideoNIAH。该任务将一段目标短视频（1 分钟以内）插入到小时级别的长视频中，要求模型在不依赖先验信息的情况下，从超长视频上下文中定位并理解该片段，进而回答相关问题。与传统基于文本的 NIAH 任务不同，VideoNIAH 中的答案无法直接从视频对应的文本描述中提取。因此，该任务本质上更具挑战性，难以达到语言模型在文本 NIAH 任务中所表现出的近乎完美的准确率（例如 99%）。VideoNIAH 任务的性能上限受限于模型对目标短视频原始 QA 的理解水平，进一步凸显了该任务对视频内容深层次理解能力的严格要求。在这一新提出的超长视频理解基准上，ViLAMP 在处理包含 10K 帧（约 3 小时）的视频时仍能保持 58.15% 的准确率（原始 QA 数据集准确率 78.9%），超越 VideoChat-Flash 基线模型 12.82%，展现出较强的长视频建模能力。

3. 计算效率显著提升：内存消耗相比 LLaMA-VID 基线降低约 50%，在 8,192 帧情况下计算量减少 80% 以上。

4. 深入的消融实验表明：与已有的关键帧选择方案相比，DKS 在长视频场景下表现出明显优势；与 Q-former 和平均池化等特征融合方案相比，DFM 在所有数据集上都展现出 3 个百分点以上的性能优势。

模型表现

Video-MME 排行榜

计算效率对比

结语

ViLAMP 通过创新的差分蒸馏框架成功突破了长视频处理的计算瓶颈，不仅在性能上实现了飞跃，更为视频理解领域提供了新的研究思路。该工作的原理性贡献和实用价值将推动视频理解技术在更多实际场景中的落地应用。期待未来看到更多基于此框架的创新发展。

....

#2025万篇投稿破纪录

作者被逼全员审稿！网友痛批不如GPT

这一届的ICCV 2025，论文投稿量达到惊人的11,152篇，刷新历史纪录。评审结果公布后，有人晒出高分成绩单，也有人对评审意见表示沮丧。面对如此庞大的投稿规模，大会如何确保评审质量？

ICCV 2025评审结果公布了！

这届ICCV论文投稿数量创历史新高。据大会官方公布，今年共收到11152份有效投稿，远超往届规模。

ICCV 2023顶会共收到了8088篇投稿

截至评审截止日期，11152篇有效投稿论文均已获得至少3份评审意见。

作者可以在5月16日晚上11:59（夏威夷时间）前提交rebuttal，ICCV 2025将于6月25日公布最终录用决定。

根据Paper Copilot发布的统计数据，论文评分曲线现已公开。

评分含义如下：

1：拒绝

2：弱拒绝

3：边缘拒绝

4：边缘接受

5：弱接受

6：接受

到目前为止，大约36%的人得分在3.67以上，只有4%的得分高于4.0。得分在3.67到4.0之间，大约有50%-70%的录用机会。

作为计算机视觉三大顶会之一，ICCV每两年举办一次，今年将于10月19日至23日，在夏威夷檀香山举办。

目前，已有许多童鞋晒出自己的评审结果了。

评审结果，遭全网吐槽

由于评审意见的公开时间多少有些「奇葩」，目前的讨论还没有很多。

网友表示，看到的大多是负面评论、攻击和批评。

网友吐槽：这是人能写出来的review吗？

「我都不会说是GPT写的，因为GPT比这个人有脑子多了，这个只能称为类人。」

大意如下：

该论文提出了一种通过视觉-语言模型结合推理阶段搜索来提高模型「理解力」的方法，该方法本质上是一种检索增强生成 (RAG) 方法。该方法包括预测生成内容之前的「后续内容的值」，并声称能够减少模型幻觉现象。我试图在论文中找到这些被引用的术语的定义。如果论文旨在提高模型的「理解力」，那么理应存在一个精确且客观的衡量标准，对于「幻觉」现象也应如此。然而，我并没有找到这些术语的明确定义，这导致「提高理解力」这一目标的定义实际上取决于用于衡量它的方法，即第4.2节中使用的基准测试。因此，我只能认为该论文在特定的一组基准测试所定义的任务上表现良好，而这种良好表现也是通过同样的基准测试来衡量的。在有限的评审时间内，我无法确定该方法在概念上是否可靠。我希望看到这些术语的明确定义、用于衡量它们的指标，以及优化这些指标的原理，特别是该论文提出的方法是如何实现这些优化的。考虑到影响该领域实证性能的诸多因素，我很难仅凭实验结果来判断其学术价值。

Pinar表示，「真诚感谢「辛勤」工作的ICCV审稿人，你们怕不是直接把ChatGPT的结果复制粘贴上来了！这行云流水般的胡言乱语，配上量子级的模棱两可，同时接受和拒绝，简直是薛定谔的审稿意见。」

Akshit认为，「所谓的领域专家显然误解了概念，这让我感到滑稽。我被要求阐释一些要么不存在，要么补充材料中已有的内容。」

还有网友表示沮丧，没有一个审稿人阅读补充材料。

还有人吐槽，比CVPR有更多不称职的评审。

不过，也有网友的积极评价——对ICCV评审质量提升感到惊讶，新政策确实发挥作用了。

还有一些网友晒出凡尔赛成绩单。

ICCV投稿量从2019年约4300篇逐步增长，到2021年突破6000篇，2023年更跃升至8000+篇。

论文录用率则在25%-26%区间波动，极少数论文被选为大会报告，大多数以Poster形式交流成果。

ICCV对审稿人的要求

ICCV通常会邀请近年在顶级会议（CVPR/ICCV/ECCV）或相关期刊上有发表成果的学者作为审稿人。

大会共邀请了6位大会主席 (PC)、500位领域主席 (AC)，以及约8000名审稿人参与评审。

全员参与审稿，离大谱？

每位投稿论文的作者都被要求担任审稿人。

前段时间，谷歌DeepMind研究员刘若茜吐槽了ICCV 2025全员参与审稿的制度。

她表示，我理解审稿人紧缺的现状，但强制规定「作者必须参与审稿」，且任何一人超期未完成，就会导致其所有论文被直接拒稿，这种规定实在荒谬了。

「完全不考虑作者也是人，谁还没个急事难处」？

马克斯·普朗克研究所主任Michael Black非常认同，他表示修改要求，让任何在CVPR/ICCV/ECCV发表过3篇以上论文作者必须参与评审。

这不有作者因为错过了评审截止日期，为自己论文被拒担惊受怕。

ICCV官方公布了最终结果，97.18%评审按时提交，只有95名审稿人错过了截止日期。

禁用LLM评审

此外，ICCV 2025明确禁止在评审过程中使用大模型（如ChatGPT），以确保评审意见的原创性和真实性。

审稿人必须提供真实评论，一方面对论文作者负责，另外在线聊天机器人会收集对话历史记录，以改进其模型。

因此，在评审过程中使用它们将违反ICCV保密政策。

加州大学圣地亚哥分校的Alex表示，完成今年的ICCV审稿后，整个人都不好了。

评论区表示同样感觉很糟糕，整体论文质量在下滑。

评审规则延续了以往的高标准，严格执行评审截止日期，确保每篇论文至少获得三份评审意见。

任何未能在截止日期前提交评审的审稿人，其作为作者的论文也将被直接拒稿。

根据官方统计，97.18%的评审意见均按时提交，仅有95位审稿人错过截止时间，导致112篇论文可能受影响。

ICCV建议审稿人发掘论文中的闪光点，鼓励具有创新性或大胆假设的工作。

如果一篇论文提出了新的思想，即使在某标准数据集上未超过SOTA性能，也不应仅因为这一点而被拒稿。

来自约克大学CS助理教授Kosta Derpanis转发一位网友的建议，勉励所有拿到不如意结果的研究者们：

对某些人来说，ICCV的评审结果并非如你所愿。这就是学术发表的常态——既要享受偶尔的成功喜悦，也要应对常见的失意挫折。这就是游戏的规则。

不妨趁此机会重新调整，仔细审视评审意见中的有效反馈，有价值的建议往往就藏在其中。有时你需要更深入地挖掘，但这些意见确实能帮助提升你的研究成果乃至整体研究思路。

对于那些还有机会的同行，祝你们好运！我见过太多在rebuttal阶段实现翻盘的论文。

同行评审：荣耀与荒诞

针对ICCV评审结果，来自Pattern Recognition Lab的科学家Andreas Maier发表了一篇长文，阐述了当前同行评审的现状。

评审：简洁批判，但过于简短

一位审稿人收到的论文，主题是降低医学图像生成计算复杂性的技术——将高维卷积分解为低维操作。

这是个有趣的点子，虽然不算全新，但在技术上似乎有潜力。

审稿人仔细研读后，将目光锁定在论文的评估部分，给出评价：

论文仅在一个鲜为人知的单一模态上测试，缺乏对公共数据集的验证（审稿人贴心地列出了可用的数据集建议）；性能提升的报告缺乏鲁棒性检查；更别提视觉比较的呈现混乱，连CT成像的标准Hounsfield单位都没用上。

简而言之：好想法，烂评估。于是，审稿人给出了一个「边缘拒绝」（Borderline Reject）的评价。

他的评审简洁但精准：总结了核心理念，肯定了优点，指出了数据集选择、泛化不足和图像呈现的具体问题。

这样的评审，专业、中肯、切中要害。

然而，他万万没想到，这份简洁的评审竟成了后续「剧情」的导火索。

领域主席「模板攻击」

几周后，审稿人收到了AC的反馈。

原本期待的是技术性的讨论，然而，现实却像一部黑色喜剧：

AC指责审稿人的评论「缺乏足够细节」，甚至引用了评审中根本不存在的语句！

这份反馈，更像是从《ICCV被动攻击反馈模板手册™》中直接复制粘贴，机械得让人怀疑AC是否真的读过评审。

审稿人震惊之余，礼貌但犀利地回复：指出自己的评论基于领域标准，而引用的「原文」子虚乌有，并反问道AC能否具体说明问题出在哪里。

这一幕，堪称学术界「皇帝的新衣」——模板化的反馈不仅无助于改进，反而暴露了评审流程中的官僚病。

程序主席快速反应

审稿人没有让这场闹剧无休止地发酵，他将问题升级到程序主席，简明扼要地陈述了事实。

好在，程序主席的反应堪称神速。

不到两小时，线下讨论展开；当晚，AC亲自回复审稿人，问题迅速化解。

一场可能拖延数周的学术纷争，在一天内画上句号。

同行评审的「抓马」

这场风波虽小，却折射出大规模同行评审的深层问题。

在ICCV这样的顶会上，审稿人，尤其是资深学者，常常需要同时处理数十篇论文，时间捉襟见肘。

AC则要协调数百篇论文、评审和rebuttal，堪称「学术项目经理」。

在这种高压环境下，人与人之间的对话，逐渐被模板、复选框、自动回复所取代。

结果呢？

评审的质量标准开始滑向「容易量化」的指标：字数、格式、是否填满表格。

一份两页的泛泛之谈，可能顺利过关，而一份紧凑、切中要害的论文，却被打上「细节不足」的标签。

AC忙碌到，只能复制粘贴反馈，甚至懒得读评审原文。这种官僚式回复，让同行评审失去了它应有的灵魂。

ICCV 2025的这场风波提醒我们：

评审的质量不在于篇幅，而在于洞察；评审的意义不在于形式，而在于对话。

参考资料：

https://x.com/papercopilot/status/1920964042123858217

https://iccv.thecvf.com/Conferences/2025/ReviewerGuidelines

https://www.reddit.com/r/MachineLearning/comments/1kgemvp/d_iccv_2025_review_and_score_discussion_thread/

https://papercopilot.com/statistics/iccv-statistics/

https://akmaier.substack.com/p/iccv-reviews-2025-where-scripts-dont?r=56pbmv&utm_campaign=post&utm_medium=web&triedRedirect=true

....

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

企业微信如何使用deepseek-最简单的方法

DeepSeek技术社区

第38次CCF-CSP认证——月票发行（chatgpt5 vs deepseekv3.1）

DeepSeek技术社区

deepseek 关闭思考，在ollama中，在代码中

DeepSeek技术社区

所有评论(0)

查看更多评论

whaosoft-143

@weixin_49587977

已为社区贡献10条内容