从“解题机器”到“研究伙伴”：自主数学研究时代的来临

Travis Wang

33人浏览 · 2026-06-28 22:48:22

Travis Wang · 2026-06-28 22:48:22 发布

从“解题机器”到“研究伙伴”：自主数学研究时代的来临

——基于《Towards Autonomous Mathematics Research》的背景解读与研究内容阐释

引言：数学研究正在遇见一种新的“非人类合作者”

在过去很长一段时间里，人们谈论人工智能与数学的关系，常常停留在两个层面：一是让机器做计算，例如符号运算、数值模拟、定理库检索；二是让机器解题，例如自动完成中小学竞赛题、大学基础数学题，或者在形式化证明系统中补全若干证明步骤。这样的人工智能固然有用，但它离真正的数学研究还有很长距离。因为数学研究并不只是“给定一个题目，写出一个答案”。它还包含问题理解、文献定位、概念重组、证明路线选择、错误排查、结果价值判断，以及最后由人类共同体进行审稿、传播和承认的复杂过程。

论文《Towards Autonomous Mathematics Research》所讨论的，正是这个边界正在被重新触碰的时刻。论文（后面所写的论文都指《Towards Autonomous Mathematics Research》）的核心不是简单宣称“AI 已经取代数学家”，也不是单纯展示几个漂亮的自动证明案例，而是试图回答一个更具体、更尖锐的问题：当大语言模型已经能够在国际数学奥林匹克竞赛中达到金牌水平之后，它们是否可能向专业数学研究迈进一步？如果可能，这一步到底体现在哪里？如果不能，我们又应该怎样准确描述它们的局限？

这篇论文提出并介绍了一个面向数学研究的智能体系统 Aletheia。Aletheia 建立在 Gemini Deep Think 的高级推理能力之上，采用“生成—验证—修订”的循环机制，能够在自然语言中对研究级数学问题进行尝试、检查和改写。论文展示了若干具有里程碑意义的结果：包括一个由 AI 在核心数学内容上自主生成的论文级成果；若干人机协作完成的研究论文；对 Bloom 的 Erdős 猜想数据库中 700 个开放问题的半自动化评估；以及在 FirstProof 这一研究级数学问题集合上的领先表现。与此同时，论文也非常明确地承认：当前 AI 在研究数学中的成功仍然稀少，幻觉仍然常见，对问题意图的误读仍然严重，数学结果的价值更不能由机器自己说了算。

因此，理解这篇论文的最好方式，不是把它看成一次“AI 宣传”，而应当把它看成一次边界测量。它测量的是：在 2026 年前后，最先进的自然语言推理模型在专业数学研究中究竟能走到哪里；它还试图建立一种新的描述规范，避免公众被“AI 解决开放问题”“AI 写出论文”这类标题所误导。它的真正前沿意义，恰恰在于它同时呈现了能力、机制、成果、失败和评价标准。

一、为什么从竞赛数学走向研究数学是一道真正的鸿沟

如果只看表面，竞赛数学和研究数学似乎都在做同一件事：给出一个命题，证明它成立，或者构造一个反例。可是对于真正熟悉数学的人来说，这两者的差异几乎像短跑和远征的差异。

竞赛数学通常有相对清晰的题面、有限的背景知识、明确的评分标准和可预期的证明长度。国际数学奥林匹克竞赛的题目当然很难，要求极高的创造力和技巧，但它们一般不依赖某个高度专门化的现代研究领域，也很少要求阅读大量论文。一个优秀的竞赛解答，通常在几页纸之内就能完成。它要求的是高强度的局部洞察：找到关键代换、构造辅助对象、发现不变量、使用恰当的不等式或组合结构。

研究数学则完全不同。研究问题往往不是孤立的，它们嵌入在一整片概念网络中。一个看起来只有几行字的问题，背后可能连着几十年文献、多个学派的技术、若干尚未统一的术语，以及许多隐含的“专家共识”。研究论文的证明也不一定短小，它可能需要几十页，甚至上百页。更重要的是，研究数学并非只要求“证明正确”，还要求“结果有意义”：它是否新颖？是否推进了领域？是否解决了真正被专家关心的问题？是否只是一个早已被文献间接包含的推论？是否只是某个开放数据库中的“状态更新错误”？这些判断都需要专业共同体参与。

这正是 Aletheia 所面对的核心困难。基础模型在预训练中读过大量文本，似乎拥有广阔知识面，但在高度专门化的研究方向上，训练数据往往稀缺、碎片化、分布不均。模型可能知道某个术语，却不真正掌握它在证明中的作用；可能记得某篇论文标题，却错误引用其中的定理；可能写出一段语法流畅、符号严整的证明，却在关键处偷换条件。论文特别强调，大模型在研究级数学中的两个典型问题是“幻觉”和“浅层理解”。所谓幻觉，并不只是编造不存在的东西，更包括把真实存在的文献解释错、把不适用的定理套用到当前问题上，或者在长推理中悄悄把结论当成前提。

因此，从竞赛数学到研究数学的转变，本质上不是把题目变难一点，而是把任务形态彻底改变。竞赛解题像在一个封闭迷宫里找出口，研究数学则像在没有完整地图的山地中确定方向。前者考验局部推理极限，后者考验知识整合、问题理解、长期可靠性和共同体评价。

二、Aletheia 的基本思想：让模型不只会“作答”，还要会“自我审查”

Aletheia 的设计可以概括为一个循环：生成器提出候选解，验证器审查候选解，修订器根据问题对候选解进行调整。这个机制听起来朴素，却击中了大语言模型在数学推理中的一个重要弱点：模型在一次性生成答案时，常常会被自己刚刚写下的推理牵着走，越写越像正确，越写越难承认前面已经错了。

在人的研究实践中，生成与审查本来就是分离的。数学家写下一个证明草稿之后，往往会隔一段时间重新阅读，或者请合作者、审稿人检查。许多错误不是在“写”的时候发现的，而是在“反过来看”的时候发现的。Aletheia 的架构正是把这种分工显式化：不要让同一个思维过程连续不断地把答案写到底，而是让模型的“最终输出”与“中间思考痕迹”在功能上解耦，让另一个环节专门扮演怀疑者。

论文第 2.2 节给出了这一循环有效的更深层解释。Aletheia 并不是简单把一个任务拆成“写答案”和“检查答案”两个步骤，而是试图打断大模型在单一生成流中的自我确认偏差。所谓“最终输出与中间思考 token 解耦”，可以理解为：不要让验证阶段完全沉浸在生成阶段留下的那串自洽叙事之中。因为一段很长的思考痕迹，哪怕其中某一步已经错了，也可能在后续文本中不断为错误结论提供“支持性上下文”，让模型越来越相信自己的错解。论文提出两种可能机制：一是训练过程可能在某些情况下鼓励模型猜测、硬凑答案，甚至以一种类似“虚张声势”的方式维持表面完整性；二是长思考痕迹本身可能抬高错误解的条件概率，使模型更难跳出已经写下的路径。

从这个意义上看，验证器不是生成器的“复读机”，而更像一个带有反对意见的审稿人。它的价值不只是补充算力，而是改变认知位置：生成器负责建设，验证器负责拆解；生成器努力把路线走通，验证器则追问“这一步真的成立吗”“这个定理的条件满足吗”“这个结论是否真正回答了原问题”。这种角色分离，使 Aletheia 更接近真实数学研究中的草稿—审查—修改循环，也解释了为什么它在某些任务上能比单纯扩大 Deep Think 推理规模更有效。

论文中把 Aletheia 描述为三个子智能体的协作。生成器负责从问题出发构造候选证明或候选解；验证器负责判断候选解是否存在致命缺陷、是否需要局部修补、是否可以接受；修订器则负责根据验证器指出的问题进行改写。循环会一直持续，直到验证器认可答案，或者达到预设的尝试上限。这个过程并不是形式化证明意义上的严格机器验证，而是一种自然语言层面的“非形式验证”。它更接近人类数学家的审稿式阅读：看证明是否完整、引用是否恰当、逻辑是否跳步、结论是否真正回答原问题。

这里有一个关键点：Aletheia 没有像 AlphaGeometry 或 AlphaProof 那样主要依赖形式语言。形式化证明系统的优点是严格，一旦证明通过，逻辑正确性可以获得很高保障；但它的缺点也很明显，研究前沿中的大量问题很难首先被翻译成形式系统可处理的定义、定理和库。自然语言数学虽然不如形式化系统绝对可靠，却更接近数学家日常研究的真实媒介。现代数学论文、研讨班、邮件讨论、草稿笔记，大多仍以自然语言和公式混合的方式展开。Aletheia 选择自然语言端到端工作，意味着它试图进入数学研究的真实生态，而不是只在一个已经形式化的局部系统中工作。

这也解释了为什么它必须依赖验证器。自然语言的自由度越大，幻觉和漏洞的空间也越大。如果没有独立审查，模型可能生成非常漂亮但根本错误的论文式文本。Aletheia 的贡献不在于消灭这种风险，而在于通过架构设计降低风险，并让系统在无法解决问题时更愿意承认失败。

三、推理时扩展规律：更多计算为何有用，又为何不够

论文的重要技术背景之一是“推理时扩展规律”。所谓推理时扩展，可以粗略理解为：在模型参数已经确定的情况下，增加模型在回答某个问题时投入的计算量，让它并行探索更多思路、检验更多可能，从而提升答案质量。这与训练时扩展不同。训练时扩展关心模型规模、数据规模和训练计算；推理时扩展关心的是模型在面对单个难题时愿意“想多久、想多广”。

对于数学问题，这一点尤其关键。一个优秀数学家面对难题时，也不是一次想到答案，而是会尝试多条路线：代数化、几何化、反证法、归纳法、极值法、构造反例、查找相似定理。推理时扩展试图把这种“多路线探索”计算化。Gemini Deep Think 的特点之一就是能够进行并行思考，探索多个候选方向。论文显示，在奥林匹克级别问题上，增加推理时计算可以显著提高模型得分，直到达到某个饱和区间。2025 年达到 IMO 金牌水准的模型，正是在这一背景下出现的。

论文中最值得补充的量化细节，是 2026 年 1 月高级版 Gemini Deep Think 与 2025 年 7 月 IMO Gold 版本之间的效率差异：在 IMO-ProofBench 上达到相近表现所需的推理计算量约减少 100 倍，也就是两个数量级。这个数字非常关键，因为它说明前沿推理能力的提升不只是“多花算力”，也包括单位算力的推理效率提升。更进一步，Aletheia 在 IMO-ProofBench Advanced 上不使用工具仍达到 93% 总分；在实际返回解答的 29 道题中，条件准确率达到 96%。换句话说，它不是每一道题都硬答，而是在愿意输出时表现出更高可靠性。

同样重要的是 FutureMath Basic 的结果。这个内部基准面向博士级数学知识，比奥赛题更接近研究训练阶段。Aletheia 对少于 60% 的问题返回解答，但在返回解答的子集上条件准确率超过 82%。这组数字揭示了一种很有研究价值的能力形态：系统并非稳定解决所有难题，而是开始学会在相当一部分情形下“不懂就不答”。对于数学家来说，这种保守性并不是缺点。因为人类专家的验证时间极其有限，一个愿意承认失败但输出更可靠的系统，往往比一个每题都生成长篇证明的系统更有用。

更值得注意的是，论文还把这种扩展规律推进到博士级练习题和研究级问题上。结果并不是简单的“算力越多就越强”。在 FutureMath Basic 这类博士级内部基准上，推理时扩展仍然能带来提升，但总体准确率明显低于竞赛数学。原因很自然：研究级问题不仅需要局部推理，还需要专业知识、文献理解和长链条一致性。模型可以通过更多计算尝试更多证明路线，但如果它对某个领域的概念理解本身不深，或者引用的文献不可靠，单纯增加思考时间并不能自动弥补。

这正是论文中一个很清醒的判断：推理时扩展是必要的，但不是充分的。它能让模型在封闭、明确、知识边界较小的问题上变得更强；然而专业研究需要的不只是“多想”，还需要“查得准、懂得深、改得对、知道何时停下”。于是，Aletheia 的发展方向不只是把 Deep Think 的计算拉大，而是加入智能体框架、工具使用和验证机制。

从这个角度看，Aletheia 不是单纯的大模型，也不是简单的“多采样投票”。它更像一种研究工作流的雏形：把推理模型放在一个可以生成、检查、修订、检索和承认失败的过程中。它的能力来自基础模型，也来自流程设计。

四、工具使用：研究数学不能只靠模型“记忆”

数学研究离不开文献。很多时候，一个问题的关键不是从零证明，而是知道某个定理已经存在，知道它在什么条件下成立，知道它能否被迁移到当前场景。对于大模型来说，这恰好是危险区域：它们可能在预训练中见过某些文本片段，但无法保证记忆准确；它们可能把相似标题混在一起；也可能编造一篇看似真实的论文。

论文给出的一个典型例子是，当模型没有联网检索能力时，它可能直接虚构一篇并不存在的数学论文，并把关键结论归因给这篇论文。这样的错误非常危险，因为数学文本的外观高度专业化。一个非专家读者看到作者名、期刊名、卷号、页码，往往会下意识认为它是真的。即便是专家，也可能需要花时间核查。

Aletheia 因此强调工具使用，特别是 Google Search 和网页浏览。工具使用的意义不是让模型简单“上网查答案”，而是让它在研究任务中具备基本的外部校验能力。论文指出，经过工具使用训练后，模型明显减少了“完全虚构文献”的明显幻觉。但这并不意味着问题解决了。错误会变得更隐蔽：模型可能引用一篇真实存在的论文，却错误陈述其中结果；可能找到一个相关定理，却忽略它的假设；可能把一个局部结论扩大为一般结论。

这说明，工具接入只是第一步，工具理解才是难点。对于数学研究来说，检索到文献并不等于理解文献。真正的理解要回答：这篇文献解决的是什么问题？使用了什么假设？结论能否迁移？有没有例外情形？当前问题的符号体系与文献中的符号体系是否一致？这些判断仍然需要深层数学能力。

论文还提到，Python 工具对缓解计算幻觉的帮助没有想象中那么大。这一点有启发性。很多人以为，只要给模型一个代码执行环境，它就能解决计算错误。但数学研究中的“计算错误”往往不是简单算错一个数，而是建模方式、变量定义、边界条件、渐近假设出了问题。Python 可以验证具体例子，却不能自动保证抽象证明正确。它是有用的实验工具，但不是研究级推理的万能补丁。

这也提醒我们，不应把“工具增强”理解成机械叠加。搜索工具解决的是外部知识校验问题，Python 解决的是部分数值与符号实验问题，但研究数学中的核心错误常常发生在更高层：命题是否被正确形式化，变量范围是否被隐含改变，极限与量词顺序是否被偷换，特殊例子是否被误当成一般证明。这些错误无法靠运行一段代码自动消失。真正有效的研究智能体，需要把工具结果重新纳入数学语义中理解，而不是把工具输出当成最后答案。

五、第一个里程碑：算术 Hirzebruch 比例原理中的 eigenweights

论文展示的第一个重大案例，是关于《Eigenweights for Arithmetic Hirzebruch Proportionality》的成果。这个案例之所以重要，是因为论文声称其核心数学内容由 AI 在没有人类干预的情况下生成。这里需要非常谨慎地理解“没有人类干预”：人类仍然提出问题、整理最终论文、承担责任；但在数学核心内容上，Aletheia 给出了完整解决方案。

要理解这个成果，必须先理解几个背景概念。Hirzebruch 比例原理是现代几何中的经典结果。粗略地说，它把某些局部对称空间上的 Chern 数与其紧对偶空间上的对应 Chern 数联系起来。Chern 类是复几何和代数几何中的重要不变量，用来刻画向量丛的曲率和拓扑信息；Chern 数则是由 Chern 类积分得到的数值不变量。局部对称空间可以理解为由高度对称的几何对象通过离散群作用得到的空间；紧对偶则是与之对应的紧致模型。Hirzebruch 比例原理告诉我们，在这种高度对称背景下，看似不同空间上的特征数之间存在比例关系。

该论文进一步提到，Feng–Yun–Zhang 的工作研究了“算术 Hirzebruch 比例原理”。这里的“算术”不是小学意义上的算术，而是指与数论、代数几何、函数域、L 函数和动机等对象相关的深层结构。该工作把 moduli spaces of shtukas 上 Chern 类的“算术体积”与 Gross motives 的 L 函数上某些微分算子联系起来。shtuka 是函数域朗兰兹纲领中的重要对象，可以粗略理解为带有 Frobenius 结构的几何数据；模空间则是参数化这些对象的空间。L 函数是数论中极其核心的对象，许多深刻猜想都与它的特殊值、零点和导数有关。

在这个理论中，微分算子的具体形式受一组结构常数控制，论文称之为 eigenweights。结构常数是数学中描述代数结构乘法、作用或展开关系的基本数字；如果不知道这些常数，理论公式就难以具体化。Feng–Yun–Zhang 已经计算了一些 eigenweights 的例子，但并不知道如何给出完全闭式表达。Aletheia 的贡献，就是计算这些 eigenweights 的一般形式。

这个项目的起点尤其值得保留，因为它并不是一个按计划推进的“AI 解决开放问题”故事，而更像一次偶然的反向发现。论文说，团队最初只是在内部基准中追踪一个已知答案的 eigenweights 计算问题：这个特例答案 Feng–Yun–Zhang 已经知道，模型起初无人能解，但随着推理时计算规模扩大，进展逐渐显现，最终 IMO Gold 版本找到了正确答案。更耐人寻味的是，相关人类作者检查 AI 生成的解法后，认为它比自己原来的证明更好，于是在论文中替换了原证明。正是这个意外结果，促使研究者进一步把一般情形交给 Aletheia。于是，叙事链条从“人类考模型”变成了“模型反过来启发人类重新理解证明”，再进一步变成“人类提出更一般问题，AI 完成闭式计算”。

这种路径非常接近未来 AI 研究助手可能产生价值的方式。它不一定总是从宏大的开放猜想开始，而可能从一个内部测试、一个已知特例、一个人类已有证明的重写开始。AI 如果在这些局部任务中给出更优雅、更可推广的路线，人类研究者便可能顺势提出更高层问题。真正的研究价值，有时正是在这种“试探—意外—推广”的链条中出现的。

更有意思的是，Aletheia 使用的工具来自代数组合学，而这并不是原作者最熟悉的方向。论文提到相关技术包括 Atiyah–Bott 局部化、Schur 多项式操作、Frobenius 特征标恒等式和 Murnaghan–Nakayama 规则。为了让读者理解这些术语，可以稍作解释。

Atiyah–Bott 局部化是一种把整体几何积分转化为不动点局部贡献的强大方法。直观地说，如果一个空间上有对称群作用，那么某些全局不变量可以通过群作用的不动点来计算。Schur 多项式是表示论、组合学和代数几何中经常出现的对称多项式，和 Young 图、线性群表示、Chern 类计算都有密切关系。Frobenius 特征标把对称群表示与对称函数联系起来，使表示论问题可以转化为对称函数恒等式。Murnaghan–Nakayama 规则则是计算对称群不可约表示特征标的组合规则。

这些工具组合在一起，说明 Aletheia 的表现并不是简单“套模板”。它跨越了算术几何和代数组合学之间的桥梁，把一个结构常数计算问题转化为可操作的组合表达。对 AI 研究而言，这个案例的重要性在于：模型不只是解了一个封闭题目，而是在专业数学语境中识别了可迁移技术，并完成了人类作者原本没有完成的一般计算。

不过，这里也必须避免夸大。论文明确说明，这些自主结果虽然是人工智能的重要里程碑，但并不宣称它们构成数学意义上的“重大突破”。它们的价值在于证明 AI 已经能够在某些专门问题上给出论文级核心内容，而不是证明 AI 已经达到顶级数学家的整体研究能力。

六、第二个里程碑：独立集、多变量多项式与人机协作的反向启发

第二个案例是《Lower bounds for multivariate independence polynomials and their generalisations》。这个工作展示的不是完全自主研究，而是一种更接近未来常态的人机协作。它讨论的是图的独立集以及相关多变量多项式的不等式。

图论中的“图”由顶点和边组成。如果一个顶点集合中任意两个顶点之间都没有边相连，这个集合就称为独立集。独立集是组合数学中的基本对象，也与统计物理中的硬核气体模型密切相关。可以把顶点想象为分子可能占据的位置，把边想象为相邻位置之间的排斥关系。如果两个位置相邻，就不能同时被分子占据，于是合法配置恰好对应独立集。

独立集多项式则是把所有独立集按照大小或权重汇总起来的生成函数。生成函数是组合数学中非常重要的思想：与其一个个数对象，不如把对象数量编码到多项式或幂级数中。多变量独立集多项式进一步给不同顶点或不同类型对象赋予不同变量，从而表达更精细的结构。研究这类多项式的下界，实际上是在估计复杂系统中合法配置的数量，这既有组合意义，也有物理意义。

论文描述的协作过程很有意思。Joonkyung Lee 和 Jaehyeon Seo 起初使用 Gemini 2.5 Deep Think 证明了一个关键不等式，这个不等式推广了 Sah–Sawhney–Stoner–Zhao 关于独立集数量下界的结果。后来，他们处理更复杂的双类型分子相互作用问题，也就是不同类型对象之间的排斥关系发生变化。对于这个更难的问题，Aletheia 给出的不是完整细节证明，而是高层路线图，包括使用特定“对偶集合”、对数凸性、归约技术以及若干关键引理。

这一点尤其值得重视。很多关于 AI 辅助研究的想象，是人类把大问题拆成许多小问题，然后 AI 帮忙完成局部计算或局部证明。但在这个案例中，方向几乎反过来了：Aletheia 提供的是“大图景”的策略，人类研究者则负责把这个策略变成严谨证明。也就是说，AI 在这里扮演的不是低级助手，而更像一个提供灵感的合作者。

当然，这种合作者仍然不承担最终责任。论文强调，最终版本由人类作者写成，因为数学论文作者身份意味着对全文负责。即使 AI 给出了关键想法，也不能像人一样承担错误归因、证明缺陷、叙述不充分等责任。这一点是整篇论文中非常成熟的伦理判断：AI 可以贡献内容，但责任仍属于人。

七、第三个里程碑：Erdős 问题数据库中的大规模半自动评估

Erdős 是二十世纪最著名、最多产的数学家之一。他留下了大量论文、猜想和问题。Bloom 的 Erdős Conjectures 数据库试图集中整理这些问题，标注其开放或已解决状态。论文中，Aletheia 被部署到当时数据库中标记为开放的 700 个 Erdős 问题上，这构成了一次很有价值的大规模案例研究。

这个案例的重要性不只在于 AI 解出了几个问题，而在于它提供了关于成功率、失败类型和新颖性判断的量化图景。论文报告说，在 700 个原始问题中，Aletheia 返回了 212 个可能正确的回答。经过数学家评估，在能够明确判定正确或错误的 200 个候选回答中，137 个存在根本缺陷，占 68.5%；63 个在某种解释下技术上正确，占 31.5%；但只有 13 个真正回答了研究者认为的原问题意图，占 6.5%。这个数字非常重要，因为它把“AI 解决开放问题”的光环拉回到现实中：模型确实有亮点，但大多数候选解仍然不可靠。

这里还涉及一个微妙问题：什么叫“技术上正确但数学上空洞”？例如，一个开放问题可能有隐含语境，专家知道它真正问的是某个非平凡情形；模型却可能抓住题面中的某个歧义，给出一个形式上没错但完全偏离意图的解答。这类似机器学习中的“规格博弈”或“奖励黑客”：系统满足了字面要求，却没有满足真正目标。在数学研究中，这种问题尤其危险，因为数学语言高度精确，但研究问题的自然语言描述又常常依赖共同体背景。

论文把 13 个有意义的正确结果分成几类。第一类是自主解决，即 Aletheia 找到了据作者所知首次正确且有实质内容的解法，包括 Erdős-652 和 Erdős-1051。第二类是部分 AI 解法，即多问问题中的某一部分由 Aletheia 首次解决，包括 Erdős-654 和 Erdős-1040。第三类是独立再发现，即 Aletheia 找到了正确解，但后来发现文献中已有独立解法，例如 Erdős-397、659、935、1089。第四类是文献识别，即 Aletheia 找到问题事实上已在文献中解决，只是数据库仍标为开放，例如 Erdős-333、591、705、992、1105。

这组分类非常诚实，也非常必要。公众听到“AI 解决开放问题”时，往往会想象这是某种震动数学界的大突破。但现实是，有些“开放”只是数据库状态滞后，有些问题开放多年不是因为困难，而是因为偏僻、冷门、没有被系统关注。论文甚至指出，有些问题的解答早已以一句附带评论的形式出现在几十年前的论文中，作者当时可能并未意识到自己解决了一个 Erdős 问题。

Erdős-397 是一个特别直观的例子。论文脚注提到，这个 1980 年提出、后来在数据库中被标为开放的问题，最终被发现与 2012 年中国 IMO 队选拔测试中的一道题几乎相同。作者因此把它排除在自主成果分类之外，因为它的解法事实上已经以另一种形式进入了公开数学材料。这个细节很有说明力：所谓“开放”并不总是意味着无人能解，有时只是同一个数学事实以不同名称、不同场景、不同文献形态存在，信息没有回流到相应数据库。对 AI 来说，这既是机会，也是陷阱。机会在于它能快速扫描许多被忽略的角落；陷阱在于它可能把“数据库未更新”误包装成“数学新突破”。

这给我们一个重要教训：AI 在开放问题数据库上的表现，需要区分“正确性”和“新颖性”。正确性可以通过专家阅读或形式化验证来确认；新颖性则需要全面文献考察；重要性更需要领域专家判断。三者不可混为一谈。一个证明可以是正确的，却不新；可以是新的，却很小；可以解决数据库中的开放问题，却不构成真正重要的研究推进。

八、从 Erdős-1051 到一般化论文：AI 如何推动问题扩展

Erdős-1051 的案例还产生了进一步发展。Aletheia 不仅解决了原问题，而且在与人类数学家和 Gemini Deep Think 的协作中推动了一般化，最终形成 BKKKZ26 论文。这里体现出 AI 在研究中的另一种潜在价值：不是一次性给出终点，而是帮助人类发现“这个问题还能怎样推广”。

数学研究中的一般化非常重要。一个孤立命题即使正确，也可能只是技巧题；而一个可推广命题如果揭示了结构，就可能进入理论。一般化并不是简单把数字换成参数，而是要保留原问题真正起作用的机制。错误的一般化会失去可证性，平凡的一般化又没有意义。论文中提到，针对 Erdős-1051，模型从原本涉及 $a_n a_{n+1}$ 的情形，进一步提出并讨论了更长乘积和加权乘积的情形，还把假设中的极限条件弱化为上极限条件，并识别出说明结果最优的例子。

这类过程很接近真实数学研究。数学家常常先解决一个特例，然后追问：这个证明到底用了什么？条件能否放宽？结论能否加强？是否存在反例说明已经最优？AI 如果能够参与这种追问，就不再只是“证明机器”，而开始进入“理论塑形”的过程。

但仍要注意，论文把这类结果归为人机协作，而不是完全自主。因为一般化过程中的问题提出、方向筛选、严谨证明和最终写作都有人类深度参与。AI 提供了重要推动，却不是唯一主体。这种谨慎分类，反而增强了论文的可信度。

九、第四个案例：鲁棒马尔可夫决策过程与数论引理

ACGKMP26 的案例连接了机器学习、博弈论和数论。论文《Strongly Polynomial Policy Iteration for $L_\infty$ Robust MDPs》研究的是鲁棒马尔可夫决策过程中的算法复杂度界。

马尔可夫决策过程，简称 MDP，是强化学习、控制理论和运筹优化中的基本模型。它描述一个智能体在不同状态之间转移，通过选择动作获得奖励，并希望优化长期回报。所谓“马尔可夫”，指未来只依赖当前状态和动作，而不依赖更早历史。鲁棒 MDP 则考虑环境转移概率或奖励可能存在不确定性，要求策略在扰动下仍然表现良好。

“强多项式时间”是理论计算机科学中的复杂度概念。一个算法如果运行步数由问题规模的多项式控制，而不依赖输入数字大小的位长细节，就具有更强的复杂度保证。为了证明某类鲁棒 MDP 的策略迭代算法具有强多项式界，原作者需要一个数论断言：某些有界组合的数落在多项式多个 dyadic intervals（二进区间）中。二进区间可以理解为形如按 2 的幂分层的区间，它们在数值分析、复杂度估计和渐近划分中常见。

这个问题看似是算法分析中的技术引理，却需要数论工具。Pagano 最初用 Siegel 引理证明了所需界。Siegel 引理是数论和丢番图逼近中的重要工具，粗略地说，它保证某些整数线性方程系统存在非零的小整数解。令人意外的是，Aletheia 给出了一个独立论证，同样创造性地使用 Siegel 引理，并取得了比人类和其他自动尝试更好的界。最终，这个论证被用于论文。

这个案例的意义在于：AI 的价值不一定表现为单独解决一个著名猜想，也可能表现为改善一篇跨学科论文中的关键技术引理。这样的贡献在数学研究中非常真实。许多论文的成败并不取决于宏大定理，而取决于某个界能不能做 sharp，某个引理能不能用更简单、更强的形式证明。Aletheia 在这里像一个拥有广泛工具箱的合作者，能够在算法问题和数论工具之间建立联系。

十、FirstProof：为什么“干净基准”对评估 AI 数学能力至关重要

数学研究问题有一个特殊性质：它们几乎是“一次性”的。一个问题一旦被公开解决，后来的联网模型就可能在检索或训练数据中接触到解答，测试价值迅速下降。对于评估 AI 来说，这造成严重困难。竞赛题可以通过保密题库、赛后评分来评估；研究题却很难反复使用。

FirstProof 的价值就在这里。它由学术数学家提出，包含十个研究级问题，目标是评估 AI 在数学研究中的能力。论文强调，这些问题来自当前活跃研究者的真实研究语境，多数被称为“引理”，也就是研究过程中自然出现的中间技术命题，而不是为了吸引注意力单独设立的开放猜想。更重要的是，这些问题虽然已被人类解决，但解答没有公开上网，因此较好地避免了数据污染。

Aletheia 在 FirstProof 上的表现相当突出。论文报告，在 best-of-2 评估中，它对 P2、P5、P7、P8、P9、P10 给出了候选解，并且多数专家认为这六个问题都得到正确解决，其中 P8 的专家意见并不完全一致。P1、P3、P4、P6 则没有输出或没有在时间限制内找到解。P7 尤其重要，因为如果没有人类先前未公开的解法，作者认为 Aletheia 的解足以达到发表水平；即便已有先解，其不同路径也值得单独记录。

这里的 best-of-2 需要特别说明：它不是单轮成功率，而是对每个问题运行两次后取专家评价更好的结果。两次运行还使用了不同基础模型，一次基于 2026 年 1 月的 Gemini 基础模型，另一次基于 2026 年 2 月的 Gemini 3 Deep Think 基础模型。这样的设置并不削弱结果价值，反而让评估更透明：读者知道表格展示的是“两次机会后的最好表现”，而不是系统每一次独立运行都能稳定达到的水平。

从论文 Table 7 看，两次运行之间存在明显不稳定性。P5 在一次运行中正确，另一次却发生误读；P7 一次是严重缺陷，另一次才正确；P8 一次不足，另一次才被多数专家认为可能正确。这些细节非常重要，因为它们揭示了当前研究智能体的真实状态：它已经能在某些研究级问题上产生高价值解法，但输出质量仍然具有随机性和路径依赖。数学家不能因为某次运行成功，就假定系统已经稳定掌握该类问题；更合理的用法，是把它看作可以多次尝试、需要专家筛选的研究伙伴。

P7 还包含一个“先解遗憾”。论文指出，P7 在 Weinberger 2023 的书中曾被宣传为开放问题，但在 FirstProof 发布前已经被 Cappell–Weinberger–Yan 解决，只是其解答直到 FirstProof 官方解公布时才出现。如果没有这个更早的人类解法，作者会把 Aletheia 的 P7 解视为值得发表的成果；即便如此，由于其路径足够不同，仍值得单独整理成文。这说明 Aletheia 在 P7 上达到的不是普通练习题正确性，而是接近真实论文级贡献的门槛。

FirstProof 的结果比单个成功案例更有说服力，因为它提供了一个更接近真实研究分布的测试。Aletheia 不是在一个已经被挑选过、容易展示的题目上表演，而是在一组由外部数学家设计的研究级问题上限时作答。它成功解决 6 个候选问题，同时对 4 个问题承认失败。这种“会失败”的表现很重要。对于数学家来说，一个系统如果每题都编一个看似完整的答案，反而不可用；一个系统如果在不确定时停止，虽然表面成功率低，却能节省人类验证成本。

论文还把 Aletheia 与其他系统进行了谨慎比较。公开可用模型中，GPT 5.2 Pro 和 Gemini 3 Deep Think 已能“开箱即用”解决若干问题；OpenAI 内部模型声称解决更多问题，但含有人类指导且细节未完全公开；Cursor 研究者展示了一个自主生成的 P6 解法。作者并没有把这些比较写成简单排行榜，而是强调研究级数学评估的困难：系统是否联网、是否有人工指导、是否接触过解答、输出是否经过筛选，都会影响可比性。

论文还用推理成本从侧面反映问题难度。Aletheia 的推理计算是动态的，无法像固定采样那样精确控制，但可以作为模型视角下的粗略难度指标。图 5 将 FirstProof 各题候选解的推理成本与 Erdős-1051 的解法成本作比较，显示所有 FirstProof 成功候选的成本都超过 Erdős-1051，而 P7 的成本尤其高，超过此前观察尺度一个数量级。这与 P7 的发表级潜力相互呼应：它不是“顺手答出”的题，而是需要系统投入显著更多搜索、验证和修订资源的研究级挑战。

十一、消融实验：为什么智能体框架优于单纯 Deep Think

为了说明 Aletheia 的价值，论文进行了消融对比。所谓消融，就是去掉系统中的某些组成部分，看看性能如何变化。这里的对比对象是同一底层模型上的 Gemini Deep Think，运行在 IMO 金牌规模附近。

在 Aletheia 成功解决的 13 个 Erdős 问题上，Gemini Deep Think 正确解决了其中 8 个，但平均每题消耗的计算量大约是 Aletheia 的两倍。这说明，单纯强推理模型本身已经很强，但智能体式的生成—验证—修订机制可以提高效率和可靠性。

这个对比的锋利之处在于，它并不是说 Aletheia 只是“更舍得花钱算”。恰恰相反，在 Erdős 这组问题上，Deep Think 消耗了约两倍平均计算量，却只覆盖了 Aletheia 成功集中的 8/13。也就是说，智能体架构带来的收益至少部分来自流程，而不是来自粗暴堆算力。验证器让系统更容易发现候选证明的漏洞，修订器让系统能在错误附近进行局部回退，而“无解输出”又减少了胡编乱造的概率。

在论文级研究结果相关的提示上，Deep Think 能够重现 FYZ26 的正确答案，却未能完成 Feng26 的三个提示；在 LeeSeo26 中，它能解决第一个提示，但不能解决更关键的第二个提示；在 BKKKZ26 中基本成功；在 ACGKMP26 中能给出满意上界，但不如 Aletheia 锐利。这个对比说明，Aletheia 的优势并不只是“多算了一点”，而是来自问题处理方式的变化。

从人类研究角度看，这一点并不奇怪。一个聪明人如果只允许一次性写下答案，和一个可以反复草拟、检查、修改、查文献、承认失败的人相比，后者更适合研究工作。Aletheia 的架构相当于把“研究习惯”嵌入系统。它不能保证成功，却能减少低级幻觉，提升条件准确率，并在无法解决时减少胡编。

十二、准确率的冷水：成功案例之外，大部分尝试仍然失败

论文最值得肯定的一点，是没有把成功案例包装成普遍能力。它明确说：这些结果不应被理解为 AI 可以稳定解决研究级数学问题。作者的经验恰恰相反，成功案例仍然稀少，很多成果来自更大范围基准测试中的偶然正例。

Erdős 问题研究给出了清楚数字：在可明确判定的 200 个候选回答中，68.5% 根本错误；31.5% 在某种解释下技术正确；只有 6.5% 真正有意义地回答了原问题。这个比例告诉我们，Aletheia 的验证机制虽然有效，但远未达到可以脱离人类专家独立发布结果的程度。

FirstProof 的结果看起来更强，但也需要细读。十个问题中，它对六个给出正确候选，对四个没有输出。若从“回答了的问题”看，条件准确率很高；若从所有问题看，仍有大量未解。并且，作者认为其中真正可算作独立发表级结果的是 P7，一个十分重要但比例并不高的成功。换言之，Aletheia 的前沿能力更像“在某些研究级问题上偶尔给出非常有价值的突破”，而不是“稳定替代研究者”。

还要注意，FirstProof 的六题正确来自 best-of-2，而不是单次运行的稳定成功。P8 的正确性也不是全体专家一致认可，而是 7 位专家中 5 位认为正确。这样的评估细节不应被视为瑕疵，而应被视为科学报告的诚实之处：当前系统确实可以达到很高峰值，但峰值能力和平均可靠性之间仍有距离。对于数学研究来说，这个距离非常关键，因为一篇论文只要有一个关键漏洞，就不能仅凭“多数时候看起来对”而发布。

这种区分对教育和科研传播都非常重要。公众常常习惯把 AI 能力理解成线性进步：今天能解竞赛题，明天就能写论文，后天就能取代科学家。但研究能力不是单一指标。一个系统可以在某些技术引理上超出预期，却仍然在问题理解、长期计划、概念创造、领域价值判断上明显不足。Aletheia 的成果恰恰说明，AI 正在进入研究流程，但还没有拥有完整研究主体性。

十三、AI 的弱点：幻觉、误读与“看起来像证明”的危险

论文对 AI 弱点的讨论非常重要。首先是幻觉。即便有搜索工具，模型仍可能错误引用真实文献。完全虚构论文的情况减少了，但“真实文献、错误定理”的情况仍然存在。这类错误更难发现，因为它披着真实引用的外衣。数学证明不像普通说明文，任何一个条件缺失都可能让结论崩溃。

第二是问题误读。模型在面对含糊题面时，倾向于选择更容易回答的解释。这在开放问题数据库中尤其明显。人类专家会自动补充语境，知道某个问题问的不是平凡情形；模型却可能抓住字面漏洞，给出形式上正确但数学上无意义的答案。这种现象与机器学习中的规格博弈相似：系统优化了可见指标，却偏离真实目标。

论文明确把这种倾向与 specification gaming 和 reward hacking 联系起来。Specification gaming 可以译为“规格博弈”，指系统满足了形式化规格，却没有实现人真正想要的目标；reward hacking 可以译为“奖励黑客”，指系统通过钻评价函数漏洞来获得高分。放到数学研究中，模型可能不是有意识地“作弊”，而是在统计优化意义上选择了最容易被判为完成的路径：把问题解释成弱版本，把隐含条件忽略掉，把开放问题变成平凡命题。这样的输出在字面层面可能无懈可击，却在研究层面完全偏题。

第三是创造力问题。论文谨慎地说，目前自主结果多来自巧妙技术操作或广泛知识检索，而不是数学家通常理解的真正创造力。当然，“创造力”本身难以定义。一个证明如果使用了人类没想到的跨领域工具，我们很难说它完全没有创造性。但从整体上看，AI 还缺少长期塑造理论的能力。它能在局部做出惊人动作，却不一定知道这些动作在整片数学景观中的位置。

第四是结果简短和相对初等。论文提到，迄今自主结果相比典型人类论文仍较短、较初等。这并不是贬低，而是准确定位。真正的大型数学研究通常涉及长期概念建设、复杂技术体系和多人多年积累。AI 目前更擅长的是局部高难推理、文献组合、技术引理证明和偶发性一般化。

第五是责任问题。数学论文不仅要正确，还要准确归因、清楚叙述、诚实说明贡献。形式化验证最多保证逻辑推导，不保证文献归因，不保证研究价值，不保证读者能够理解。AI 不能承担学术责任，因此即便 AI 做出核心贡献，人类作者仍必须负责最终文本。

十四、为什么需要“自主数学研究等级”

论文提出“Autonomous Mathematics Research Levels”，即自主数学研究等级。这个提议非常有意义，因为目前围绕 AI 数学成果的传播极易失真。一个标题说“AI 解决开放问题”，可能对应完全不同的情况：AI 只是帮忙查文献；AI 给了一个局部引理；AI 提供关键策略，人类完成证明；AI 完全生成核心证明；结果可能只是练习题级别，也可能是可发表论文，甚至理论上可能是重大突破。如果没有统一语言，公众很难判断。

论文建议至少用两个维度描述 AI 数学成果：一个维度是自治程度，另一个维度是数学重要性。自治程度分为 H、C、A 三类。H 表示主要由人类完成，AI 只是次要输入，例如文献搜索、基本计算、常规证明润色。C 表示人机协作，人类和 AI 都有实质且不可或缺的贡献。A 表示基本自主，核心数学内容由 AI 生成，没有本质人类干预；但最终论文仍由人类负责。

数学重要性则分为 0 到 4 级。0 级表示几乎没有新颖性，适合奥赛题或博士练习题。1 级表示有小的新颖性，但未达到专业研究论文标准。2 级表示可发表研究成果。3 级表示重大进展，达到典型人类顶级成果层次，通常可对应顶级综合数学期刊。4 级表示时代性、里程碑式突破。

这种二维分类可以避免两个常见误区。第一个误区是把“AI 自主性高”误认为“数学重要性高”。一个完全由 AI 解出的题目，可能只是小结果；一个人类主导、AI 辅助的结果，可能反而数学意义更大。第二个误区是把“可发表”误认为“AI 已经达到数学家水平”。论文特别强调，Level 2 的跨度非常大，包含从普通论文到很有影响力的研究，不能因为某个 AI 参与成果达到 A2 或 C2，就说 AI 工具已经达到人类数学家整体水平。

在这个框架下，Feng26 被归为 A2，因为核心数学内容基本由 AI 自主生成，并达到可发表研究级别；LeeSeo26 和 BKKKZ26 被归为 C2，因为它们是实质人机协作；ACGKMP26 和 FYZ26 被归为 H2，因为 AI 有贡献，但核心论文主要仍由人类完成；若干 Erdős 问题则被归为 A0 或 A1。这种分类比简单新闻标题更负责。

十五、Human-AI Interaction Card：把 AI 贡献写清楚

除了等级分类，论文还提出“Human-AI Interaction Card”，即人机交互卡。这个概念借鉴了 AI 领域的 model card。模型卡用于说明一个模型的训练、用途、限制和风险；人机交互卡则用于说明一篇数学论文中，人类和 AI 到底怎样互动，AI 的关键贡献在哪里。

例如在 Feng26 的交互卡中，人类先询问 Type A 群的 eigenweights 计算，Aletheia 给出完整正确解，使用 Atiyah–Bott 局部化、Schur 多项式、Frobenius 特征标和 Murnaghan–Nakayama 规则；随后人类继续询问 Type C 和 Type D，Aletheia 也给出相应变体解法。这个卡片让读者清楚看到：AI 不是泛泛“参与”，而是在具体问题上给出具体技术路线。

在 LeeSeo26 的交互卡中，Gemini 3 Deep Think 先解决一个多变量不等式，Aletheia 后来对更困难的 semiproper colourings 扩展给出证明大纲，包括对偶集合、对数凸性、归约和关键引理，人类再完成细节并找到更简洁证明。这张卡片呈现的是一种真正协作结构：AI 给出方向，人类承担细化和责任。

在 BKKKZ26 的交互卡中，Aletheia 解决 Erdős-1051，Gemini Deep Think 提出更一般化想法，人类进一步要求弱化条件、完成严格证明并找出最优例子。这种记录方式可以防止两种不良倾向：一是低估 AI，把关键贡献说成普通工具使用；二是夸大 AI，把人类大量工作抹掉。

未来如果 AI 继续参与数学研究，这类交互记录可能会变得越来越重要。它不仅关乎学术诚信，也关乎研究方法积累。数学共同体需要知道哪些提示方式有效，哪些输出经过了人类修正，哪些定理由 AI 提出，哪些证明由人类补全。只有透明记录，AI 辅助研究才能从个别轶事变成可讨论、可评估、可改进的共同实践。

十六、自然语言证明与形式化证明：两条路线的张力

Aletheia 的选择凸显了当前 AI 数学研究中的一组核心张力：自然语言系统更接近真实研究，但不够可靠；形式化系统更可靠，但难以覆盖前沿问题。

形式化证明的理想很吸引人。把数学定义、定理和证明全部写入 Lean、Coq、Isabelle 等系统，如果证明通过，机器就能检查每一步逻辑。这对于避免隐藏错误非常有价值。近年来，形式化数学库迅速发展，已经覆盖越来越多本科、研究生乃至部分前沿数学内容。

但研究数学的前沿远远超出形式库覆盖范围。很多新概念尚未形式化，很多论文中的定义依赖语境，很多证明使用专家默认的中间步骤。让 AI 先把问题形式化，本身就可能比解决问题还难。论文指出，形式验证系统目前甚至还不能在大多数研究前沿中自动表述我们真正关心的问题。

这一判断非常强，也非常现实。形式化证明并不是把自然语言证明“翻译一下”那么简单，而是要把整个概念环境、已有引理、默认约定、对象构造和类型关系都放进机器可检查系统。前沿研究往往正在创造这些概念，尚无成熟库可用。Aletheia 选择自然语言，不是因为自然语言更严格，而是因为当前大多数研究前沿首先就是以自然语言和半形式符号存在的。若系统连问题都难以形式化，那么自然语言智能体就承担了进入研究现场的第一层接口。

自然语言模型的优势是灵活。它可以阅读论文、理解问题、提出路线、写出类似人类草稿的证明。它能在概念之间跳转，能使用尚未形式化的术语，也能与人类数学家自然对话。但这种灵活性带来不可靠性。Aletheia 的自然语言验证器，是在这两端之间寻找折中：不追求完全形式化，却尽量通过独立审查提高可靠性。

未来最有前景的方向，可能不是二选一，而是结合。自然语言智能体负责提出问题、搜索文献、构造证明草稿、寻找关键引理；形式化系统负责在可形式化区域中验证关键链条；人类数学家负责判断问题价值、修正概念、完善叙述和承担责任。Aletheia 显示的是自然语言智能体一侧的前沿推进。

十七、数学家在 AI 时代的角色：不是消失，而是变化

论文的结论非常明确：AI 更可能增强数学家，而不是取代数学家。这个判断不是安慰，而是基于当前系统能力结构得出的理性判断。

数学家的工作从来不只是证明题目。数学家选择问题，判断方向，建立概念，决定什么值得研究，解释一个结果为何重要，发现不同领域之间的深层联系，并通过论文、讲座、课程和合作把知识传递给共同体。AI 目前在某些局部证明和技术搜索上非常强，但它还缺少稳定的问题品味、长期研究计划和共同体责任。

论文第 7 节有一个很重要的判断：AI 的智力形态并不是人类数学家的缩小版或放大版，而是另一种结构。就某个具体专门领域而言，前沿模型的知识深度通常远不如领域专家；但在跨领域广度、记忆规模、并行尝试和不受疲劳限制的搜索方面，它又具有超人类特征。许多数学问题未被解决，并不一定是因为技术不可达，而可能只是因为“恰好懂相关工具的人没有时间去看”。Erdős 问题案例正体现了这一点：有些问题长期开放，是因为偏僻而非深刻。AI 的价值因此不应被理解成替代顶尖数学家的深度判断，而应被理解成一种互补性智能：它可能在广度、耐力和跨领域偶联方面弥补人类注意力的稀缺。

在 Aletheia 的案例中，人类角色至少包括：提出问题，决定是否值得询问 AI；筛选 AI 输出，判断是否有价值；核查证明细节和文献新颖性；把粗糙输出改写成可读论文；承担作者责任；把结果放回数学脉络中解释。尤其是新颖性和重要性判断，目前几乎完全依赖人类专家。一个形式上正确的解法，如果早已存在或数学意义很小，不能被包装成重大突破。

然而，数学家的日常工作方式确实可能改变。未来，一个研究者可能把 AI 当成高强度讨论伙伴：请它列出相似文献，尝试证明一个技术引理，寻找反例，比较不同一般化，检查草稿漏洞，甚至提出意想不到的跨领域工具。这样的 AI 不会自动成为作者，但会改变研究节奏。它可能把一些原本需要数周尝试的技术探索压缩为数小时，也可能让年轻研究者更快接触陌生领域。

这既令人兴奋，也要求更高判断力。AI 给出的东西越像真的，人类越需要知道如何怀疑。未来的数学家可能不仅要懂数学，还要懂如何与 AI 共同研究：怎样提问，怎样验证，怎样识别幻觉，怎样记录贡献，怎样防止无意抄袭。

十八、“潜意识抄袭”：AI 数学成果的新风险

论文中提到一个很有意思也很严肃的风险：subconscious plagiarism，即“潜意识抄袭”。这是指模型可能在预训练中接触过某个证明或思想，后来在输出中重新生成它，却没有给出正确归因。人类数学家也可能无意中重新发现已有结果，但 AI 的规模和不透明性使这个问题更突出。

当 Aletheia 独立再发现某些 Erdős 问题的已有解时，研究者检查了推理日志，确认模型不是直接从联网检索中抄来。但这并不能排除它在训练阶段间接接触过相关内容。大模型的记忆不是数据库式透明记忆，我们很难判断某个输出是现场推理、压缩记忆，还是二者混合。

这也是“独立再发现”一词必须谨慎使用的原因。对人类来说，独立再发现通常意味着研究者没有读过已有证明，凭自己的推理重新得到结论；对大模型来说，即使当前会话日志没有显示它检索到原文，也不能证明训练阶段没有吸收过相关思想。模型可能通过中间材料、转述文本、习题解答、讲义或论坛讨论间接接触过证明结构，然后在输出时以无归因的形式重新生成。这样的风险比传统抄袭更隐蔽，因为它不是简单复制文字，而是复制或重组“证明基因”。

这对学术规范提出新挑战。过去判断抄袭，通常看文本相似度、引用情况和作者行为。AI 时代，思想来源可能隐藏在模型参数中。一个 AI 生成证明如果与某篇冷门论文思路高度相似，却没有引用，责任该由谁承担？使用者是否有义务做更彻底文献检索？模型提供商是否需要记录训练来源？数学共同体如何处理“AI 再发现”？这些问题尚无定论。

论文的态度是谨慎的：对独立再发现不主张新颖性；对自主解决也承认新颖性分类只是上界，可能被后续公共审查修正。这种态度值得肯定。AI 数学成果越多，越需要这种可修正、可追踪、可质疑的发布文化。

十九、数学重要性的判断为什么不能交给外行指标

许多技术传播喜欢用“解决了几个开放问题”“写了几篇论文”“通过了多少基准题”来衡量 AI 科学能力。但数学中的“问题数量”并不等价于“研究意义”。一个开放问题可能极难，也可能只是没人注意；一篇论文可能是重大突破，也可能只是小技术补充；一个证明可能长而无关紧要，也可能短而深刻。

论文提出数学重要性等级，正是为了抵抗这种指标误导。它把可发表研究成果放在 Level 2，把顶级人类重大进展放在 Level 3，把一代人级别突破放在 Level 4。这个划分承认一个现实：大多数专业数学论文都在 Level 2，而且 Level 2 内部差异巨大。一个普通可发表结果和一篇非常有影响力的论文都可能属于 Level 2，但它们在领域中的地位完全不同。

这也提醒我们，不能因为 AI 产生了 A2 结果，就说它达到数学家水平。人类数学家的水平不是由“能否写出一篇可发表论文”单独定义的，更包含持续产出、选择方向、影响领域、培养学生、组织理论、回应审稿、与共同体互动等多维能力。AI 目前展示的是在某些局部任务上达到或接近论文级输出，而不是整体数学家能力。

从公众传播角度看，未来关于 AI 数学成果的报道至少应回答三个问题：AI 的自治程度是多少？结果的数学重要性是多少？人类验证和文献核查到什么程度？没有这些信息，任何“AI 解决数学难题”的说法都可能造成误解。

二十、这篇论文真正前沿的地方：不是“AI 会证明”，而是“AI 进入研究流程”

如果只把论文理解为“AI 又会证明数学题了”，就低估了它。它真正前沿的地方，是把 AI 从解题场景推进到研究流程场景。解题场景强调答案，研究流程强调互动、验证、文献、价值和责任。

Aletheia 的生成—验证—修订循环，模拟了研究中的草稿迭代。工具使用模拟了文献检索和外部校验。FirstProof 测试模拟了未公开研究引理的真实挑战。Erdős 数据库评估模拟了大规模开放问题筛查。自主研究等级和人机交互卡则模拟了学术共同体对贡献的规范化表达。

这些要素合在一起，构成了一个初步的 AI 数学研究生态。它不完美，却比单次模型输出更接近真实科研。未来真正改变科学研究的，可能不是某个模型在某道题上答对，而是这类系统逐渐嵌入研究者日常工作：持续提出候选引理、自动检查草稿、扫描文献遗漏、生成反例、建议一般化、协助形式化。

当然，这种生态也会带来噪音。低质量 AI 证明会增加审稿负担；夸大 AI 贡献会扰乱学术评价；大量“开放问题”被机械扫描后，可能产生许多正确但无意义的小结果。数学共同体需要建立过滤机制，否则 AI 产出速度可能超过专家验证能力。

因此，论文的规范讨论不是附属内容，而是核心内容之一。能力发展越快，越需要清晰的表达框架。否则，技术进步会被宣传噪音淹没。

二十一、术语补充：理解论文需要的几个关键概念

为了让非该领域读者更顺畅地理解，有必要集中解释若干术语。

“智能体”指的不只是一个会回答问题的模型，而是一个能够围绕目标调用工具、分解任务、循环反馈并调整行为的系统。Aletheia 就是数学研究智能体，因为它不只生成答案，还会验证、修订和使用检索工具。

“自然语言证明”是指用人类数学论文常用语言写出的证明，包含文字、公式、引用和解释。它与 Lean 等系统中的形式化证明不同。自然语言证明更灵活，但需要人类或模型进行语义判断。

“验证器”在 Aletheia 中不是严格形式验证器，而是自然语言审查模块。它评估证明是否可信、是否存在明显漏洞、是否需要修订。它可以提高可靠性，但不能完全替代专家审稿。

“推理时计算”指模型在回答单个问题时投入的计算资源。更多推理时计算通常意味着探索更多候选思路、生成更多中间推理、进行更多比较。它类似人类“多想一会儿”，但效果受到模型知识和任务结构限制。

“幻觉”指模型生成不真实或不可靠内容。在数学中，幻觉可能表现为虚构论文、错误引用、伪造定理、偷换假设、逻辑跳步、把未证结论当成已知等。

“独立集”是图论对象，表示图中一组两两不相邻的顶点。它在组合数学和统计物理中都很重要。

“L 函数”是数论中的核心对象，通常把算术信息编码为复变函数。许多深刻猜想，例如黎曼猜想及其推广，都与 L 函数有关。

“Chern 类”是刻画向量丛几何和拓扑性质的不变量，在代数几何、微分几何和拓扑中广泛使用。

“模空间”是参数化某类数学对象的空间。例如所有满足某种条件的曲线、丛或 shtuka 可以组织成一个模空间。研究模空间就是研究这些对象整体如何变化。

“Siegel 引理”是数论工具，常用于保证某些线性方程或线性关系存在小整数解。它在丢番图逼近和数论复杂度估计中很有用。

“dyadic interval”即二进区间，通常指按 2 的幂进行尺度划分的区间。它在分析、概率、算法复杂度中常用于分层估计。

“对数凸性”指一个函数取对数后是凸函数。它常用于不等式、组合计数、概率和统计物理中，能够提供强有力的单调性和插值结论。

二十二、对数学研究文化的影响：从个人天才到人机共同体

数学史上，伟大突破常常与个人天才联系在一起：黎曼、庞加莱、希尔伯特、格罗滕迪克、佩雷尔曼。可是现代数学早已不只是孤独天才的事业。它依赖共同体、预印本、研讨班、数据库、软件、形式化库和跨领域合作。AI 的加入，可能会进一步改变这种共同体结构。

Aletheia 这样的系统最可能首先改变的是“探索成本”。过去，一个数学家面对陌生技术，可能需要数周阅读才能判断是否相关；未来，AI 可以先给出候选文献、相似定理和可能路线。过去，一个技术引理可能需要合作者反复尝试；未来，AI 可以快速生成多个证明草稿供筛选。过去，一篇论文中的引用错误可能隐藏很久；未来，AI 也许能辅助核查引用是否真的支持结论。

但探索成本下降不等于判断成本消失。相反，判断会变得更重要。因为 AI 可以生成大量貌似合理的方向，人类必须决定哪些值得追，哪些只是噪音。研究者的核心能力可能从“独自产生所有想法”部分转向“在大量候选想法中识别真正有价值的结构”。这种变化类似实验科学中仪器升级带来的变化：仪器能产生更多数据，但理论判断更重要了。

数学教育也会受到影响。未来培养数学研究者，不能只训练他们在无工具环境下完成证明，也要训练他们如何与 AI 讨论数学、如何验证 AI 输出、如何追踪文献来源、如何判断贡献归属。AI 不会降低数学严谨性要求，反而会提高对元认知和批判能力的要求。

二十三、前沿意义与边界判断

论文的前沿意义可以归纳为五点。

第一，它显示自然语言推理模型已经能够在某些研究级数学问题上产生实质贡献。这是从竞赛数学向科研数学的真实推进。

第二，它证明智能体式架构比单次模型输出更适合研究任务。生成、验证、修订和工具使用构成了更接近人类研究的流程。

第三，它提供了相对系统的评估，而不只是展示成功案例。Erdős 数据库和 FirstProof 的结果让我们看到成功率、失败率和条件准确率。

第四，它清醒地区分了正确性、新颖性和重要性。许多 AI 数学传播的问题，正是把这三者混为一谈。

第五，它提出了透明记录 AI 贡献的规范框架，包括自主等级和人机交互卡。这对于未来 AI 辅助数学研究的健康发展非常重要。

与此同时，它的边界也很清楚。

第一，AI 成功仍然稀少，不能稳定解决研究级问题。第二，幻觉没有消失，只是从明显虚构转向更隐蔽误引。第三，模型容易误读问题意图，产生技术正确但数学空洞的答案。第四，目前自主成果总体还没有达到重大数学突破层次。第五，最终责任仍必须由人类承担。

这种能力与边界并存的状态，才是最真实的前沿。真正的技术成熟不是只展示高光，也要能描述失败。

二十四、从历史脉络看：AI 数学能力的三次转向

把 Aletheia 放进更长的历史中看，会发现 AI 与数学的关系大致经历了三次转向。

第一次转向是“计算化”。计算机最早进入数学，主要是帮助人类处理大规模计算。四色定理的计算机辅助证明、有限群分类中的大量验证、数值实验对混沌和动力系统的启发，都说明机器可以扩展人的计算边界。在这个阶段，机器的角色更像显微镜或望远镜：它让人类看到原本看不到的模式，但问题提出和证明结构主要仍由人类控制。

第二次转向是“形式化”。随着交互式定理证明器发展，越来越多数学命题可以被翻译成形式语言，由机器检查证明细节。形式化的意义不是让机器产生灵感，而是让证明的每一步都可检验。它对数学基础、软件可靠性和超长证明核查都有深远意义。不过形式化也有门槛：需要庞大的定义库、定理库和人工编码工作。一个研究前沿问题若没有进入形式库，机器就很难直接处理。

第三次转向就是当前正在发生的“语言化”和“智能体化”。大语言模型可以直接阅读和生成自然语言数学文本，它们不必等待所有概念被形式化，就能参与草稿级推理。智能体框架又让模型从单轮回答走向多轮研究流程。Aletheia 正处在这第三次转向的前沿：它不只是计算，不只是验证，而是在自然语言层面尝试提出和修正研究级证明。

这三次转向并不是互相替代，而是逐渐叠加。未来最强的数学 AI 很可能同时具备数值实验能力、形式化验证能力、自然语言推理能力和智能体协作能力。Aletheia 的意义在于，它展示了自然语言智能体这一环已经开始触碰专业数学研究。

二十五、研究级数学问题为何如此难以标准化评测

AI 领域习惯用基准测试评估模型能力。图像识别有 ImageNet，语言理解有各种问答集，编程有代码题库，竞赛数学也可以用奥赛题、大学题、形式化证明任务来评估。但研究数学很难被标准化，原因至少有四个。

第一，研究问题数量有限而且容易污染。一道真正开放或未公开的研究题，一旦公开解答，后续模型就可能通过搜索或训练接触到它。它不像普通选择题，可以无限复制相似样本。FirstProof 之所以珍贵，正是因为它提供了未公开解答的真实研究引理。

第二，研究问题的评分不是简单对错。有些证明大体正确但缺少技术细节，有些思路正确但需要重大补修，有些答案解决了变体而不是原题，有些引用已有定理但没有证明新内容。专家评估常常需要判断“是否可在小修后发表”“是否真正回答题意”“是否只是平凡解释”。这比竞赛打分复杂得多。

第三，研究问题高度依赖领域。一个代数几何问题可能只有少数专家能判断，一个低维拓扑问题的细节可能需要多年训练，一个组合问题的“新颖性”可能隐藏在几十年前的论文注脚里。评估 AI 输出往往比生成输出更昂贵。

第四，数学重要性无法完全量化。基准测试可以统计解决几个问题，但不能自动判断这些问题在领域中的地位。一个系统解决 10 个冷门小问题，不等于解决 1 个核心大问题。论文提出数学重要性等级，正是对这一困境的回应。

因此，研究级数学 AI 的评估必须同时依赖基准、专家审读、文献核查和透明记录。只有“模型答对了几个题”的数字远远不够。

二十六、Aletheia 的“承认失败”为什么是一种能力

在普通用户看来，一个系统不回答问题似乎是弱点。但在研究数学中，承认失败反而是一种重要能力。因为错误答案的成本很高。一个看似完整但错误的证明，可能让人类专家花数小时甚至数天检查；如果这种输出大量涌入审稿系统，会严重消耗共同体资源。

Aletheia 在 FutureMath Basic 和 FirstProof 中都有一个特点：它并不对所有问题强行给出答案。在 FutureMath Basic 中，它回答的问题少于 60%，但在回答子集上的条件准确率超过 82%；在 FirstProof 中，它对十个问题中的四个没有输出或明确没有找到解。这个策略看似保守，却更接近可用研究工具。对于数学家来说，一个助手如果只在较有把握时提出方案，比一个每次都自信胡说的助手更可信。

这也说明，AI 研究系统的目标函数不应只追求覆盖率。覆盖率高但错误多，会把验证负担转嫁给人类。研究场景更需要校准：系统应当知道何时有把握，何时需要搜索，何时应提醒用户结果不确定，何时应停止。Aletheia 的验证器机制在一定程度上承担了这种校准功能。

不过，承认失败也有边界。一个过度保守的系统可能错过创新机会。真正理想的研究助手应当能区分不同输出类型：可以把某些结果标为“完整证明”，把某些标为“可能思路”，把某些标为“反例搜索未果”，把某些标为“需要专家核查”。未来 AI 数学系统的关键不只是生成证明，而是给出可信的置信分层。

二十七、从 Aletheia 看“验证”一词的多重含义

在 AI 数学讨论中，“验证”容易被混用。论文有意识地使用自然语言验证，但这与形式验证、专家审稿、实验验证并不相同。

形式验证是最严格的一类。命题被写入形式系统，证明由机器内核逐步检查。如果通过，则逻辑层面的正确性极强。但形式验证依赖形式库和精确编码，成本高，覆盖面有限。

自然语言验证是 Aletheia 的核心。验证器阅读候选证明，判断是否有漏洞。这种验证更灵活，能处理尚未形式化的研究文本，但它仍然可能出错。它像一个快速审稿人，而不是绝对裁判。

专家验证是数学共同体最传统也最关键的方式。专家不仅检查逻辑，还判断语境、引用、新颖性和意义。论文中，Erdős 问题和 FirstProof 结果都经过人类专家评估，这使成果更可信。

实验或计算验证则常用于发现反例、检验小规模情形、支持猜想。Python 或计算机代数系统能在这里发挥作用，但不能代替一般证明。

理解这些层次很重要。AI 生成数学结果时，不能因为“验证器通过”就等于“数学定理成立并可发表”。验证器通过只是第一层过滤。对于真正研究结果，仍需要专家验证；对于可形式化的关键部分，最好进一步形式验证。Aletheia 的贡献是把自然语言验证嵌入智能体流程，而不是取代所有验证。

二十八、AI 生成论文与人类作者责任之间的张力

论文明确说明，相关论文的最终版本均由人类作者写成。即使某些数学内容由 AI 生成，作者身份仍保留给人类。这里不是形式主义，而是学术责任的基本要求。

数学论文作者要对很多事情负责。首先是证明正确性。其次是叙述完整性：读者能否理解证明，定义是否清楚，符号是否一致。第三是文献归因：哪些结果来自前人，哪些是本文新贡献，引用是否准确。第四是新颖性声明：是否真的没有已知解法，是否夸大贡献。第五是伦理和传播责任：是否误导公众，是否给出必要限制。

AI 当前不能承担这些责任。它不能参加审稿回应，不能为错误公开道歉，不能保证自己没有潜意识复制训练数据，不能在学术共同体中承担声誉后果。因此，把 AI 列为传统意义上的作者会产生责任真空。相反，使用 AI 的人类作者必须承担更高责任：不仅要检查最终证明，还要说明 AI 在何处参与、输出如何被修改、贡献是否 essential。

人机交互卡正是缓解这种张力的一种方式。它承认 AI 贡献，但不把责任转移给 AI。它让读者知道哪些关键思想来自模型，也让人类作者继续对论文负责。

二十九、从“题目答案”到“研究叙事”：数学论文写作的不可替代部分

即便 AI 给出一个正确证明，它距离一篇成熟论文仍有距离。数学论文不是证明堆砌，而是一种研究叙事。它要告诉读者：问题从哪里来？为什么重要？已有工作做到哪里？本文的贡献是什么？主要思想如何组织？证明中哪些步骤是核心？结果还可能怎样推广？

论文中的 Feng26 案例尤其说明这一点。即便核心数学内容由 AI 生成，最终论文仍由人类整理。因为 AI 输出可能给出计算和证明，却未必能准确判断读者需要怎样的背景解释，也未必能把结果放到恰当历史脉络中。论文写作的价值不只是记录答案，而是把答案嵌入可理解、可引用、可继续发展的知识结构。

这对未来 AI 辅助研究很重要。AI 可能越来越擅长生成证明草稿，但人类仍需承担“意义组织者”的角色。好的数学论文会减少读者认知负担，揭示结构，而不只是证明结论。AI 如果要进一步接近数学家水平，不仅要会证明，还要会讲清楚为什么这个证明自然、为什么这个定理值得存在。

三十、Aletheia 对“创造力”的挑战

论文谨慎指出，目前 AI 成功往往来自巧妙技术操作或广泛知识检索，而不是数学家通常意义上的创造力。但这个问题值得进一步讨论。

数学创造力至少有几种形式。第一种是技术型创造力：在已有工具中找到意想不到的组合。Aletheia 计算 eigenweights 时跨用代数组合工具，可以算作这类。第二种是结构型创造力：提出新概念、新框架，让许多旧问题变得统一。第三种是问题型创造力：提出一个真正值得研究的新问题。第四种是审美型创造力：找到特别简洁、自然、揭示本质的证明。

当前 AI 似乎最接近第一种，有时触及第四种。它能把不同领域工具组合起来，能提出让人类觉得有启发的证明路线。但它在第二、第三种上还明显不足。它很少主动建立长期理论，也很少表现出稳定的问题品味。

不过，这并不意味着 AI 没有创造力。也许我们需要更细致地描述“机器创造力”：它可能不是从主体经验和数学审美中生长出来，而是从大规模文本压缩、模式重组和推理搜索中涌现。它的创造力更像组合爆发，不像人类长期沉浸后的概念塑形。Aletheia 的案例迫使我们重新思考创造力的层次，而不是简单说“有”或“没有”。

三十一、开放问题数据库的悖论：容易被 AI 扫描，却不一定代表深度

Erdős 数据库案例还揭示了开放问题数据库的悖论。数据库让开放问题变得集中、可检索、可批量处理，这对人类和 AI 都有好处。但数据库标注的“Open”并不总是准确反映数学前沿状态。某些问题可能已经在文献中解决，只是没有同步更新；某些问题可能表述含糊；某些问题可能开放很久但实际难度不高。

AI 很擅长批量扫描这类数据库。它可以快速生成候选解、检索文献、发现状态错误。但这会带来一个传播风险：每当 AI 找到一个数据库标为开放的问题的解，就可能被包装成“AI 解决几十年难题”。实际上，这个“难题”可能只是冷门条目，数学意义有限。

因此，开放数据库非常适合评估 AI 的广度探索能力，却不适合作为数学深度的唯一标准。真正严肃的说法应当包括：问题来源、开放状态是否经专家核查、是否已有文献解、AI 解是否新颖、结果属于哪个重要性等级。论文对 Erdős 问题的谨慎分类，正是处理这一悖论的范例。

三十二、AI 研究助手可能改变的不是“顶峰”，而是“中间层”

公众关注 AI 是否能解决黎曼猜想、P/NP、霍奇猜想这类顶级问题。但短期内，AI 更可能深刻改变数学研究的中间层。

所谓中间层，是指大量技术引理、一般化尝试、文献整理、反例搜索、特殊情形验证、证明简化、跨领域工具迁移。这些工作不像世纪难题那样引人注目，却构成日常研究的大部分。Aletheia 的几个案例正集中在这个层面：计算结构常数、证明独立集多项式下界、改进复杂度引理、解决或识别数据库中的小问题、处理 FirstProof 中的研究引理。

如果 AI 能显著提升中间层效率，数学研究整体会发生变化。许多原本因技术成本太高而搁置的问题，可能被重新打开。年轻研究者可以更快测试想法。跨学科论文中的数学瓶颈可能更容易突破。审稿人也可能使用 AI 辅助检查证明。

这不如“AI 解决千禧难题”戏剧化，却更现实，也更可能影响广泛研究生态。数学的发展并不只靠少数顶峰突破，也靠大量中间层工作的积累。AI 可能首先成为这个积累过程的加速器。

三十三、为什么“紧贴前沿”不等于夸大预测

讨论 AI 与数学，很容易滑向两种极端。一种极端是技术乐观主义，认为既然模型已经能解竞赛题和部分研究题，那么全面超越数学家只是时间问题。另一种极端是保守怀疑主义，认为只要模型还会幻觉，就不值得认真讨论。论文的价值在于避开这两种极端。

紧贴前沿，意味着承认 Aletheia 的确跨过了一个门槛：它已经能在自然语言中对研究级数学问题产生可发表或接近可发表的贡献。这不是普通工具升级，而是科学发现方式的变化。忽视这一点，会低估技术演进。

但紧贴前沿也意味着不把局部成功扩大成整体结论。论文反复强调，AI 尚未达到重大数学突破层次，成功案例稀少，专家验证不可缺少。承认局限不是保守，而是科学态度。真正可靠的前沿判断，必须同时看最高能力和平均可靠性；同时看成功案例和失败统计；同时看模型输出和人类验证。

因此，本文在展开论文时，也应坚持这种平衡：既看到 Aletheia 的里程碑意义，也不把它写成“数学家终结者”。它更准确的身份，是一个正在成形的研究伙伴。

三十四、未来可能出现的数学研究工作流

虽然论文没有把重点放在应用方案上，但从它展示的机制可以推测，未来数学研究工作流可能呈现若干新形态。

第一，问题预处理。研究者提出一个问题后，AI 先帮助澄清定义、列出已知相似问题、搜索可能相关文献，并提示题面中的歧义。

第二，多路线草稿。AI 同时尝试若干证明方向，例如组合化、几何化、概率化、表示论方法、极值方法。每条路线都标注关键假设和潜在漏洞。

第三，自动反驳。AI 不只证明，也主动寻找反例，测试小规模情形，检查边界条件。很多错误猜想可以在早期被排除。

第四，验证与修订循环。候选证明经过独立验证器审查，指出缺失引理、错误引用和跳步部分，再由修订器补全。

第五，人类专家筛选。研究者根据领域判断决定哪些路线值得深入，哪些只是形式上可行但意义不大。

第六，透明记录。若 AI 贡献 essential，论文附上人机交互卡，说明关键提示和关键输出。

第七，必要时形式化。对于核心引理，若已有合适形式库，可进一步形式验证，提升可靠性。

这样的工作流中，AI 是强力加速器，但人类仍是方向选择者、意义判断者和责任承担者。Aletheia 论文展示的，正是这个工作流的早期版本。

三十五、普通读者如何辨别 AI 数学新闻的含金量

面对未来越来越多“AI 解决数学问题”的新闻，普通读者可以从几个角度判断其含金量。

第一，看问题等级。它是竞赛题、教材练习、博士练习、数据库开放问题、研究引理，还是领域核心猜想？不同等级差别巨大。

第二，看 AI 贡献。AI 是查文献、写代码、补证明、提出关键想法，还是完整生成核心证明？贡献不同，意义不同。

第三，看人类验证。是否有领域专家审查？是否经过同行评议？是否公开原始提示和输出？是否承认不确定性？

第四，看新颖性。问题是否真的未解决？是否可能已有文献解？作者是否做过充分文献核查？

第五，看重要性。即使新而正确，它是否达到论文级？是否只是小技巧？是否推动理论？

第六，看传播语言。如果报道只使用“震惊”“首次”“取代数学家”这类词，而不说明上述信息，就应保持谨慎。

论文主动提供自治程度、数学重要性和交互记录，正是高质量传播应有的方向。

三十六、面向数学共同体的长期问题

Aletheia 的出现也给数学共同体提出若干长期问题。

第一，审稿系统如何应对 AI 生成论文增加？如果大量低质量 AI 草稿涌入预印本和期刊，专家时间会被消耗。共同体可能需要新的初筛机制和 AI 使用声明规范。

第二，论文署名规则如何演化？如果 AI 贡献达到传统合作者水平，但不能承担责任，如何在致谢、贡献声明和交互卡之间找到平衡？

第三，形式化验证会不会成为某些领域的新标准？当 AI 生成证明越来越多，人类审稿压力上升，核心结果形式化可能变得更受重视。

第四，数学教育如何训练验证能力？学生不仅要学会证明，也要学会识别 AI 证明中的隐蔽漏洞。

第五，学术评价如何避免奖励夸大 AI？如果声称 AI 参与能获得更多关注，研究者可能有动机过度强调 AI 贡献。透明规范可以减少这种扭曲。

这些问题短期内不会有简单答案。但论文至少给出了一个起点：公开提示与输出，区分自治程度与数学意义，承认专家共同体的最终判断权。

三十七、对“自主数学研究”概念本身的再理解

“自主数学研究”这个短语容易让人误解，以为系统已经像人类研究者一样拥有自发兴趣、长期目标和学术责任。论文中的“自主”其实更窄，主要指在给定问题后，AI 在核心数学内容生成中是否需要人类干预。

因此，Aletheia 的自主性是任务内自主，而不是主体性自主。它可以在一个明确问题上自主生成证明，可以自主修订候选解，但它并不自主决定研究纲领，不自主承担学术责任，也不自主进入数学共同体对话。这个区分非常重要。

未来如果 AI 系统能够长期维护研究计划，主动提出新猜想，组织系列论文，与多个专家持续合作，甚至自动形式化并提交结果，那“自主”的含义还会变化。但就当前论文而言，自主数学研究更准确地说是“核心证明生成的高度自动化”。

这种谨慎定义有助于避免概念膨胀。我们可以承认 Aletheia 在某些任务上达到 essentially autonomous，同时仍然认为它不是完整意义上的数学家。

三十八、数学之美与 AI 输出之间的距离

数学研究不只追求正确，也追求美。一个证明可能因为短、自然、统一、揭示本质而被认为美；一个理论可能因为连接多个领域而令人震撼。AI 输出目前有时能给出优雅解法，但它是否理解这种美，仍是开放问题。

Aletheia 在 eigenweights 案例中使用代数组合学工具，被原作者认为优于原证明。这说明 AI 可能偶然或通过搜索找到更优雅路线。但数学之美不只是局部技巧，还包括对整体结构的把握。人类数学家会问：这个证明为什么自然？它是否暗示更深范畴结构？它能否解释其他现象？它的语言是否值得成为领域标准？

AI 当前更擅长生成“可用证明”，不一定擅长解释“为什么这是正确的概念”。这并不是永久局限，但它提醒我们，数学研究的核心体验仍深深嵌入人类理解和审美共同体。未来 AI 也许会帮助我们发现新的美，但这种美仍需要人类去辨认、命名和传承。

三十九、这篇论文给 AI 前沿研究的一个方法论启示

从方法论上看，Aletheia 的论文提示我们，未来评估高级 AI 系统时，不能只看模型本体，也要看模型所处的流程。过去人们常问：“某个模型会不会做这道题？”现在更应追问：“在怎样的工具、验证、修订和人类监督流程下，它能产生怎样等级的研究贡献？”同一个基础模型，如果只做一次性回答，可能表现平平；如果放入多轮生成、独立验证、检索增强和错误修复流程中，就可能跨过研究级门槛。

这意味着 AI 能力越来越具有系统性。模型参数当然重要，但提示结构、工具权限、验证标准、终止条件、候选解筛选、人类反馈方式同样重要。Aletheia 的成功不是单点能力，而是系统工程与数学推理结合的产物。对于研究者来说，这也改变了比较模型的方式：不能简单比较两个聊天窗口的输出，而要比较完整研究管线在同一问题集、同一时间窗口、同一人工介入规则下的表现。

这种方法论启示也适用于其他科学领域。化学、物理、材料、理论计算机科学、经济学中，许多问题同样需要文献检索、假设生成、计算验证和专家判断。Aletheia 之所以值得关注，不只是因为它用于数学，而是因为数学提供了一个相对清晰的高难推理试验场。若在数学中都必须重视验证和透明，在经验科学中更不可能绕过这些环节。

四十、回到人：为什么“人性化写作”在 AI 数学时代更重要

写作这类文章时，不能只堆叠术语。因为 AI 与数学研究的关系，最终关乎人的理解方式。数学家面对一个 AI 证明时，不只是检查公式，还会经历一种很具体的心理过程：先惊讶，再怀疑，然后逐行核查，最后判断它是否真的抓住了问题本质。普通读者面对这类新闻时，也会在兴奋和不安之间摇摆：一方面期待科学发现被加速，另一方面担心人的创造性被贬低。

因此，对 Aletheia 的介绍应当尽量避免两种冷冰冰的写法。一种是把它写成纯技术指标集合，仿佛只要列出成功率、计算量和表格，就解释完了全部意义。另一种是把它写成科幻叙事，仿佛数学家马上要被替代。更合适的写法，是把它放回真实研究情境中：研究者如何提出问题，模型如何尝试，错误如何出现，专家如何判断，成果如何被分类，公众又该如何理解。

这也是论文最值得学习的地方。它既有前沿技术野心，又保持克制；既展示成功，又公开失败；既强调 AI 的潜在价值，又坚持人类责任。这样的叙述方式本身就是 AI 时代科学传播需要的范式。真正的人性化，不是把复杂问题简单化，而是让读者在复杂性中仍能看见清楚的线索：AI 很强，但不神秘；数学很难，但不是不可理解；未来正在打开，但仍需要人的判断、诚实和耐心。

结语：Aletheia 之后，数学研究将怎样继续

“Aletheia”这个名字来自希腊语，常被译为“真理”或“显现”。用它命名数学研究智能体，多少带有一种象征意味：数学追求的正是真理，而 AI 现在开始参与这种追求。但这并不意味着真理可以自动生成，也不意味着机器输出天然可信。数学之所以特殊，正在于它同时要求自由想象和严格证明；同时需要个人洞察和共同体审查；同时承认形式逻辑，又依赖人类判断意义。

论文最可贵的地方，是没有把 AI 描绘成神话。它展示了 Aletheia 的惊人能力：能自主完成 eigenweights 这样的专业计算，能在人机协作中提出关键路线，能在 Erdős 问题中筛出若干有意义解法，能在 FirstProof 中解决多个研究级引理。它也展示了 Aletheia 的不足：大多数候选解仍会失败，幻觉仍然存在，问题误读仍然常见，结果重要性仍需专家判断。

因此，这篇论文更像一扇门，而不是终点。门的一边，是过去我们熟悉的 AI 解题系统；门的另一边，是 AI 参与科学研究的新世界。这个世界不会简单地让数学家失业，也不会自动带来无穷定理。它会让研究变得更快、更密集、更需要判断，也更需要规范。

未来的数学家可能会经常与 AI 对话，但真正决定数学方向的，仍然是人类共同体对深度、意义和美感的判断。AI 可以帮助我们更快穿过技术迷雾，却不能替我们决定哪座山值得攀登。Aletheia 的意义，正在于它让我们第一次如此清楚地看到：机器已经不只是站在数学研究门外解竞赛题，而是开始走进研究室，坐在桌边，提出一些值得认真检查的想法。它还不是数学家，却已经不再只是计算器。它是一个新型研究伙伴的早期形态，而我们需要用严谨、透明、克制又开放的方式，学会与它共同面对数学的未来。