国产大模型“第一”终于换人了，但我看到了比排名更恐怖的东西

Qwen3.7是不是“国产第一”其实没那么重要。重要的是它指出了一个方向：大模型正在从一个“会聊天的东西”变成一个“能干活的数字员工”。你不再需要跟它一句一句对话，你只需要给它一个任务，然后去睡觉，醒来验收就行。那个35小时的实验最让我震撼的，不是10倍的性能提升，而是它证明了AI可以独立、稳定、长时间地完成复杂工程任务。这才是真正改变游戏规则的东西。至于国产第一的交椅它能坐多久？不好说，毕竟Ki

亿智扬AI

73人浏览 · 2026-05-28 15:45:22

亿智扬AI · 2026-05-28 15:45:22 发布

国产大模型“第一”终于换人了，但我看到了比排名更恐怖的东西

作品声明：个人观点、仅供参考

在这里插入图片描述

阿里发了新模型Qwen3.7-Max，登顶国产第一。

说句大实话，我第一反应是：“又来一个第一”。过去两年，“国产第一”这个词已经被各家轮流用过一遍了，听得人快麻木了。

但我花了三天把所有评测数据和那个35小时的实验细节看完之后，想法变了。

这次这个“第一”，含金量不太一样。

先看硬成绩：真金白银的榜单

先聊几个实打实的数字，省得你们自己去翻。

全球大模型盲测Arena总榜，Qwen3.7-Max把Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1这些老对手全压下去了，跟GPT、Claude、Gemini这些国际顶尖模型挤进了同一个梯队。

编程能力更强。Code Arena最新榜单上1541分，全球第四，国产唯一突破1540分的模型，仅次于Claude的那几个版本。Terminal Bench 2.0得分69.7，超过DeepSeek-v4-pro-Max和Claude-Opus4.6。

推理能力呢？GPQA Diamond、HLE、HMMT 2026这些硬核评测全部超过了Claude-Opus4.6和所有国产模型。

光看这些数据，Qwen3.7拿“国产第一”确实没毛病。

但光凭跑分还坐不稳这把交椅。真正让我觉得它配这个位置的，是一个实验。

35个小时，没有人管它

阿里在发布的时候讲了一个实验，我反复看了三遍，越看越觉得恐怖。

他们把Qwen3.7扔到了一块它从没见过的AI芯片上——平头哥真武M890。任务是优化一个AI计算的内核，让它跑得更快。

关键信息来：没有硬件文档、没有性能分析数据、没有参考代码，就给了它一份任务说明、一段参考实现和一个评测脚本。然后人就走了，让它自己干。

35个小时之后，Qwen3.7干完了。它自己写代码、自己编译、自己跑测试、自己看结果、自己优化、再重来——432次内核评估、1158次工具调用，全程没人干预。最终这个内核的性能，比官方参考实现快了10倍。

更离谱的是，干到第30个小时的时候，它还自己发现了一个新的优化点，主动发起了一次架构重设计。

35个小时，独立完成一个专业工程师需要一两周才能搞定的复杂任务。

这已经不是“回答问题”了，这是“执行任务”。这就是Qwen3.7登顶的第一张底牌。

不再比“说得好”，比的是“干得成”

你仔细看会发现，这次Qwen3.7的打法和之前的模型完全不同。

以前大模型发布会最爱说什么？参数多少、写诗漂不漂亮、对话流不流畅。说白了就是比谁“说得好”。

Qwen3.7这次直接换赛道了。通义大模型的负责人在发布会上讲了一句特别实在的话：“过去我们追求模型说得好，现在要求模型做得到”。

用行话说这叫“对齐任务目标”——模型的价值不在于回答是否让你满意，而在于任务能不能完成。

所以你看Qwen3.7的所有宣传点：编程能力、工具调用能力、跨框架兼容能力、长程任务处理能力。没一句废话，全是“干活”相关的能力。

为什么阿里敢这么押注？

因为他们看到了一个趋势：大模型正在从“聊天工具”变成“数字员工”。 谁能让模型稳定地、长时间地、不出错地干活，谁就是下一阶段的赢家。Qwen3.7就是这个判断下憋出来的产品。

第二张底牌：不被任何框架“绑架”

还有一个细节很容易被忽略，但它决定了Qwen3.7在实际工程中能走多远。

很多大模型有个毛病：在某一个开发框架下表现很好，换一个框架就拉胯。这叫“过拟合”——对单一环境过于依赖，换个场景就崩。

Qwen3.7针对这个毛病做了底层架构的重新设计，叫什么“任务-运行框架-验证器正交解耦”。说人话就是：不管你是用Claude Code、OpenClaw还是Qwen Code，它都能稳定发挥，不掉链子。

这意味着一件事：Qwen3.7不只是阿里自己的玩具，它希望成为所有人搭Agent时的“通用发动机”。你不用为了用它换个框架，它兼容你现有的所有工作流。

这是它登顶的第二张底牌：不是最会考试的，而是最能在真实工作环境里稳定干活的。

第三张底牌：三个月三次迭代的恐怖节奏

最后聊一个可能被忽略但特别重要的事。

Qwen3.7是三个月内的第三次大版本更新。3月20日Qwen3.5，4月20日Qwen3.6，5月20日Qwen3.7。一月一更，雷打不动。

这意味着什么？说明阿里在大模型研发上已经跑通了“高速迭代”的工程能力。不是偶尔憋个大招出来秀一下，而是能像流水线一样稳定产出新版本。这种交付节奏，本身就是极高的竞争壁垒。

对手还在消化上一个版本，你下一代已经发出来了。持续下去，差距只会越拉越大。

最后要说：第一不第一，不重要了

所有数据和技术拆完，最后说句得罪人的话：Qwen3.7是不是“国产第一”其实没那么重要。

重要的是它指出了一个方向：大模型正在从一个“会聊天的东西”变成一个“能干活的数字员工”。你不再需要跟它一句一句对话，你只需要给它一个任务，然后去睡觉，醒来验收就行。

那个35小时的实验最让我震撼的，不是10倍的性能提升，而是它证明了AI可以独立、稳定、长时间地完成复杂工程任务。这才是真正改变游戏规则的东西。

至于国产第一的交椅它能坐多久？不好说，毕竟Kimi、DeepSeek、GLM都不是吃素的。

但有一点是确定的：从Qwen3.7开始，模型好不好不再看它“说了什么”，而是看它“干成了什么”。 这把交椅，只留给能干活的人。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek 工具调用超时治理：何时重试、何时熔断？

DeepSeek技术社区

OpenAI兼容网关接入DeepSeek：字段映射与错误码对齐的工程实践

DeepSeek技术社区

投机解码上线前必问：你的延迟账本从首token还是整句开始算？

DeepSeek技术社区

所有评论(0)

查看更多评论

亿智扬AI

@maxDream0531

已为社区贡献1条内容

国产大模型“第一”终于换人了，但我看到了比排名更恐怖的东西

亿智扬AI

国产大模型“第一”终于换人了，但我看到了比排名更恐怖的东西

先看硬成绩：真金白银的榜单

35个小时，没有人管它

不再比“说得好”，比的是“干得成”

第二张底牌：不被任何框架“绑架”

第三张底牌：三个月三次迭代的恐怖节奏

最后要说：第一不第一，不重要了

所有评论(0)

温馨提示：您尚未绑定手机号

亿智扬AI