国产大模型“第一”终于换人了,但我看到了比排名更恐怖的东西

作品声明:个人观点、仅供参考

在这里插入图片描述

阿里发了新模型Qwen3.7-Max,登顶国产第一。

说句大实话,我第一反应是:“又来一个第一”。过去两年,“国产第一”这个词已经被各家轮流用过一遍了,听得人快麻木了。

但我花了三天把所有评测数据和那个35小时的实验细节看完之后,想法变了。

这次这个“第一”,含金量不太一样。

先看硬成绩:真金白银的榜单

先聊几个实打实的数字,省得你们自己去翻。

全球大模型盲测Arena总榜,Qwen3.7-Max把Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1这些老对手全压下去了,跟GPT、Claude、Gemini这些国际顶尖模型挤进了同一个梯队。

编程能力更强。Code Arena最新榜单上1541分,全球第四,国产唯一突破1540分的模型,仅次于Claude的那几个版本。Terminal Bench 2.0得分69.7,超过DeepSeek-v4-pro-Max和Claude-Opus4.6。

推理能力呢?GPQA Diamond、HLE、HMMT 2026这些硬核评测全部超过了Claude-Opus4.6和所有国产模型。

光看这些数据,Qwen3.7拿“国产第一”确实没毛病。

但光凭跑分还坐不稳这把交椅。真正让我觉得它配这个位置的,是一个实验。

35个小时,没有人管它

阿里在发布的时候讲了一个实验,我反复看了三遍,越看越觉得恐怖。

他们把Qwen3.7扔到了一块它从没见过的AI芯片上——平头哥真武M890。任务是优化一个AI计算的内核,让它跑得更快。

关键信息来:没有硬件文档、没有性能分析数据、没有参考代码,就给了它一份任务说明、一段参考实现和一个评测脚本。然后人就走了,让它自己干。

35个小时之后,Qwen3.7干完了。它自己写代码、自己编译、自己跑测试、自己看结果、自己优化、再重来——432次内核评估、1158次工具调用,全程没人干预。最终这个内核的性能,比官方参考实现快了10倍。

更离谱的是,干到第30个小时的时候,它还自己发现了一个新的优化点,主动发起了一次架构重设计。

35个小时,独立完成一个专业工程师需要一两周才能搞定的复杂任务。

这已经不是“回答问题”了,这是“执行任务”。这就是Qwen3.7登顶的第一张底牌。

不再比“说得好”,比的是“干得成”

你仔细看会发现,这次Qwen3.7的打法和之前的模型完全不同。

以前大模型发布会最爱说什么?参数多少、写诗漂不漂亮、对话流不流畅。说白了就是比谁“说得好”。

Qwen3.7这次直接换赛道了。通义大模型的负责人在发布会上讲了一句特别实在的话:“过去我们追求模型说得好,现在要求模型做得到”

用行话说这叫“对齐任务目标”——模型的价值不在于回答是否让你满意,而在于任务能不能完成。

所以你看Qwen3.7的所有宣传点:编程能力、工具调用能力、跨框架兼容能力、长程任务处理能力。没一句废话,全是“干活”相关的能力。

为什么阿里敢这么押注?

因为他们看到了一个趋势:大模型正在从“聊天工具”变成“数字员工”。 谁能让模型稳定地、长时间地、不出错地干活,谁就是下一阶段的赢家。Qwen3.7就是这个判断下憋出来的产品。

第二张底牌:不被任何框架“绑架”

还有一个细节很容易被忽略,但它决定了Qwen3.7在实际工程中能走多远。

很多大模型有个毛病:在某一个开发框架下表现很好,换一个框架就拉胯。这叫“过拟合”——对单一环境过于依赖,换个场景就崩。

Qwen3.7针对这个毛病做了底层架构的重新设计,叫什么“任务-运行框架-验证器正交解耦”。说人话就是:不管你是用Claude Code、OpenClaw还是Qwen Code,它都能稳定发挥,不掉链子

这意味着一件事:Qwen3.7不只是阿里自己的玩具,它希望成为所有人搭Agent时的“通用发动机”。你不用为了用它换个框架,它兼容你现有的所有工作流。

这是它登顶的第二张底牌:不是最会考试的,而是最能在真实工作环境里稳定干活的。

第三张底牌:三个月三次迭代的恐怖节奏

最后聊一个可能被忽略但特别重要的事。

Qwen3.7是三个月内的第三次大版本更新。3月20日Qwen3.5,4月20日Qwen3.6,5月20日Qwen3.7。一月一更,雷打不动。

这意味着什么?说明阿里在大模型研发上已经跑通了“高速迭代”的工程能力。不是偶尔憋个大招出来秀一下,而是能像流水线一样稳定产出新版本。这种交付节奏,本身就是极高的竞争壁垒。

对手还在消化上一个版本,你下一代已经发出来了。持续下去,差距只会越拉越大。

最后要说:第一不第一,不重要了

所有数据和技术拆完,最后说句得罪人的话:Qwen3.7是不是“国产第一”其实没那么重要。

重要的是它指出了一个方向:大模型正在从一个“会聊天的东西”变成一个“能干活的数字员工”。你不再需要跟它一句一句对话,你只需要给它一个任务,然后去睡觉,醒来验收就行。

那个35小时的实验最让我震撼的,不是10倍的性能提升,而是它证明了AI可以独立、稳定、长时间地完成复杂工程任务。这才是真正改变游戏规则的东西。

至于国产第一的交椅它能坐多久?不好说,毕竟Kimi、DeepSeek、GLM都不是吃素的。

但有一点是确定的:从Qwen3.7开始,模型好不好不再看它“说了什么”,而是看它“干成了什么”。 这把交椅,只留给能干活的人。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐