开源大模型新标杆！通义千问Qwen3-Next-80B-A3B评测：性能直逼22B！

通义千问发布架构级更新的A3B模型，成为开源模型新守门员。新版在工作记忆、字符处理和多轮能力方面显著提升，推理能力直逼更大规模的22B模型。然而，新推理版本Token消耗增加74%，使用成本翻倍。新模型仍存在计算误差改进不明显等缺陷，但整体性能大幅提升，展现了通义团队在开源道路上的快速迭代能力，标志着开源模型与闭源顶尖模型的差距进一步缩小。

拥抱AGI

2229人浏览 · 2025-09-13 14:02:47

拥抱AGI · 2025-09-13 14:02:47 发布

简介
通义千问发布架构级更新的A3B模型，成为开源模型新守门员。新版在工作记忆、字符处理和多轮能力方面显著提升，推理能力直逼更大规模的22B模型。然而，新推理版本Token消耗增加74%，使用成本翻倍。新模型仍存在计算误差改进不明显等缺陷，但整体性能大幅提升，展现了通义团队在开源道路上的快速迭代能力，标志着开源模型与闭源顶尖模型的差距进一步缩小。

短的结论：开源模型新守门员诞生

基本情况：

没想到吧，Qwen3系列还有新货，而且并不是中期小改，而是架构级更新的Next版本。从进步幅度来看，这个版本叫Qwen3.5也没问题，但通义或许觉得训练方法，数据方面并没有革命性变化，所以沿用了Qwen3的名号。

官方如此保守，性能却一点也不保守，A3B以娇小身躯，推理能力直逼大哥A22B，甚至Token消耗还更低。这让老的A3B-2507显得像去年产物，但实际二者只间隔了40天。不过目前百炼平台给的tps偏低，导致新A3B的耗时偏高一些，但放在相同性能档位的模型中来看，也并不突出，可用性还是很高。

但推理版本情况就没那么乐观了，性能虽然超过了老A3B，但Token开销暴涨74%，再搭配百炼定价也涨到10块每百万，使得使用成本涨一倍多，超过了目前开源最强的DeepSeek V3.1，这就略显尴尬了。而且推理版本的缺陷也不容忽视，下文有详细叙述。

逻辑成绩：

*1 表格为了突出对比关系，仅展示部分可对照模型，不是完整排序。

*2 题目及测试方式，。题目有更新，增加#48、#49题。其中instruct模型使用推荐温度0.7，thinking使用推荐温度0.6。

*3 完整榜单更新在Github(https://github.com/malody2014/llm_benchmark)

以下称A3B-Instruct为新版，称A3B-Thinking为新推理版，称A3B-2507为旧版。

亮点：

工作记忆：新版可以在较长的推理过程中，保持良好的上下文记忆，这对涉及大量上文检索的推理问题十分有利，如#4魔方旋转，#39火车订票，#40代码推导等，新版得分显著更高，甚至#39题，新版是目前第一个拿到满分的模型，之前GPT-5、Gemini 2.5 Pro等都错了一个case。此题并不需要太高智力，但需要极致的细心。不过新版仅满分一次，并不稳定。而O家和G家的模型可以稳定保持在接近满分。新推理版也同样有此优势，但旧推理版这方面已不弱，所以相比之下，分数提升较小。
字符处理：新版对字符的分辨和处理能力有显著改善，#48是考察相关能力但较为基础的新题，新版得分接近满分，在目前追踪的44个模型中排第9，在他之上的只有推理模型。而需要结合一定推理强度的问题上，如#46字母组合，#37三维投影等，新版也能拿一半分数，表现就没那么突出，和整体得分相近的K2，Qwen3-235B等相近。但新推理版在这方面比旧版反而劣化，#48旧推理版有着稳定且较高得分，新推理版最差时几乎case全灭。
多轮能力：受工作记忆改进的红利，新版在多轮的稳定性，低幻觉上也显著好于旧版，猜词游戏可以在高于20轮对话中保持所有上文记忆，不断缩小猜测范围。而旧版在超过10轮后，重复提问和思维发散的概率大增。不过要指出，新版的提问效率并不高，同样猜出答案，K2和Gemini 2.5 Pro两个多轮优秀的模型通常需要的轮数更少。新版更像一个记忆力好，细心，但没那么聪明的人。这与前面提到的其他方面表现也一致。新推理版的多轮能力情况不同，给足推理预算的前提下，新推理版可以更好的组织提问，但由于推理Token消耗过多，几轮下来忘记原始提问约束的概率也更高。

不足：

缺陷继承：计算误差方面，新版相比旧版改进不明显，相关题目上，表现均相似，如#22连续计算，#38函数交点，#42年报总结中的数字计算部分。新版偶尔极限分更高，但下限分也更低，整体波动大。这一点也反映在新版的中位差距高于旧版。此外，指令遵循，长文幻觉方面，新版也基本继承旧版的缺陷，情况相似。新推理版情况稍好，主要是靠思维链克服了部分问题，跟病根未除，像#42年报总结，新推理版依然无法稳定计算所有需要的数据，甚至有些错的很离谱。

赛博史官曰：

都说乱拳打死老师傅，何况是训练有素，有备而来呢。开了窍的通义团队，在开源的道路上已经走的相当远，他们前方只剩为数不多的世界头部闭源模型，发布了名噪一时的Qwen3之后，他们一刻也没有停留，继续保持高频次的迭代和发布。照这速度下去，拿到世界级SOTA似乎也可以预见。

但也并非没有隐忧，新模型中还随处可见蒸馏的痕迹，不那么干净的数据，以及高智力洞察力不足，都揭示了Qwen模型与世界第一的差距并没有看起来那么小。

数据，以及高智力洞察力不足，都揭示了Qwen模型与世界第一的差距并没有看起来那么小。

但至少此时此刻，新的A3B成为大模型守门员，必将在各类应用场景中迅速普及。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述