Qwen3 技术报告精读:阿里通义千问第三代架构全解析

235B总参数但只激活22B——Qwen3这个设计让同月发布的DeepSeek V4有点尴尬。如果你正在选型开源模型,这组数据值得认真看。

模型 AIME 24 Codeforces Arena-Hard
Qwen3-235B-A22B 85.1 2056 95.6
DeepSeek V3 79.8 1950 91.2

本文基于Qwen3官方技术报告(arXiv:2505.09388),逐层拆解。


一、为什么要认真看 Qwen3

大模型迭代越来越快,但技术报告值得细读的不多。Qwen3 这一代有几个地方确实有意思,不只是堆参数。

先看一组基准数据:

模型 AIME 24(数学推理) Codeforces Rating Arena-Hard AlignBench
Qwen3-235B-A22B 85.1 2056 95.6 8.94
DeepSeek V3 79.8 1950 91.2 8.72
GPT-4o(参考) 74.6 1800 87.0 8.50

235B 总参数每次只激活 22B,这个性价比在开源模型里目前是最高的。


二、架构设计:Dense 与 MoE 双线并行

Qwen3 没有走单一架构路线,而是同时发布了 Dense 和 MoE 两个序列,覆盖不同的部署场景。

2.1 模型规模一览

Dense 序列(全参数激活):

模型 参数量 适用场景
Qwen3-0.6B 6亿 端侧部署、嵌入式
Qwen3-1.7B 17亿 轻量级对话
Qwen3-4B 40亿 单卡推理
Qwen3-8B 80亿 通用推理
Qwen3-14B 140亿 高性能推理

MoE 序列(稀疏激活):

模型 总参数 激活参数 专家数 每步激活专家数
Qwen3-30B-A3B 300亿 30亿 128 4
Qwen3-235B-A22B 2350亿 220亿 128 8

MoE 的核心优势:总参数大,知识容量大;激活参数小,推理成本低。Qwen3-235B-A22B 的激活参数量只相当于一个 22B 的 Dense 模型,但效果接近 235B Dense。

2.2 Think/No-Think 统一框架

这是 Qwen3 最值得关注的设计。

过去要用推理模型,得单独部署一个思考模式的模型,普通对话又得换一个。Qwen3 把两种模式合并到同一个模型里,由系统根据任务复杂度自动决定是否启用思考链。

Think 模式: 模型在回答前进行多步推理,生成中间思考步骤,适合数学、代码、复杂逻辑问题。

No-Think 模式: 直接输出答案,适合闲聊、简单问答、翻译等不需要深度推理的任务。

实现方式是在训练阶段同时提供两种数据:带长链思考推理步骤的样本,和不带推理步骤的直接回答样本。后训练阶段通过 RL 让模型学会根据任务类型自适应切换。

这个设计对部署方来说很实用——一套模型服务所有场景,不用维护两个实例。

2.3 思考预算机制(Thinking Budget)

Qwen3 还引入了"思考预算"概念:用户可以设定模型思考的最大 token 数,或者让模型自适应分配。报告里提到,当回答过长时,模型会自动插入提示并缩短输出,这个机制在实际应用中对控制推理成本很有帮助。


三、训练工程:36T tokens 是怎么炼出来的

3.1 训练三阶段

Qwen3 的预训练分三个阶段,每个阶段的侧重点不同:

S1 通用阶段(30T+ tokens):

  • 上下文窗口:4K
  • 数据以网页文本、书籍、多语言语料为主
  • 目标:建立基础语言能力和通用知识

S2 推理阶段(~5T tokens):

  • 提高 STEM、编程、逻辑推理类数据的比例
  • 引入更多合成数据(由强模型生成的高质量推理链)
  • 上下文窗口开始扩展

长上下文阶段(数千亿 tokens):

  • 采用 ABF(Adaptive Base Frequency)+ YARN + DCA 技术将上下文扩展到 32K
  • 侧重长文档理解、长程推理任务

3.2 数据规模与语言覆盖

维度 数据
总 Token 数 36T
语言覆盖 119 种(Qwen2.5 仅 29 种)
数据来源 网页、书籍、代码、STEM 文献、多模态提取(Qwen2.5-VL 从 PDF 提取并清洗)

语言覆盖从 29 种扩展到 119 种,这个扩展幅度意味着 Qwen3 在多语言任务上的表现会有明显提升,尤其是小语种。

3.3 后训练:Long-CoT + 双阶段 RL

Qwen3 的后训练分两步:

第一步:Long-CoT Cold Start

  • 用 SFT 做冷启动,让模型学会生成长推理链
  • 损失函数对思考步骤赋予更高权重(loss_weights=[0.5, 1.0]

第二步:General RL

  • 采用 20+ 能力维度的 Rule-based + Model-based 混合奖励
  • Rule-based:数学、代码等有标准答案的任务,用确定性规则评分
  • Model-based:开放生成任务,用奖励模型评分

这种混合 RL 设计比纯 RLHF 更稳定,也比纯 SFT 泛化能力更强。

3.4 强到弱蒸馏(Strong-to-Weak Distillation)

Qwen3 的小模型(0.6B ~ 14B Dense)不是从头训练的,而是通过蒸馏从大模型中迁移知识。

具体做法:用 Qwen3-235B-A22B 生成高质量推理链数据,再用这些数据去训练小模型。报告显示,蒸馏后的小模型效果明显优于同等规模的 Base 模型,尤其是在推理任务上。

这个策略的好处:小模型的训练成本大幅降低,同时性能接近参数量更大的模型。


四、开源与商用:Apache 2.0 意味着什么

Qwen3 全部模型(0.6B ~ 235B-A22B)均采用 Apache 2.0 许可证开源,这意味着:

  • 可以商用,不需要开源衍生作品,没有月活用户数限制
  • 对比 Llama 3 的 Llama3 License(有商用限制),Apache 2.0 对专利的保护更明确
  • DeepSeek V3 是 MIT,也宽松,但 Apache 2.0 在企业合规层面更友好
  • GPT、Claude 完全闭源,不在比较范围内

企业可以放心把 Qwen3 用在自己的产品里,不用担心许可证风险。

GitHub 地址:https://github.com/QwenLM/Qwen3


五、Benchmark 深度解读

5.1 数学推理:AIME 24(85.1)

AIME(American Invitational Mathematics Examination)是高中数学竞赛题,需要多步符号推理。Qwen3-235B-A22B 得分 85.1,超过 DeepSeek V3 的 79.8。

AIME 满分 100(15 道题,每道最多 7 分,通常按正确率换算),85.1 大致对应做对 12-13 道的水平,接近人类奥赛选手的平均水平。

5.2 代码能力:Codeforces Rating(2056)

Codeforces 是一个竞争性编程平台,Rating 反映模型在算法竞赛中的水平。2056 分大致对应 Codeforces 的 Candidate Master 级别(门槛 2100),已经超过绝大多数程序员。

5.3 对齐能力:AlignBench v1.1(8.94)

AlignBench 是清华提出的中文对齐评测集,考察模型的中文理解、逻辑推理、安全性等维度。8.94 是目前开源模型的最高分。


六、与 DeepSeek V3 的核心差异

维度 Qwen3-235B-A22B DeepSeek V3
激活参数 22B 37B
上下文窗口 32K 128K
语言覆盖 119 种 ~中文+英文为主
Think 模式 统一框架 需单独部署 R1
开源协议 Apache 2.0 MIT
训练数据 36T 14.8T

Qwen3 激活参数更小(推理更快)、语言覆盖更广、Think 模式集成更优雅;DeepSeek V3 上下文更长、训练数据更聚焦。


七、部署建议

根据不同场景,推荐以下选型:

场景 推荐模型 理由
端侧/嵌入式 Qwen3-0.6B / 1.7B 参数量极小,可在移动端运行
单卡推理(24GB 显存) Qwen3-8B / 14B 显存占用适中,推理速度快
高并发服务 Qwen3-30B-A3B 激活参数仅 3B,吞吐量高
最高精度要求 Qwen3-235B-A22B 效果最强,激活 22B 推理成本可控

八、你用 Qwen3 吗?

Qwen3 这代有几点值得认真看,我自己在做模型选型时会把它和 DeepSeek V3 放在一起对比:

  1. Think/No-Think 统一框架是架构上的真正创新,不是简单的参数堆量
  2. 36T tokens 训练数据加 119 种语言覆盖,在数据规模和覆盖面上大幅领先上一代
  3. Apache 2.0 完全开源,对企业用户最友好
  4. 强到弱蒸馏让小模型效果大幅提升,端侧部署的想象空间变大了

你如果正在做开源模型选型,Qwen3-235B-A22B 和 DeepSeek V3 是目前最值得对比的两个。你更倾向哪个?欢迎评论区聊聊选型逻辑——是看效果、看成本,还是看开源协议?下一篇聊 GLM-5。


参考资料:Qwen3 Technical Report (arXiv:2505.09388),阿里通义千问团队,2026年5月

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐