Qwen3 技术报告精读：阿里通义千问第三代架构全解析

235B总参数但只激活22B——Qwen3这个设计让同月发布的DeepSeek V4有点尴尬。如果你正在选型开源模型，这组数据值得认真看。本文基于Qwen3官方技术报告（arXiv:2505.09388），逐层拆解。

零壹AI实验室

382人浏览 · 2026-05-14 11:35:45

零壹AI实验室 · 2026-05-14 11:35:45 发布

Qwen3 技术报告精读：阿里通义千问第三代架构全解析

235B总参数但只激活22B——Qwen3这个设计让同月发布的DeepSeek V4有点尴尬。如果你正在选型开源模型，这组数据值得认真看。

模型	AIME 24	Codeforces	Arena-Hard
Qwen3-235B-A22B	85.1	2056	95.6
DeepSeek V3	79.8	1950	91.2

本文基于Qwen3官方技术报告（arXiv:2505.09388），逐层拆解。

一、为什么要认真看 Qwen3

大模型迭代越来越快，但技术报告值得细读的不多。Qwen3 这一代有几个地方确实有意思，不只是堆参数。

先看一组基准数据：

模型	AIME 24（数学推理）	Codeforces Rating	Arena-Hard	AlignBench
Qwen3-235B-A22B	85.1	2056	95.6	8.94
DeepSeek V3	79.8	1950	91.2	8.72
GPT-4o（参考）	74.6	1800	87.0	8.50

235B 总参数每次只激活 22B，这个性价比在开源模型里目前是最高的。

二、架构设计：Dense 与 MoE 双线并行

Qwen3 没有走单一架构路线，而是同时发布了 Dense 和 MoE 两个序列，覆盖不同的部署场景。

2.1 模型规模一览

Dense 序列（全参数激活）：

模型	参数量	适用场景
Qwen3-0.6B	6亿	端侧部署、嵌入式
Qwen3-1.7B	17亿	轻量级对话
Qwen3-4B	40亿	单卡推理
Qwen3-8B	80亿	通用推理
Qwen3-14B	140亿	高性能推理

MoE 序列（稀疏激活）：

模型	总参数	激活参数	专家数	每步激活专家数
Qwen3-30B-A3B	300亿	30亿	128	4
Qwen3-235B-A22B	2350亿	220亿	128	8

MoE 的核心优势：总参数大，知识容量大；激活参数小，推理成本低。Qwen3-235B-A22B 的激活参数量只相当于一个 22B 的 Dense 模型，但效果接近 235B Dense。

2.2 Think/No-Think 统一框架

这是 Qwen3 最值得关注的设计。

过去要用推理模型，得单独部署一个思考模式的模型，普通对话又得换一个。Qwen3 把两种模式合并到同一个模型里，由系统根据任务复杂度自动决定是否启用思考链。

Think 模式： 模型在回答前进行多步推理，生成中间思考步骤，适合数学、代码、复杂逻辑问题。

No-Think 模式： 直接输出答案，适合闲聊、简单问答、翻译等不需要深度推理的任务。

实现方式是在训练阶段同时提供两种数据：带长链思考推理步骤的样本，和不带推理步骤的直接回答样本。后训练阶段通过 RL 让模型学会根据任务类型自适应切换。

这个设计对部署方来说很实用——一套模型服务所有场景，不用维护两个实例。

2.3 思考预算机制（Thinking Budget）

Qwen3 还引入了"思考预算"概念：用户可以设定模型思考的最大 token 数，或者让模型自适应分配。报告里提到，当回答过长时，模型会自动插入提示并缩短输出，这个机制在实际应用中对控制推理成本很有帮助。

三、训练工程：36T tokens 是怎么炼出来的

3.1 训练三阶段

Qwen3 的预训练分三个阶段，每个阶段的侧重点不同：

S1 通用阶段（30T+ tokens）：

上下文窗口：4K
数据以网页文本、书籍、多语言语料为主
目标：建立基础语言能力和通用知识

S2 推理阶段（~5T tokens）：

提高 STEM、编程、逻辑推理类数据的比例
引入更多合成数据（由强模型生成的高质量推理链）
上下文窗口开始扩展

长上下文阶段（数千亿 tokens）：

采用 ABF（Adaptive Base Frequency）+ YARN + DCA 技术将上下文扩展到 32K
侧重长文档理解、长程推理任务

3.2 数据规模与语言覆盖

维度	数据
总 Token 数	36T
语言覆盖	119 种（Qwen2.5 仅 29 种）
数据来源	网页、书籍、代码、STEM 文献、多模态提取（Qwen2.5-VL 从 PDF 提取并清洗）

语言覆盖从 29 种扩展到 119 种，这个扩展幅度意味着 Qwen3 在多语言任务上的表现会有明显提升，尤其是小语种。

3.3 后训练：Long-CoT + 双阶段 RL

Qwen3 的后训练分两步：

第一步：Long-CoT Cold Start

用 SFT 做冷启动，让模型学会生成长推理链
损失函数对思考步骤赋予更高权重（loss_weights=[0.5, 1.0]）

第二步：General RL

采用 20+ 能力维度的 Rule-based + Model-based 混合奖励
Rule-based：数学、代码等有标准答案的任务，用确定性规则评分
Model-based：开放生成任务，用奖励模型评分

这种混合 RL 设计比纯 RLHF 更稳定，也比纯 SFT 泛化能力更强。

3.4 强到弱蒸馏（Strong-to-Weak Distillation）

Qwen3 的小模型（0.6B ~ 14B Dense）不是从头训练的，而是通过蒸馏从大模型中迁移知识。

具体做法：用 Qwen3-235B-A22B 生成高质量推理链数据，再用这些数据去训练小模型。报告显示，蒸馏后的小模型效果明显优于同等规模的 Base 模型，尤其是在推理任务上。

这个策略的好处：小模型的训练成本大幅降低，同时性能接近参数量更大的模型。

四、开源与商用：Apache 2.0 意味着什么

Qwen3 全部模型（0.6B ~ 235B-A22B）均采用 Apache 2.0 许可证开源，这意味着：

可以商用，不需要开源衍生作品，没有月活用户数限制
对比 Llama 3 的 Llama3 License（有商用限制），Apache 2.0 对专利的保护更明确
DeepSeek V3 是 MIT，也宽松，但 Apache 2.0 在企业合规层面更友好
GPT、Claude 完全闭源，不在比较范围内

企业可以放心把 Qwen3 用在自己的产品里，不用担心许可证风险。

GitHub 地址：https://github.com/QwenLM/Qwen3

五、Benchmark 深度解读

5.1 数学推理：AIME 24（85.1）

AIME（American Invitational Mathematics Examination）是高中数学竞赛题，需要多步符号推理。Qwen3-235B-A22B 得分 85.1，超过 DeepSeek V3 的 79.8。

AIME 满分 100（15 道题，每道最多 7 分，通常按正确率换算），85.1 大致对应做对 12-13 道的水平，接近人类奥赛选手的平均水平。

5.2 代码能力：Codeforces Rating（2056）

Codeforces 是一个竞争性编程平台，Rating 反映模型在算法竞赛中的水平。2056 分大致对应 Codeforces 的 Candidate Master 级别（门槛 2100），已经超过绝大多数程序员。

5.3 对齐能力：AlignBench v1.1（8.94）

AlignBench 是清华提出的中文对齐评测集，考察模型的中文理解、逻辑推理、安全性等维度。8.94 是目前开源模型的最高分。

六、与 DeepSeek V3 的核心差异

维度	Qwen3-235B-A22B	DeepSeek V3
激活参数	22B	37B
上下文窗口	32K	128K
语言覆盖	119 种	~中文+英文为主
Think 模式	统一框架	需单独部署 R1
开源协议	Apache 2.0	MIT
训练数据	36T	14.8T

Qwen3 激活参数更小（推理更快）、语言覆盖更广、Think 模式集成更优雅；DeepSeek V3 上下文更长、训练数据更聚焦。

七、部署建议

根据不同场景，推荐以下选型：

场景	推荐模型	理由
端侧/嵌入式	Qwen3-0.6B / 1.7B	参数量极小，可在移动端运行
单卡推理（24GB 显存）	Qwen3-8B / 14B	显存占用适中，推理速度快
高并发服务	Qwen3-30B-A3B	激活参数仅 3B，吞吐量高
最高精度要求	Qwen3-235B-A22B	效果最强，激活 22B 推理成本可控

八、你用 Qwen3 吗？

Qwen3 这代有几点值得认真看，我自己在做模型选型时会把它和 DeepSeek V3 放在一起对比：

Think/No-Think 统一框架是架构上的真正创新，不是简单的参数堆量
36T tokens 训练数据加 119 种语言覆盖，在数据规模和覆盖面上大幅领先上一代
Apache 2.0 完全开源，对企业用户最友好
强到弱蒸馏让小模型效果大幅提升，端侧部署的想象空间变大了

你如果正在做开源模型选型，Qwen3-235B-A22B 和 DeepSeek V3 是目前最值得对比的两个。你更倾向哪个？欢迎评论区聊聊选型逻辑——是看效果、看成本，还是看开源协议？下一篇聊 GLM-5。

参考资料：Qwen3 Technical Report (arXiv:2505.09388)，阿里通义千问团队，2026年5月

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Qwen 模型是后量化：BF16 通过细粒度量化到FP8、不是INT8

传统的量化（Per-tensor）是整个矩阵共用一个缩放因子（Scale），容易因局部极值导致整体精度下降。这种方式通过“局部自适应”的缩放，极大缓解了量化误差，是 DeepSeek-V3 等模型能在 FP8 精度下保持高性能的关键技术之一。（小数更准，大数也能凑合表示）。在处理分布不均匀的大模型参数时，FP8 的这种非均匀特性显然更懂模型的“脾气”。它不是单一标准，通常有 E4M3（4 指数+3

DeepSeek技术社区

Claude Code 太贵？用 CC Switch 接入 DeepSeek，API 费用从每月三百降到三十

摘要：Claude Code作为AI编程助手虽然高效但API费用昂贵（每月200-400元）。通过CC Switch工具可无缝切换至国产DeepSeek V3模型（1元/百万tokens），费用骤降至10-20元/月。文章详细介绍了安装配置方法，建议日常开发使用DeepSeek，复杂任务再切换回Claude的混合策略，可节省90%成本。同时提供了其他国产模型选项和常见问题解决方案，15分钟即可完成

DeepSeek技术社区

OpenCode 打造个人 AI 智能体（一）：从安装到高效使用技巧

如果你还在手动写重复代码、手动查文档、手动跑测试，那你大概还没遇到 OpenCode。简单说，OpenCode 是一个开源 AI 编程助手，但跟市面上那些仅限聊天补全的工具不同，它能直接在你的终端里操作文件、运行命令、使用 Git、甚至操控浏览器。这意味着什么？你的 AI 助手可以做真实的开发工作，而不只是建议你应该怎么写。更重要的一点——它完全开源，而且支持接入 75+ 种 LLM 模型，包括