Qwen3详解
1. 概述
Qwen3 是 Qwen 团队在 2025 年发布的一代开源大语言模型家族,核心目标是把高质量通用对话与可控推理能力整合到同一模型里。它同时覆盖 Dense 与 MoE 两条路线,并把“thinking / non-thinking”双模式、thinking budget、长上下文扩展、多语言能力、蒸馏到小模型等能力统一到一个体系中。
从工程视角看,Qwen3 的意义不只是在 benchmark 上继续提升,而是把下面几个过去常常割裂的能力做成了统一产品形态:
- 统一模型形态:不再强依赖“聊天模型 + 推理模型”双模型切换;
- 统一后训练目标:既要强推理,也要强指令跟随、创作、多轮对话;
- 统一推理成本控制:通过 thinking budget 调节推理深度;
- 统一模型谱系:从 0.6B 到 235B,同时提供 Dense 与 MoE;
- 统一开源可用性:权重公开,主流推理框架和训练框架快速接入。
2. qwen3 lite与定位
2.1 Dense 模型
Qwen3 Dense 公开了以下规模:
- Qwen3-0.6B
- Qwen3-1.7B
- Qwen3-4B
- Qwen3-8B
- Qwen3-14B
- Qwen3-32B
2.2 MoE 模型
Qwen3 MoE 公开了以下规模:
- Qwen3-30B-A3B
- Qwen3-235B-A22B
其中 A3B / A22B 表示每个 token 的激活参数规模,用于兼顾总参数容量与实际推理成本。
2.3 lite设计意图
Dense 与 MoE 的角色并不重复:
- Dense:更适合中小规模部署、微调、边缘推理和单机实验;
- MoE:更适合在较高吞吐和高上限场景下提供更强性能;
- 小模型:承接蒸馏成果,提升单位算力性价比;
- 大模型:承担知识与推理教师角色。
3. 核心创新总结
Qwen3 的关键创新可以概括为五条主线:
3.1 thinking / non-thinking 双模式统一
Qwen3 不再把“普通对话”和“深度推理”分到不同模型上,而是在同一模型中引入两种运行模式:
- thinking mode:适合数学、代码、逻辑推理、复杂代理任务;
- non-thinking mode:适合低延迟问答、通用聊天、常规 instruction-following。
这种设计的直接收益是:
- 业务侧不必维护两套模型;
- 系统调度逻辑更简单;
- 推理时可以按任务复杂度选择模式;
- 用户体验更连贯。
3.2 thinking budget
Qwen3 引入了 thinking budget 思想:并不是所有问题都值得用同样长的 CoT。
当模型已经学会“思考模式”和“非思考模式”两端后,中间的“有限思考”会自然涌现。于是可以在推理时人为限制 thinking token 长度,在成本与性能之间折中。
工程上,这意味着:
- 可把复杂任务与低延迟任务放进同一服务;
- 可以把 token 预算视为可调资源;
- 对在线系统更友好,特别适合 agent、工具调用、批处理问答。
3.3 强化后的预训练数据体系
Qwen3 把预训练 token 扩展到 36T,覆盖 119 种语言和方言。
除了传统网页、书籍、代码、STEM 数据之外,还通过多模态 OCR 与合成数据扩充高质量文本:
- 使用 Qwen2.5-VL 从大量 PDF-like 文档抽取文本;
- 使用 Qwen2.5 / Qwen2.5-Math / Qwen2.5-Coder 合成教材、问答、指令、代码片段;
- 构建带细粒度标注的 multilingual 数据注释系统,用于实例级数据配比优化。
3.4 QK-Norm 与更稳的训练结构
Dense 架构延续了 Qwen2.5 的大方向,但做了几项很关键的收敛增强:
- 使用 GQA
- 使用 SwiGLU
- 使用 RoPE
- 使用 RMSNorm + pre-norm
- 去除 QKV bias
- 在注意力里加入 QK-Norm
这些改动并不“花哨”,但都非常工程化:目标不是追求新奇,而是提升大规模训练稳定性与推理表现。
3.5 MoE 的细粒度专家化
Qwen3-MoE 采用:
- 128 个总专家
- 每 token 激活 8 个专家
- 无 shared expert
- global-batch load balancing loss
这说明其设计重心是“专家专门化 + 全局均衡”,避免专家塌缩,同时保持较好的吞吐/性能比。
4. 架构解析
4.1 Dense 主体结构
Qwen3 Dense 依然是标准 decoder-only Transformer,但它的“现代化版本”特征很明显:
- 输入 token embedding
- 多层 Decoder Layer 堆叠
- 每层包含:
- RMSNorm
- Self-Attention(GQA + QK-Norm + RoPE)
- 残差
- RMSNorm
- SwiGLU MLP
- 残差
- 最终 RMSNorm
- LM Head
4.1.1 GQA
Grouped Query Attention 的核心思想是:
- Query 头很多;
- Key / Value 头更少;
- 多个 Query 头共享一组 KV 头。
作用:
- 显著降低 KV cache 开销;
- 更适合长上下文推理;
- 在性能损失可控前提下提升部署效率。
4.1.2 QK-Norm
QK-Norm 本质是在 attention 打分前对 q/k 做归一化,降低训练中数值尺度波动。
对于大模型、大 batch、长训练周期而言,它能显著改善稳定性。
4.1.3 SwiGLU MLP
Qwen3 MLP 采用 SwiGLU 风格:
[
\text{MLP}(x)=W_{down}(\text{silu}(W_{gate}x) \odot W_{up}x)
]
相比传统 FFN,SwiGLU 在参数效率与表达能力上更优,已成为现代 LLM 的主流选择。
4.1.4 Pre-Norm + RMSNorm
Qwen3 采用 pre-normalization:
- Attention 前先做 norm;
- MLP 前再做 norm。
这对深层训练更稳定,也更符合当前主流 decoder-only 架构实践。
4.2 MoE 结构
Qwen3-MoE 在每个 MoE block 里包含:
- Router:为每个 token 计算专家分配分数;
- Top-k 选择:选出若干个专家;
- Expert MLP:被选中的专家各自处理 token;
- 加权汇合:按 router 权重融合输出。
4.2.1 关键设计点
- 128 total experts:扩大参数容量;
- 8 activated experts/token:控制实际推理开销;
- no shared experts:鼓励专家更纯粹地分工;
- global-batch load balancing:避免部分专家过载、部分专家闲置。
4.2.2 适用场景
MoE 更适合:
- 大规模在线服务;
- 高性能推理集群;
- 希望在不线性增加推理成本的情况下提升模型上限的场景。
5. Tokenizer 与位置编码
5.1 Tokenizer
Qwen3 延续 Qwen tokenizer 路线,使用 byte-level BPE / BBPE。
技术报告中给出的词表规模为 151,669。
在 Hugging Face Qwen3Config 的默认实现里,Qwen3-8B 风格配置使用 vocab_size=151936,这属于实现层默认配置值,与技术报告中描述的 tokenizer 统计口径略有差异,实际以具体 checkpoint 配置为准。
5.2 RoPE 扩展
Qwen3 延续并增强了长上下文设计:
- 将 RoPE base frequency 从 10,000 提升到 1,000,000
- 使用 ABF
- 配合 YARN 与 Dual Chunk Attention
- 使推理时序列容量可进一步外推
这套组合体现出 Qwen 团队在“训练长度”和“推理长度”之间采用了分阶段、分机制的工程折中,而不是简单粗暴地堆上下文长度。
6. 预训练体系
6.1 数据构成
Qwen3 的预训练数据不仅大,而且做了更细粒度的质量控制。
覆盖内容包括:
- 通用文本
- 多语言文本
- 编码数据
- STEM
- 推理类数据
- 图书
- 合成数据
- PDF-like 文档 OCR 抽取文本
6.1.1 数据增强方式
- Qwen2.5-VL 做 OCR;
- Qwen2.5 做文本 refinement;
- Qwen2.5-Math / Coder 做合成;
- 多语言标注系统做实例级筛选与配比。
这里最值得注意的是:
Qwen3 不只是“扩大数据量”,而是把数据制造、数据注释、数据混合优化做成了系统工程。
6.2 三阶段预训练
Qwen3 的预训练采用三阶段策略:
S1:General Stage
- 超过 30T tokens
- 序列长度 4096
- 目标:语言能力、常识知识、广覆盖基础能力
S2:Reasoning Stage
- 约 5T 高质量 token
- 序列长度仍为 4096
- 提高 STEM / coding / reasoning / synthetic data 比例
- 加速学习率衰减
- 目标:强化推理和代码能力
S3:Long-Context Stage
- 使用长上下文数据
- 把最大上下文从 4096 拉升到 32768
- 面向长文档、长对话、长代码场景
6.2.1 训练理念
这套三阶段策略背后的思想非常清晰:
- 先学广:先把世界知识和语言打牢;
- 再学深:对 reasoning / code / STEM 做后强化;
- 最后学长:把长上下文作为一个独立目标来优化。
这比“从第一天就全数据混训超长上下文”更节省算力,也更符合 scaling law 的收益结构。
7. 后训练体系
Qwen3 的后训练比传统“指令微调 + RLHF”更像一个四阶段系统:
- 长 CoT 冷启动
- Reasoning RL
- Thinking Mode Fusion
- 强到弱蒸馏/小模型迁移
7.1 Long-CoT Cold Start
目标不是直接拿到最终最强分数,而是先把正确的推理模式教给模型。
数据选择非常严格:
- 问题要可验证;
- 不能太容易;
- 不能是纯开放式文本生成;
- 需要明确答案或代码测试集;
- 响应需要经过多轮过滤。
这一步的核心价值是:给 RL 提供可学习、可扩展的推理起点。
7.2 Reasoning RL
Reasoning RL 阶段主要面向:
- 数学
- 代码
- 可验证推理问题
报告中明确提到使用了 3995 个 query-verifier 对,并使用 GRPO 更新模型参数。
这说明 Qwen3 的 RL 路线和当前开源 reasoning 模型主流方向保持一致:强化学习重点面向可自动验证任务。
7.3 Thinking Mode Fusion
这是 Qwen3 最有产品味道的设计之一。
核心过程:
- 在 reasoning RL 得到的 thinking 模型基础上继续做 SFT;
- 把 thinking data 与 non-thinking data 混合;
- 通过 chat template 把两种行为融合进单模型;
- 引入
/think与/no_think标记控制模式。
其中有一个非常关键的细节:
对于 non-thinking 样本,assistant 侧仍保留空的 <think>...</think> 块,以保证格式一致性。
这为后面的 thinking budget 和模板切换打下了基础。
7.4 Thinking Budget 的涌现
Thinking Mode Fusion 后,模型能自然处理“思考不完整”的中间态。
因此在推理阶段,可以在 thinking 达到预算阈值时人工截断,再插入 stop-thinking instruction,让模型基于已有推理直接给答案。
这意味着:
- thinking budget 不是单独训出来的一套 head;
- 它更像是训练结构设计带来的涌现式能力。
8. 蒸馏与小模型收益
Qwen3 强调“从旗舰模型向小模型迁移知识”,并指出直接从教师模型进行蒸馏,可在较少 GPU 小时下得到不错的小模型效果。
这体现出一个趋势:
- 大模型越来越像“知识与推理教师”;
- 小模型越来越像“部署友好的学生模型”。
对于工业落地,这点非常关键,因为最终被大量部署的通常不是最大的模型,而是“性能/成本比最优”的中小模型。
9. 工程与部署视角理解
9.1 为什么 Qwen3 值得工程团队重视
从实际系统搭建角度,Qwen3 的价值在于:
- 统一模型:少维护一套 reasoning-only 模型;
- 统一模板:通过
/think、/no_think与 response prefix 就能切换模式; - 统一训练栈:ms-swift / Megatron-SWIFT / Transformers 快速接入;
- 统一推理框架支持:Transformers、vLLM、SGLang、llama.cpp、Ollama 等生态齐全。
9.2 落地方向
小中模型
适合:
- 企业知识问答
- 本地化部署
- 轻量 agent
- 低成本微调
- GPU 资源有限的服务
大模型 / MoE
适合:
- 复杂代码与数学推理
- 高阶工具调用
- 高复杂度 agent
- 大规模在线推理
9.3 与前代相比的重要变化
相较 Qwen2.5,Qwen3 的升级不是“把已有能力做大一点”,而是结构性升级:
- 多语言大幅扩展
- thinking / non-thinking 真正统一
- reasoning 后训练链条更完整
- thinking budget 更可控
- 小模型蒸馏思路更清晰
10. 局限与开放问题
Qwen3 很强,但仍有几个值得关注的问题:
10.1 thinking token 成本依然高
统一模型不等于推理免费。
复杂任务下,如果放开 thinking,token 消耗依然显著。
10.2 模板依赖仍然存在
虽然官方模板已支持 thinking 切换,但在多框架、多代理系统中,模板不一致仍可能导致行为漂移。
10.3 RL 主要仍依赖可验证任务
像数学、代码这类奖励可构造任务最适合 GRPO;
开放式复杂决策、长链工具规划、真实世界 agent reward 仍有较大挑战。
10.4 小模型蒸馏上限仍受教师分布约束
蒸馏可以提高小模型,但 teacher 的偏好、推理风格、模板格式也会传递给 student。
11. 对研究与工程实践的启发
Qwen3 给出的最重要启发是:
11.1 “统一模型 + 可控推理”会成为主流
未来越来越多模型不会再拆成 chat 和 reasoning 两套,而会做成统一主干 + 模式控制。
11.2 长上下文不是单点优化,而是系统工程
RoPE、YARN、DCA、数据阶段化训练、KV cache 成本控制要一起设计。
11.3 数据工程的重要性不低于架构创新
Qwen3 的提升很大一部分来自:
- 更强数据制造;
- 更强数据标注;
- 更精细数据混配;
- 更好的 post-training 课程设计。
11.4 公开训练栈比“单个源码文件”更重要
Qwen3 的真正可复现价值,不只在模型定义,还在:
- 训练框架适配;
- 模板规则;
- 数据格式;
- RL 启动方式;
- 部署工具链。
12. 总结
Qwen3 可以看成一代“产品化的推理型基础模型”。
它的核心不只是参数更大,而是把以下几件事情同时做好了:
- 基础能力强;
- 推理能力强;
- 多语言强;
- 长上下文强;
- 训练链条完整;
- 部署方式统一;
- 推理成本可控。
概括:
Qwen3 的本质,是把“会思考的模型”做成了“可部署、可控、可扩展的一般基础模型”。
对于研究者,Qwen3 值得重点学习:
- 数据课程设计
- reasoning post-training
- thinking / non-thinking 融合
- MoE 专家路由
- 小模型蒸馏
对于工程团队,Qwen3 值得重点关注:
- 单模型双模式服务设计
- thinking budget 调度
- ms-swift / Megatron-SWIFT 训练接入
- Transformers / vLLM 推理接入
- 小模型蒸馏后的落地性价比
参考资料
- Qwen Team, Qwen3 Technical Report, arXiv:2505.09388, 2025
- QwenLM 官方仓库 README
- Qwen 官方文档(MS-SWIFT / Transformers / Best Practices)
- Hugging Face Transformers
Qwen3Config,modeling_qwen3.py,modeling_qwen3_moe.py
更多推荐



所有评论(0)