1. 概述

Qwen3 是 Qwen 团队在 2025 年发布的一代开源大语言模型家族,核心目标是把高质量通用对话可控推理能力整合到同一模型里。它同时覆盖 Dense 与 MoE 两条路线,并把“thinking / non-thinking”双模式、thinking budget、长上下文扩展、多语言能力、蒸馏到小模型等能力统一到一个体系中。

从工程视角看,Qwen3 的意义不只是在 benchmark 上继续提升,而是把下面几个过去常常割裂的能力做成了统一产品形态:

  1. 统一模型形态:不再强依赖“聊天模型 + 推理模型”双模型切换;
  2. 统一后训练目标:既要强推理,也要强指令跟随、创作、多轮对话;
  3. 统一推理成本控制:通过 thinking budget 调节推理深度;
  4. 统一模型谱系:从 0.6B 到 235B,同时提供 Dense 与 MoE;
  5. 统一开源可用性:权重公开,主流推理框架和训练框架快速接入。

2. qwen3 lite与定位

2.1 Dense 模型

Qwen3 Dense 公开了以下规模:

  • Qwen3-0.6B
  • Qwen3-1.7B
  • Qwen3-4B
  • Qwen3-8B
  • Qwen3-14B
  • Qwen3-32B

2.2 MoE 模型

Qwen3 MoE 公开了以下规模:

  • Qwen3-30B-A3B
  • Qwen3-235B-A22B

其中 A3B / A22B 表示每个 token 的激活参数规模,用于兼顾总参数容量与实际推理成本。

2.3 lite设计意图

Dense 与 MoE 的角色并不重复:

  • Dense:更适合中小规模部署、微调、边缘推理和单机实验;
  • MoE:更适合在较高吞吐和高上限场景下提供更强性能;
  • 小模型:承接蒸馏成果,提升单位算力性价比;
  • 大模型:承担知识与推理教师角色。

3. 核心创新总结

Qwen3 的关键创新可以概括为五条主线:

3.1 thinking / non-thinking 双模式统一

Qwen3 不再把“普通对话”和“深度推理”分到不同模型上,而是在同一模型中引入两种运行模式:

  • thinking mode:适合数学、代码、逻辑推理、复杂代理任务;
  • non-thinking mode:适合低延迟问答、通用聊天、常规 instruction-following。

这种设计的直接收益是:

  • 业务侧不必维护两套模型;
  • 系统调度逻辑更简单;
  • 推理时可以按任务复杂度选择模式;
  • 用户体验更连贯。

3.2 thinking budget

Qwen3 引入了 thinking budget 思想:并不是所有问题都值得用同样长的 CoT。
当模型已经学会“思考模式”和“非思考模式”两端后,中间的“有限思考”会自然涌现。于是可以在推理时人为限制 thinking token 长度,在成本与性能之间折中。

工程上,这意味着:

  • 可把复杂任务与低延迟任务放进同一服务;
  • 可以把 token 预算视为可调资源;
  • 对在线系统更友好,特别适合 agent、工具调用、批处理问答。

3.3 强化后的预训练数据体系

Qwen3 把预训练 token 扩展到 36T,覆盖 119 种语言和方言
除了传统网页、书籍、代码、STEM 数据之外,还通过多模态 OCR 与合成数据扩充高质量文本:

  • 使用 Qwen2.5-VL 从大量 PDF-like 文档抽取文本;
  • 使用 Qwen2.5 / Qwen2.5-Math / Qwen2.5-Coder 合成教材、问答、指令、代码片段;
  • 构建带细粒度标注的 multilingual 数据注释系统,用于实例级数据配比优化。

3.4 QK-Norm 与更稳的训练结构

Dense 架构延续了 Qwen2.5 的大方向,但做了几项很关键的收敛增强:

  • 使用 GQA
  • 使用 SwiGLU
  • 使用 RoPE
  • 使用 RMSNorm + pre-norm
  • 去除 QKV bias
  • 在注意力里加入 QK-Norm

这些改动并不“花哨”,但都非常工程化:目标不是追求新奇,而是提升大规模训练稳定性与推理表现。

3.5 MoE 的细粒度专家化

Qwen3-MoE 采用:

  • 128 个总专家
  • 每 token 激活 8 个专家
  • 无 shared expert
  • global-batch load balancing loss

这说明其设计重心是“专家专门化 + 全局均衡”,避免专家塌缩,同时保持较好的吞吐/性能比。


4. 架构解析

4.1 Dense 主体结构

Qwen3 Dense 依然是标准 decoder-only Transformer,但它的“现代化版本”特征很明显:

  • 输入 token embedding
  • 多层 Decoder Layer 堆叠
  • 每层包含:
    • RMSNorm
    • Self-Attention(GQA + QK-Norm + RoPE)
    • 残差
    • RMSNorm
    • SwiGLU MLP
    • 残差
  • 最终 RMSNorm
  • LM Head

4.1.1 GQA

Grouped Query Attention 的核心思想是:

  • Query 头很多;
  • Key / Value 头更少;
  • 多个 Query 头共享一组 KV 头。

作用:

  • 显著降低 KV cache 开销;
  • 更适合长上下文推理;
  • 在性能损失可控前提下提升部署效率。

4.1.2 QK-Norm

QK-Norm 本质是在 attention 打分前对 q/k 做归一化,降低训练中数值尺度波动。
对于大模型、大 batch、长训练周期而言,它能显著改善稳定性。

4.1.3 SwiGLU MLP

Qwen3 MLP 采用 SwiGLU 风格:

[
\text{MLP}(x)=W_{down}(\text{silu}(W_{gate}x) \odot W_{up}x)
]

相比传统 FFN,SwiGLU 在参数效率与表达能力上更优,已成为现代 LLM 的主流选择。

4.1.4 Pre-Norm + RMSNorm

Qwen3 采用 pre-normalization:

  • Attention 前先做 norm;
  • MLP 前再做 norm。

这对深层训练更稳定,也更符合当前主流 decoder-only 架构实践。


4.2 MoE 结构

Qwen3-MoE 在每个 MoE block 里包含:

  1. Router:为每个 token 计算专家分配分数;
  2. Top-k 选择:选出若干个专家;
  3. Expert MLP:被选中的专家各自处理 token;
  4. 加权汇合:按 router 权重融合输出。

4.2.1 关键设计点

  • 128 total experts:扩大参数容量;
  • 8 activated experts/token:控制实际推理开销;
  • no shared experts:鼓励专家更纯粹地分工;
  • global-batch load balancing:避免部分专家过载、部分专家闲置。

4.2.2 适用场景

MoE 更适合:

  • 大规模在线服务;
  • 高性能推理集群;
  • 希望在不线性增加推理成本的情况下提升模型上限的场景。

5. Tokenizer 与位置编码

5.1 Tokenizer

Qwen3 延续 Qwen tokenizer 路线,使用 byte-level BPE / BBPE
技术报告中给出的词表规模为 151,669
在 Hugging Face Qwen3Config 的默认实现里,Qwen3-8B 风格配置使用 vocab_size=151936,这属于实现层默认配置值,与技术报告中描述的 tokenizer 统计口径略有差异,实际以具体 checkpoint 配置为准。

5.2 RoPE 扩展

Qwen3 延续并增强了长上下文设计:

  • 将 RoPE base frequency 从 10,000 提升到 1,000,000
  • 使用 ABF
  • 配合 YARNDual Chunk Attention
  • 使推理时序列容量可进一步外推

这套组合体现出 Qwen 团队在“训练长度”和“推理长度”之间采用了分阶段、分机制的工程折中,而不是简单粗暴地堆上下文长度。


6. 预训练体系

6.1 数据构成

Qwen3 的预训练数据不仅大,而且做了更细粒度的质量控制。
覆盖内容包括:

  • 通用文本
  • 多语言文本
  • 编码数据
  • STEM
  • 推理类数据
  • 图书
  • 合成数据
  • PDF-like 文档 OCR 抽取文本

6.1.1 数据增强方式

  • Qwen2.5-VL 做 OCR;
  • Qwen2.5 做文本 refinement;
  • Qwen2.5-Math / Coder 做合成;
  • 多语言标注系统做实例级筛选与配比。

这里最值得注意的是:
Qwen3 不只是“扩大数据量”,而是把数据制造、数据注释、数据混合优化做成了系统工程。

6.2 三阶段预训练

Qwen3 的预训练采用三阶段策略:

S1:General Stage

  • 超过 30T tokens
  • 序列长度 4096
  • 目标:语言能力、常识知识、广覆盖基础能力

S2:Reasoning Stage

  • 约 5T 高质量 token
  • 序列长度仍为 4096
  • 提高 STEM / coding / reasoning / synthetic data 比例
  • 加速学习率衰减
  • 目标:强化推理和代码能力

S3:Long-Context Stage

  • 使用长上下文数据
  • 把最大上下文从 4096 拉升到 32768
  • 面向长文档、长对话、长代码场景

6.2.1 训练理念

这套三阶段策略背后的思想非常清晰:

  1. 先学广:先把世界知识和语言打牢;
  2. 再学深:对 reasoning / code / STEM 做后强化;
  3. 最后学长:把长上下文作为一个独立目标来优化。

这比“从第一天就全数据混训超长上下文”更节省算力,也更符合 scaling law 的收益结构。


7. 后训练体系

Qwen3 的后训练比传统“指令微调 + RLHF”更像一个四阶段系统:

  1. 长 CoT 冷启动
  2. Reasoning RL
  3. Thinking Mode Fusion
  4. 强到弱蒸馏/小模型迁移

7.1 Long-CoT Cold Start

目标不是直接拿到最终最强分数,而是先把正确的推理模式教给模型。
数据选择非常严格:

  • 问题要可验证;
  • 不能太容易;
  • 不能是纯开放式文本生成;
  • 需要明确答案或代码测试集;
  • 响应需要经过多轮过滤。

这一步的核心价值是:给 RL 提供可学习、可扩展的推理起点。

7.2 Reasoning RL

Reasoning RL 阶段主要面向:

  • 数学
  • 代码
  • 可验证推理问题

报告中明确提到使用了 3995 个 query-verifier 对,并使用 GRPO 更新模型参数。
这说明 Qwen3 的 RL 路线和当前开源 reasoning 模型主流方向保持一致:强化学习重点面向可自动验证任务

7.3 Thinking Mode Fusion

这是 Qwen3 最有产品味道的设计之一。

核心过程:

  • 在 reasoning RL 得到的 thinking 模型基础上继续做 SFT;
  • 把 thinking data 与 non-thinking data 混合;
  • 通过 chat template 把两种行为融合进单模型;
  • 引入 /think/no_think 标记控制模式。

其中有一个非常关键的细节:
对于 non-thinking 样本,assistant 侧仍保留空的 <think>...</think> 块,以保证格式一致性。
这为后面的 thinking budget 和模板切换打下了基础。

7.4 Thinking Budget 的涌现

Thinking Mode Fusion 后,模型能自然处理“思考不完整”的中间态。
因此在推理阶段,可以在 thinking 达到预算阈值时人工截断,再插入 stop-thinking instruction,让模型基于已有推理直接给答案。

这意味着:

  • thinking budget 不是单独训出来的一套 head;
  • 它更像是训练结构设计带来的涌现式能力

8. 蒸馏与小模型收益

Qwen3 强调“从旗舰模型向小模型迁移知识”,并指出直接从教师模型进行蒸馏,可在较少 GPU 小时下得到不错的小模型效果。
这体现出一个趋势:

  • 大模型越来越像“知识与推理教师”;
  • 小模型越来越像“部署友好的学生模型”。

对于工业落地,这点非常关键,因为最终被大量部署的通常不是最大的模型,而是“性能/成本比最优”的中小模型。


9. 工程与部署视角理解

9.1 为什么 Qwen3 值得工程团队重视

从实际系统搭建角度,Qwen3 的价值在于:

  • 统一模型:少维护一套 reasoning-only 模型;
  • 统一模板:通过 /think/no_think 与 response prefix 就能切换模式;
  • 统一训练栈:ms-swift / Megatron-SWIFT / Transformers 快速接入;
  • 统一推理框架支持:Transformers、vLLM、SGLang、llama.cpp、Ollama 等生态齐全。

9.2 落地方向

小中模型

适合:

  • 企业知识问答
  • 本地化部署
  • 轻量 agent
  • 低成本微调
  • GPU 资源有限的服务

大模型 / MoE

适合:

  • 复杂代码与数学推理
  • 高阶工具调用
  • 高复杂度 agent
  • 大规模在线推理

9.3 与前代相比的重要变化

相较 Qwen2.5,Qwen3 的升级不是“把已有能力做大一点”,而是结构性升级:

  • 多语言大幅扩展
  • thinking / non-thinking 真正统一
  • reasoning 后训练链条更完整
  • thinking budget 更可控
  • 小模型蒸馏思路更清晰

10. 局限与开放问题

Qwen3 很强,但仍有几个值得关注的问题:

10.1 thinking token 成本依然高

统一模型不等于推理免费。
复杂任务下,如果放开 thinking,token 消耗依然显著。

10.2 模板依赖仍然存在

虽然官方模板已支持 thinking 切换,但在多框架、多代理系统中,模板不一致仍可能导致行为漂移。

10.3 RL 主要仍依赖可验证任务

像数学、代码这类奖励可构造任务最适合 GRPO;
开放式复杂决策、长链工具规划、真实世界 agent reward 仍有较大挑战。

10.4 小模型蒸馏上限仍受教师分布约束

蒸馏可以提高小模型,但 teacher 的偏好、推理风格、模板格式也会传递给 student。


11. 对研究与工程实践的启发

Qwen3 给出的最重要启发是:

11.1 “统一模型 + 可控推理”会成为主流

未来越来越多模型不会再拆成 chat 和 reasoning 两套,而会做成统一主干 + 模式控制。

11.2 长上下文不是单点优化,而是系统工程

RoPE、YARN、DCA、数据阶段化训练、KV cache 成本控制要一起设计。

11.3 数据工程的重要性不低于架构创新

Qwen3 的提升很大一部分来自:

  • 更强数据制造;
  • 更强数据标注;
  • 更精细数据混配;
  • 更好的 post-training 课程设计。

11.4 公开训练栈比“单个源码文件”更重要

Qwen3 的真正可复现价值,不只在模型定义,还在:

  • 训练框架适配;
  • 模板规则;
  • 数据格式;
  • RL 启动方式;
  • 部署工具链。

12. 总结

Qwen3 可以看成一代“产品化的推理型基础模型”。

它的核心不只是参数更大,而是把以下几件事情同时做好了:

  • 基础能力强;
  • 推理能力强;
  • 多语言强;
  • 长上下文强;
  • 训练链条完整;
  • 部署方式统一;
  • 推理成本可控。

概括:

Qwen3 的本质,是把“会思考的模型”做成了“可部署、可控、可扩展的一般基础模型”。

对于研究者,Qwen3 值得重点学习:

  • 数据课程设计
  • reasoning post-training
  • thinking / non-thinking 融合
  • MoE 专家路由
  • 小模型蒸馏

对于工程团队,Qwen3 值得重点关注:

  • 单模型双模式服务设计
  • thinking budget 调度
  • ms-swift / Megatron-SWIFT 训练接入
  • Transformers / vLLM 推理接入
  • 小模型蒸馏后的落地性价比

参考资料

  1. Qwen Team, Qwen3 Technical Report, arXiv:2505.09388, 2025
  2. QwenLM 官方仓库 README
  3. Qwen 官方文档(MS-SWIFT / Transformers / Best Practices)
  4. Hugging Face Transformers Qwen3Config, modeling_qwen3.py, modeling_qwen3_moe.py
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐