Qwen家族系列模型概述(一)
概述
参考资料:
- https://github.com/QwenLM
- https://modelscope.cn/organization/Qwen
特性:
- 多语言性能:在多种语言处理上表现出色,尤其在中文和英文领域,能够满足全球不同地区用户的需求;
- 开源可用性:使得开发者能够自由访问、使用和修改其代码;
- 企业适应性:其架构和功能设计充分考虑企业应用场景,能够较好地融入企业现有的技术体系,为企业提供定制化的人工智能解决方案;
- 注重代理能力:从模型设计之初便将工具使用、规划和函数调用等代理能力纳入核心发展策略,使Qwen模型在执行复杂任务时更具优势,能够模拟人类的思考与操作流程,实现自动化与智能化的任务处理。
Qwen在闭源和开源两边同时发力,各种模型层出不穷;故而写成系列,参考:
Qwen1
包括:
- Qwen 1.0与Qwen-Chat
2023年年中,阿里云Qwen团队首次开源Qwen1.0系列,涵盖1.8B、7B、14B和72B参数的基础LLM,在多达3万亿个多语言数据标记上进行预训练,重点聚焦中文和英文,其上下文窗口高达32K个标记,部分早期变体甚至达到8K。还推出通过监督微调和人类反馈强化学习(RLHF)对齐的Qwen-Chat变体。即便在这一早期阶段,Qwen模型便已展现出广泛技能,涉及对话、内容生成、翻译、编码、数学问题求解等多个领域,且能够初步使用工具或充当代理,这标志着Qwen团队在设计之初便将代理行为纳入考量。
Qwen-1.5
2024年2月发布,在模型规模上进一步拓展,引入0.5B、4B、32B、110B参数模型,并统一支持32K上下文长度。在多语言理解、长上下文推理、对齐等通用技能上实现提升的同时,其代理能力在工具使用基准测试中达到与GPT-4相当的水平,工具选择与使用准确率超过95%。
人类对话模型的偏好显著改善,基础模型和对话模型都支持多语言,所有大小的模型都稳定支持32K上下文长度。
改进:
- 大规模高质量的训练语料库:模型在超过22万亿个令牌的语料库上进行预训练,包括中文、英文、多语言文本、代码和数学,涵盖一般和专业领域。通过大量的消融实验,对预训练语料库的分布进行优化。
- 良好的性能:支持较长的上下文长度(在1.8b、7b和14b参数模型上为8K,在72b参数模型上为32K),在多个中英文下游评估任务(包括常识、推理、代码、数学等)上显著超过现有开源模型,甚至在一些基准测试中超过一些更大规模的模型。
- 更全面的词汇覆盖:与其他基于中英文词汇的开源模型相比,Qwen使用超过15万个令牌的词汇表。对于多种语言更友好,使用户在不扩展词汇表的情况下,能够直接增强特定语言的能力。
- 系统提示:通过使用系统提示,可实现角色扮演、语言风格转换、任务设置和行为设置等功能。
Qwen2
Qwen2继承前代基于Transformer的架构,并将分组查询注意(GQA)应用于所有模型大小,提升模型推理速度并减少内存占用。
针对特定任务的Qwen2-Math、Qwen2-Audio(用于理解和总结音频输入的音频与文本模型)、Qwen2-VL相继问世。Qwen2-VL作为重要里程碑,引入诸多创新技术,如简单动态分辨率(可处理任意分辨率图像,动态转换为可变数量视觉标记)、多模态旋转位置嵌入(MRoPE,用于在文本、图像和视频等所有模态中更好地对齐位置信息),能够处理长达20多分钟的视频,并可集成到手机、机器人等设备上。
Qwen2.5
2024年9月推出Qwen2.5,包含从5亿到720亿参数的多款模型,在多达18万亿个token的大型数据集上预训练,涵盖语言、音频、视觉、编码和数学等多领域应用,支持29种以上语言,输入上下文长度达128K,输出长度可达8K。2025年1月发布的Qwen2.5-1M模型更是将上下文处理能力拓展至最多100万个token,处理速度提升3-7倍。
Qwen2.5-VL:作为2.5版本中的亮点,在数字环境中充当视觉代理,不仅能描述图像,还能与之交互,根据视觉输入进行推理和动态指导工具。采用原生动态分辨率(用于图像)、动态帧速率训练和绝对时间编码(用于视频),可处理不同尺寸图像和数小时长视频,并在Qwen2-VL基础上改进MRoPE的时间分量与绝对时间对齐,实现对长视频的有效处理。Qwen2.5-VL能够控制计算机、手机等设备,完成预订航班、检索天气信息、编辑图像、安装软件扩展等任务,功能与OpenAI的Operator相似。
Qwen2.5-Max:一个大规模混合专家(MoE)模型,在超过20万亿个token上训练,并通过监督微调(SFT)和RLHF进一步完善,性能足以与DeepSeek-V3、Llama3.1-405B、GPT-4o和Claude3.5-Sonnet等顶级大型模型相媲美甚至超越,彰显Qwen模型在高端模型领域的竞争力。
QwQ-32B:推理模型,作为增强逻辑推理的实验预览模型,密集模型,未采用MoE结构,并支持131k的上下文长度;得益于对强化学习的有效扩展,仅拥有320亿参数的QwQ-32B性能可比肩规模大得多(671B参数,37B活动参数)的DeepSeek-R1,且优于较小的o1-mini,为具备强大推理能力的AI代理开辟可能性。
Qwen2.5-Omni:
Qwen模型展现出多方面的显著优势:
| 维度 | Qwen2.5-Max | DeepSeek-R1 | GPT-4o |
|---|---|---|---|
| 参数规模 | 720B(MoE) | 671B | 1.8T |
| 训练数据量 | 20万亿tokens | 15万亿tokens | 未公开 |
| 多语言支持 | 29种(含小语种) | 12种 | 8种 |
| 工具调用准确率 | 95.8% | 93.2% | 97.1% |
| 推理速度(FP16) | 25 tokens/s(A100) | 22 tokens/s | 18 tokens/s |
| 开源程度 | 全系列开源(含MoE) | 部分模型开源 | 闭源 |
Qwen3
8个尺寸,2个MoE模型,6个密集(Dense)模型。
- Qwen3-0.6B:支持手机端部署,适用于轻量级任务,如Query改写、语义增强、意图识别、浅层打分、生成embedding做召回匹配、内容合规安全检查等。不是主模型,而是辅助模块;其目标是够快、够轻、够稳。
- Qwen3-1.7B:
- Qwen3-4B:
- Qwen3-8B:
- Qwen3-14B:
- Qwen3-30B-A3B:Qwen3-Mini,激活3B,MoE,经过后训练的模型,对应的预训练基座模型Qwen3-30B-A3B-Base,
- Qwen3-32B:
- Qwen3-235B-A22B:旗舰模型,MoE,Qwen3-Plus,总参数235B,推理时激活22B参数
模型架构类似于Qwen2.5,加以优化和改进,包括GroupedQueryAttention、SwiGLU、Rotary Positional Embeddings和RMSNorm等。
下表链接为ModelScope地址,可无缝替换为HF地址。
| Models | Layers | Heads(Q/KV) | Tie Embedding | Context Length |
|---|---|---|---|---|
| Qwen3-0.6B | 28 | 16/8 | Yes | 32K |
| Qwen3-1.7B | 28 | 16/8 | Yes | 32K |
| Qwen3-4B | 36 | 32/8 | Yes | 32K |
| Qwen3-8B | 36 | 32/8 | No | 128K |
| Qwen3-14B | 40 | 40/8 | No | 128K |
| Qwen3-32B | 64 | 64/8 | No | 128K |
| Qwen3-30B-A3B | 48 | 32/4 | 128/8 | 128K |
| Qwen3-235B-A22B | 94 | 64/4 | 128/8 | 128K |
支持两种思考模式:
- 思考模式:模型会逐步推理,经过深思熟虑后给出最终答案。非常适合需要深入思考的复杂问题;
- 非思考模式:提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
在预训练方面,Qwen3的数据集相比Qwen2.5有显著扩展。Qwen2.5是在18万亿个token上进行预训练的,而Qwen3使用的数据量几乎是其两倍,达到约36万亿个token,涵盖119种语言和方言。使用Qwen2.5-VL从文档中提取文本,并用Qwen2.5改进提取内容的质量。为了增加数学和代码数据的数量,利用Qwen2.5-Math和Qwen2.5-Coder这两个数学和代码领域的专家模型合成数据,包括教科书、问答对以及代码片段等。
预训练分为三个阶段:
- S1:通用阶段,模型在超过30万亿个token上进行预训练,上下文长度为4Ktoken。为模型提供基本的语言技能和通用知识。
- S2:推理阶段,通过增加知识密集型数据(如STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的5万亿个token上进行预训练。
- S3:长上下文阶段,使用高质量长上下文数据将上下文长度扩展到32K token,确保模型能够有效地处理更长的输入。
由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense基础模型的整体性能与参数更多的Qwen2.5基础模型相当。Qwen3-1.7B/4B/8B/14B/32B-Base分别与Qwen2.5-3B/7B/14B/32B/72B-Base表现相当。特别是在STEM、编码和推理等领域,Qwen3 Dense基础模型的表现甚至超过更大规模的Qwen2.5模型。对于Qwen3 MoE基础模型,在仅使用10%激活参数的情况下达到与Qwen2.5 Dense基础模型相似的性能。这带来训练和推理成本的显著节省。
后训练
四阶段的训练流程:
- 长思维链冷启动:构建一个包含数学、编程、逻辑推理和一般STEM问题的综合数据集;
- 长思维链强化学习:使用GRPO算法更新模型参数,采用大规模批处理和高的每个查询展开次数;
- 思维模式融合:设计聊天模板以融合思维和非思维模式,并引入思维预算机制;
- 通用强化学习:建立复杂的奖励系统,涵盖超过20个不同任务,使用基于规则的奖励、基于参考答案的模型奖励和基于人类偏好的模型奖励。
强到弱蒸馏分为两个阶段:
- 离线蒸馏:结合教师模型的输出进行响应蒸馏。
- 在线蒸馏:生成在线序列进行微调,最小化KL散度。
移除参数--reasoning-parser(以及--enable-reasoning)可禁用思考模式。
软切换机制,允许用户在enable_thinking=True时动态控制模型的行为。可在用户提示或系统消息中添加/think和/no_think来逐轮切换模型的思考模式。在多轮对话中,模型会遵循最近的指令。
Qwen3-Embedding
关于embedding的入门,可参考Embedding入门概述。

基于Qwen3基础模型构建的专用文本向量与重排模型系列模型如下,链接地址是ModelScope,可无缝替换为HF地址。
| Model Type | Models | Size | Layers | Sequence Length | Embedding Dimension | MRL Support | instruct Aware |
|---|---|---|---|---|---|---|---|
| Embedding | Qwen3-Embedding-0.6B | 0.6B | 28 | 32K | 1024 | Yes | Yes |
| Embedding | Qwen3-Embedding-4B | 4B | 36 | 32K | 2560 | Yes | Yes |
| Embedding | Qwen3-Embedding-8B | 8B | 36 | 32K | 4096 | Yes | Yes |
| Reranking | Qwen3-Reranker-0.6B | 0.6B | 28 | 32K | - | - | Yes |
| Reranking | Qwen3-Reranker-4B | 4B | 36 | 32K | - | - | Yes |
| Reranking | Qwen3-Reranker-8B | 8B | 36 | 32K | - | - | Yes |
Benchmark,解读:
- 全面领先:Qwen3 Embedding以及Reranker模型(0.6B,4B,8B)在所有测试项上均显著优于Jina、gte和BGE等竞品;
- 性能飞跃:在多语言检索基准MMTEB-R任务,Qwen3-Reranker-4B得分高达72.74,相较于BGE-reranker-v2-m3的58.36分,提升巨大。在代码检索基准MTEB-Code上,4B和8B版本得分更是超过81.0,几乎是BGE两倍。
- 高效选择:Qwen3-Reranker-4B模型在多个基准上表现甚至优于8B版本(如FollowIR),为开发者提供一个性能与效率俱佳的强大选项。
核心特点:
- 通用性与性能:在广泛的下游应用评测中均表现出SOTA性能。其向量模型在处理多种任务时效果非常强大,Qwen3-Embedding-8B模型在2025年6月5日以70.58分的成绩登顶MTEB多语言排行榜榜首。配套Reranker模型则在文本检索场景中表现突出,能显著提升搜索结果的相关性。
- 灵活性:提供多种尺寸,以满足不同场景下对效率和效果的平衡需求。开发者可无缝地组合使用这两个模块。向量模型支持MRL;向量和重排模型均支持指令感知(Instruction Aware),可通过自定义指令来增强在特定任务、语言或场景下的表现。
- 多语言:支持超过100种语言,包括多种编程语言,提供强大的多语言、跨语言和代码检索能力。
- 训练框架与架构:模型架构上,向量模型采用双编码器(dual-encoder)结构,而重排模型采用交叉编码器(cross-encoder)结构。训练上,团队沿用GTE-Qwen系列的多阶段训练范式,并做出关键创新:在弱监督训练阶段,利用Qwen3基础模型的文本生成能力,动态生成大量适配不同任务类型的弱监督数据对,有效解决传统方法在数据收集中面临的瓶颈。
MRL:Matryoshka Representation Learning,允许用户在不重新编码的情况下,根据需求(如存储成本、检索速度)灵活截取不同维度的向量(自定义输出向量维度),实现效率与效果的动态平衡。
Qwen3系列模型的卓越性能得益于其精巧的三阶段分层训练策略,确保模型兼具强大的泛化能力和任务适配性。
- 对比预训练阶段(Contrastive Pre-training):
- 目标:奠定模型广泛的语义理解基础。
- 方法:使用海量的、弱监督的(非人工精标)数据进行对比学习,让模型掌握通用的语言知识和语义关系,增强泛化能力。
- 精调阶段(Fine-tuning):
- 目标:提升模型在特定任务上的表现。
- 方法:基于预训练好的模型,采用高质量、人工标注的数据集进行监督式微调,使其在相似度判断或相关性排序等目标任务上更加精准。
- 模型融合阶段(Model Merging):
- 目标:实现性能的极致突破。
- 方法:通过先进的集成策略(如Slerp,TIES-Merging等),将多个在不同数据或超参数下训练出的优秀候选模型进行合并,取长补短,打造出性能超越任何单一模型的最终版本。

Qwen3-MT
Qwen推出的翻译模型,支持92种语言,覆盖全球95%人类语言;能根据不同领域的表达调整翻译风格;相比GPT-4.1、Qwen3-235B-A22B等模型,翻译质量不差,且处理速度更快。提供API调用方式,每一百万输出token只要2元人民币。体验地址。
使用:
translation_options = {
"source_lang": "Chinese",
"target_lang": "English",
"terms": [
{
"source": "生物传感器",
"target": "biological sensor"
}
]
}
translation_options = {
// 省略S、T
"domains": "该句子来自阿里云IT领域,主要涉及计算机相关的软件开发和使用方法,包括许多与计算机软硬件相关的术语。翻译时请注意专业故障排除术语和句式。以IT领域风格进行翻译."
}
completion = client.chat.completions.create(
model="qwen-mt-turbo",
messages=messages,
extra_body={
"translation_options": translation_options
}
)
Qwen-Flash
Qwen API包括:
- Qwen-Plus:均衡之选,复杂任务稳稳拿下
- Qwen-Flash:极速响应,轻快任务迅速完成,比Qwen-Turbo更快更划算!
- Qwen3-Coder-Flash:代码达人专属,coding agent能力再升级
Qwen-Flash优势:
- 相较于qwen-turbo-2025-04-28,通用能力大幅度提升
- 「推理能力」再升级,可完成一定难度的数学、科学、代码类等推理任务场景
- 模型中英文长尾知识能力大幅度提升
- 专项优化「主观开放类」任务,显著更加符合用户偏好,可提供更有帮助性的回复
- 专项增强「Agent能力」
- 支持1M超长上下文
Qwen3-Coder-Flash优势:
- 继承Owen3-Coder-Plus的Coding agent能力,支持多轮工具交互
- Agent能力增强,工具调用更稳定
- 支持1M超长上下文,重点优化仓库级代码理解能力
Qwen-Plus优势:
- 中英文的通用能力大幅提升,指令遵循、文本理解等表现显著增强
- 逻辑能力更强,适用于高难度+强推理场景
- 基础知识专项升级,中英文长尾知识能力大幅提升,幻觉显著减少
- 文本创作、开放对话、角色扮演等主观类任务,显著更符合用户偏好,回答更合心意
- RAG、工具调用等Agent能力更强
- 支持1M超长上下文
2507
25年7月,Qwen3的最新升级版。
Qwen3-4B-Instruct-2507
改进:
- 通用能力显著提升,更全能的端侧利器;
- 在非推理领域,全面超越闭源GPT4.1-Nano;与Qwen3-30B-A3B(non-thinking)性能接近;
- 掌握更多语言和长尾知识,回答更合你意;新模型覆盖更多语言的长尾知识,在主观和开放性任务中增强人类偏好对齐。
- 上下文理解扩展至256K
Qwen3-4B-Thinking-2507
改进:
- 推理能力大幅增强,在聚焦数学能力的AIME25高达81.3分;甚至可媲美Qwen3-30B-A3B(thinking)
- 通用能力显著提升,Agent分数爆表,相关评测均超越更大尺寸的Qwen3-30B-Thinking模型。
- 256K tokens上下文的理解能力,支持更复杂的文档分析、长篇内容生成、跨段落推理等场景。
Qwen3-30B-A3B-Instruct-2507
改进:
- 通用能力大幅提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等多方面;
- 在多语言的长尾知识覆盖方面,模型进步显著;
- 在主观和开放任务中,进一步紧密对齐用户偏好,可生成更高质量更有帮助的文本;
- 长文本理解能力提升至256K。
Qwen3-30B-A3B-Thinking-2507
改进:
- 数学超强,代码贼溜:在AIME25评测中斩获85.0的高分,在代码能力测试LiveCodeBench v6中得分66.0,两项核心推理能力均超越Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking);新模型的知识水平(GPQA、MMLU-Pro)也较上一版本进步显著。
- 善解人意,全面升级:在写作(WritingBench)、Agent能力(BFCL-v3)、多轮对话和多语言指令遵循(MultiIF)等通用能力评测中,Qwen3-30B-A3B-Thinking-2507均超越Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。
- 更长上下文:原生支持256K tokens,可扩展至1M tokens。
- 思考长度(thinking length)也增加,推荐在高度复杂的推理任务中设置更长的思考预算,以充分发挥它的潜力。
Qwen3-235B-A22B-Instruct-2507
改进:
- 通用能力显著提升,包括指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等方面,在GPQA(知识)、AIME25、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent能力)等众多测评中表现出色,超过Kimi-K2、DeepSeek-V3等顶级开源模型以及Claude-Opus4-Non-thinking等领先闭源模型。
- 在多语言的长尾知识覆盖方面,模型取得显著进步。
- 在主观及开放性任务中,模型显著增强对用户偏好的契合能力,能够提供更有用的回复,生成更高质量的文本。
- 长文本提升到256K。
Qwen3-235B-A22B-Thinking-2507
其他
LiveBench
图灵奖得主Yann LeCun联合Abacus.AI、纽约大学发起,聚焦AIGC领域模型能力测评,其核心亮点在于动态防污染机制——每月基于最新数据集、arXiv论文、新闻热点和IMDb电影梗概生成新问题,覆盖6大类18项任务,形成持续更新的评估体系。该榜单被誉为「全球首个无法被操纵的LLM基准测试」。
MTEB
https://huggingface.co/spaces/mteb/leaderboard
Massive Text Embedding Benchmark,目前最权威、最广泛使用的embedding评估基准,由HuggingFace和一批研究人员发起,旨在全面衡量嵌入模型在不同下游任务中的泛化能力。包含8大类、58个任务。
更多推荐


所有评论(0)