Qwen3震撼发布！全面超越DeepSeek R1，引领Agent时代

这得益于其在任务分解、工具调用和响应结构上的深度重构，使其能高效处理多步骤、跨工具的复杂指令。以颠覆性的性能表现和创新能力，直接刷新了全球大模型领域的多项记录。从学术基准到实际应用，从Agent能力到部署效率，Qwen3均展现出对竞品的全面压制，堪称国产大模型的里程碑之作。实测显示，模式切换几乎不损耗性能，展现了深厚的大模型工程化能力。上，Qwen3紧追Gemini 2.5 Pro，显著优于Ope

东方金木

767人浏览 · 2025-04-29 12:34:16

东方金木 · 2025-04-29 12:34:16 发布

今天（2025年4月29日），阿里巴巴通义实验室正式开源新一代超大规模语言模型 Qwen3 ，其旗舰模型 Qwen3-235B-A22B 以颠覆性的性能表现和创新能力，直接刷新了全球大模型领域的多项记录。从学术基准到实际应用，从Agent能力到部署效率，Qwen3均展现出对竞品的全面压制，堪称国产大模型的里程碑之作。

（使用lmstudio 全尺寸都可使用）

一、性能全面超越：代码、数学、推理三线突破

在主流学术测试中，Qwen3实现了对当前最强闭源模型 DeepSeek R1 的全面超越，尤其在以下核心领域表现亮眼：

代码能力登顶：
在 LiveCodeBench 和 Codeforces 榜单中，Qwen3不仅碾压所有开源模型，甚至力压谷歌的 Gemini 2.5 Pro ，成为目前代码生成领域的绝对王者。无论是算法设计还是工程实践，Qwen3均展现出了接近人类顶尖程序员的水平。
数学与推理霸榜：
面向高难度数学竞赛任务的 AIME’24/25 测试中，Qwen3大幅领先DeepSeek R1；而在多语言复杂推理任务 MultiIF 中，其泛化能力也达到了新高度。更令人惊叹的是，在综合型推理榜单 ArenaHard 上，Qwen3紧追Gemini 2.5 Pro，显著优于OpenAI o1和DeepSeek R1，稳坐开源模型头把交椅。

二、原生支持MCP协议：为Agent时代而生

随着大模型从“对话”走向“执行”，Qwen3在Agent能力上的投入尤为值得关注：

Agentic能力全面优化：
在专门评估智能体（Agent）任务执行能力的 BFCL 评测中，Qwen3以 70.8 的超高得分远超DeepSeek R1（56.9）和Gemini 2.5 Pro，刷新行业记录。这得益于其在任务分解、工具调用和响应结构上的深度重构，使其能高效处理多步骤、跨工具的复杂指令。
首推MCP协议支持：
Qwen3成为首个原生支持 MCP（Model Control Protocol） 的开源模型。这一协议允许开发者通过标准化接口控制模型行为（如限制输出长度、强制调用插件等），为构建可靠的企业级Agent应用提供了底层保障。据官方演示，Qwen3已能无缝集成文件操作、数据库查询等工具链。

三、混合推理机制：一脑双模，灵活切换

Qwen3引入了一项开创性功能——混合推理（Hybrid Reasoning），国内首创，直击用户痛点：

两种模式自由切换：
- 快问快答模式（非推理）：适用于简单问答，响应速度提升3倍以上，算力消耗降低50%。
- 深度思考模式（推理）：针对复杂问题（如数学证明、逻辑推演），支持自定义最大思考步数。
  用户可通过API参数（enable_thinking=True）或指令（/think//no_think）动态切换，兼顾效率与精度。
技术实现门槛极高：
阿里团队通过精细化的训练策略、特殊设计的损失函数调度系统，成功让同一模型稳定掌握两种输出分布。实测显示，模式切换几乎不损耗性能，展现了深厚的大模型工程化能力。

四、开源生态再升级：全家桶+超低成本部署

Qwen3并非单一模型，而是一个覆盖全场景的开源生态：

1. 八款模型矩阵

类型	模型名称	参数量	特点
Dense	Qwen3-0.6B ~ 32B	0.6B~32B	轻量级适配端侧设备
MoE	Qwen3-30B-A3B	30B（激活3B）	中等规模高效推理
MoE	Qwen3-235B-A22B	235B（激活22B）	旗舰级全能王