通义千问Qwen3性能超越Kimi-K2、DeepSeek-V3，全球最强开源模型来了！

阿里巴巴发布Qwen3-235B大模型，在数学推理、编程能力、多语言支持等方面表现优异，全面超越主流开源及闭源模型。该模型采用混合推理模式和MoE架构，显著提升性能并降低成本，支持256K长文本处理。已开源8款不同规模模型，覆盖端侧到云端需求，在医疗、金融等领域应用效果显著。评测显示其推理成本仅为竞品的1/3-1/20，成为最具性价比的开源大模型之一。未来将加强多模态能力，进一步拓展应用场景。

m0_63171455

1759人浏览 · 2025-07-23 11:02:50

m0_63171455 · 2025-07-23 11:02:50 发布

7月22日，阿里巴巴通义千问团队发布旗舰模型 Qwen3 的重大更新 ——Qwen3-235B-A22B-Instruct-2507-FP8，这一版本在性能、功能和应用场景上实现了多项突破，尤其在通用能力、长文本处理和多语言支持方面表现突出，被多家权威机构评为当前全球最强开源模型之一。

01.性能全面超越顶级开源与闭源模型

Qwen3 在 GQPA（知识）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（人类偏好对齐）、BFCL（Agent 能力）** 等权威测评中，全面超越 Kimi-K2、DeepSeek-V3 等顶级开源模型，以及 Claude-Opus4-Non-thinking 等领先闭源模型。

数学推理：在 AIME25 测试中得分为 81.5 分，接近 Gemini-2.5-Pro 的 86.7 分，远超开源模型平均水平。例如，处理复杂几何问题时可通过穷举法生成严谨的解题步骤，甚至能解析高考压轴题的深层逻辑。

编程能力：LiveCodeBench 评测得分 70.7 分，逼近 GPT-4 的 73.2 分，可生成包含错误处理机制的 Python 脚本，效率提升 50%。实测中，程序员使用 Qwen3 生成游戏代码时，模型不仅输出可运行程序，还自动列出常见 bug 解决方案，被戏称为 “比组长更可靠”。

多语言能力：支持 119 种语言和方言（如粤语、藏语），在 MultiIF（8 语言）测试中得分为 71.9 分，翻译准确率较 Llama4 提升 23%，覆盖全球 90% 人口。例如，用户用德语提问时，模型思考过程使用英语，但回答自动切换为德语，且在复杂对话中能保持语言一致性。

长文本处理：上下文窗口扩展至 256K（约 20 万字），可处理整部《资治通鉴》级别的文本，处理 2000 页 PDF 文档仅需 11 分钟，远超同类模型的 35 分钟平均耗时。某投研团队实测显示，分析三家公司十三年财务数据时，Qwen3 生成的对比图表精准度令专业分析师惊叹。

02.技术创新与架构优化

Qwen3 的性能跃升得益于底层技术的多项突破。

混合推理模式：首创 “快思考” 与 “慢思考” 双系统。非思考模式下，简单任务（如天气查询）响应速度达 0.3 秒，推理成本仅为慢思考模式的 1/5；思考模式下，复杂问题（如数学证明）通过多步骤深度推理，准确率较前代提升 47%。例如，用户询问 “7 米长甘蔗如何通过2米高、1米宽的门” 时，模型通过三维空间建模推导出倾斜角度方案，并给出详细计算过程。

MoE 架构革命：旗舰模型 Qwen3-235B-A22B 总参数量 2350 亿，但推理时仅激活 220 亿参数，显存占用为同性能模型的 1/3。4 张 H20 显卡即可部署满血版，硬件成本较 DeepSeek-R1 降低 60%。这种动态路由机制使模型在处理数学、代码等任务时，可自动调度对应专家模块，如调用 “几何推理专家” 处理空间几何题，准确率提升 28%。

训练数据与流程：预训练数据量达 36 万亿 token（较 Qwen2.5 翻倍），涵盖 STEM、代码、长文本等领域，并通过 Qwen2.5-VL 从 PDF 中提取结构化数据。四阶段后训练流程（含强化学习）显著降低幻觉率至业界头部水平（低于 2.8%），在医疗、金融等低容错场景中表现可靠。

03.开源生态与应用落地

Qwen3 系列已在Hugging Face、魔搭社区等平台开源，提供从 0.6B 到 235B 共 8 款模型，覆盖端侧到云端全场景需求。

端侧部署：Qwen3-4B 模型性能媲美前代 72B 版本，可在手机、笔记本等设备流畅运行，某大学生用游戏本部署后，宿舍楼连夜掀起 “AI 编程热潮”。

企业级应用：32B 模型支持金融风控、医疗辅助诊断等复杂场景。例如，某三甲医院部署后，罕见病诊断准确率提升 42%；恒生电子基于 Qwen3 开发的智能投顾系统，交易策略胜率提升 9 个百分点。

科研与创新：235B 模型开放完整训练日志，助力学术界突破大模型理论瓶颈。开发者社区已涌现出法律文书分析、多语言翻译等 100 + 衍生应用，GitHub 星标数 72 小时内突破 18.5k。

04.业界评价与未来发展

独立第三方评测机构Artificial Analysis将 Qwen3 列为全球前五、开源第一，其推理成本（0.3 美元 / 百万 Tokens）仅为 DeepSeek-R1 的 1/3、Claude 3.7 的 1/20。SuperCLUE中文评测显示，Qwen3 系列在推理任务中全面超越闭源模型，4B、8B 版本得分均超 50 分，性价比突出。

尽管 Qwen3 在通用能力上表现卓越，但仍存在跨模态推理较弱（如图像与文本结合任务）、小众专业领域知识覆盖不足（如量子物理、古代汉语）等局限。未来，随着多模态版本 Qwen3-VL 的发布（已在 13 项评测中超越 GPT-4o），以及 MCP 协议的深度集成，Qwen3 有望进一步拓展应用边界，推动 AI 在企业级 Agent、多模态交互等场景的落地。

目前，Qwen3 已成为全球开发者和企业的首选开源模型之一，其技术突破不仅重塑了开源大模型格局，更以 “高性能 + 低成本” 策略挑战闭源垄断，为人工智能的普惠化应用提供了新范式。

大模型&AI产品经理如何学习

求大家的点赞和收藏，我花2万买的大模型学习资料免费共享给你们，来看看有哪些东西。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

1.学习路线图

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

聊聊我是怎么用AI提高工作效率的

DeepSeek技术社区

命令行里的 AI 生产力：Windows 终端集成 DeepSeek 与 Claude 实践

在现代开发流中，频繁的上下文切换（Context Switching）是阻碍生产力的核心瓶颈。传统的 Web 端交互虽直观，但在 Windows 开发环境下，通过终端（Terminal）直接调用 LLM 能提供更纯粹、更高效的协作体验。本文旨在探讨如何在环境下深度集成DeepSeek与Claude，构建一套标准化、轻量化的 AI 接入范式。核心优势分析：终端方案基于 API 的无状态通信，规避了