
Qwen3 发布,阿里也要靠多模态和性价比打天下了
今天凌晨,阿里云正式发布了Qwen3系列,一口气开源了从0.6B到235B共8款模型:2个MoE大模型和6个Dense大模型,构成了阿里完整的模型矩阵。这次Qwen3的开源重塑了大模型标准,可以说在“后DeepSeek R1”时代,以阿里为代表的国内大厂,正在借助产品化思维,以性价比和多模态能力全方位抢夺DeepSeek的市场影响力。这回阿里云开源的Qwen3,在架构、性能、推理速度和应用方向上均
今天凌晨,阿里云正式发布了Qwen3系列,一口气开源了从0.6B到235B共8款模型:2个MoE大模型和6个Dense大模型,构成了阿里完整的模型矩阵。
这次Qwen3的开源重塑了大模型标准,可以说在“后DeepSeek R1”时代,以阿里为代表的国内大厂,正在借助产品化思维,以性价比和多模态能力全方位抢夺DeepSeek的市场影响力。
01
Qwen3再一次拉高了世界开源标准
这回阿里云开源的Qwen3,在架构、性能、推理速度和应用方向上均有较大创新和提升。Qwen3系列在模型架构上采用了MoE(混合专家)架构。
旗舰模型 Qwen3-235B-A22B 拥有约2350亿的总参数量,在每次推理时仅仅激活约220亿参数,性能极其耐打,在综合能力、代码与数学、多语言能力、知识与推理等多项基准测试中,都能与DeepSeek R1、OpenAI o1、o3-mini、Grok 3和谷歌Gemini 2.5 Pro等目前市场上的主流大模型相抗衡。
一个亮点是:Qwen3-4B模型凭借极低的参数量,在一系列基准测试中与GPT-4o(2024-11-20版本)打了个有来有回。这体现了阿里在推理效率上的提升并非以牺牲能力为代价。
其轻量化模型Qwen3-30B-A3B和32B,在许多任务上的表现也足够令人满意。
除了基准测试上亮眼的表现外,Qwen3系列这回的一个主要创新特点是:混合思考模式。这种设计让用户能根据任务难度控制模型的推理量:思考模式下,模型能够逐步推理,适合复杂问题,强调深度思考。无思考模式:模型快速响应,适合简单问题,优先速度。难问题用更多推理,简单问题快速解答。
并且,Qwen3为了在国际应用端扩展影响力,已经能够支持119种语言和方言。外网的各国网友对其的评价都很不错,横向对比的话,Qwen3已经追上或者超越了OpenAI o1、谷歌Gemini 2.5 Pro。
Qwen3还针对最近半年爆火的“AI智能体”概念做出了优化,强调了“智能体”能力。比如它们强化了Qwen3 模型的编码和代理能力,并增强了对 MCP 的支持,让Qwen3 学会如何思考以及如何与环境交互。
在预训练方面,Qwen3 的数据集相比 Qwen2.5 几乎翻了一倍,达到了3.6万亿个token,覆盖了更广泛的领域知识和语境,再度提升了在复杂任务处理和多语言场景中的表现。
这回Qwen3系列的开源,统一采用Apache 2.0开源协议开放权重。通过“小杯-中杯-大杯-超大杯”的产品逻辑构建了一个完整的“Qwen宇宙”。
综合来看,Qwen3 在单纯的技术性能、成本价格、工具调用和MCP调用等所有方面获得了全面的提升,其已经将开源世界的标准提升了一个层次。
02
DeepSeek光环下的大厂百态
4月25日的2025百度AI开发者大会上,百度创始人李彦宏点名批评DeepSeek“不是万能的,它只能处理单一的文本,不能理解声音、图片、视频等多模态内容。更大的问题是慢和贵,中国市场上绝大多数大模型API的价格都更低,而且反应速度更快。”
他点出了DeepSeek庞大光环下,中国的大厂正在走向用性价比抗衡DeepSeek的现状:用更小参数,更低成本的方式,实现更快的响应,完成不属于DeepSeek的多模态效果。
阿里的Qwen3迅速引入MoE架构和双模式推理设计,将庞大模型在实际使用中的成本大幅降低。凭借DeepSeek R1三分之一的参数量,性能全面超越R1。
首先,Qwen3的MoE架构使得推理过程中仅激活部分专家,从而降低了实际计算开销。例如,Qwen3-235B-A22B虽然总参数达235B,但每个token只需计算其中约9%(22B)的参数。这意味着在相近硬件条件下,其推理延迟并不像参数规模看上去那样高不可攀。
其次,Qwen3的双模式推理设计高效地分配算力。在“非思考模式”下,模型可直接生成答案,实现接近即时的响应;而在需要“思考模式”时,才投入额外计算资源进行多步推理。这种按需分配计算的策略,使模型在大部分简单交互中保持了快速性,又能在关键时刻发挥深度推理能力。
这其实与腾讯的双轨思路相似。2025年2月13日,腾讯元宝接入DeepSeek R1满血版,几天之后就上线了 “强推理深度思考模型”混元T1模型,随即混元团队官宣Turbo S模型上线测试,号称在响应速度上比DeepSeek R1更快。Turbo模型针对日常对话进行优化,弱化长链推理而追求即时回答能力。腾讯内部的AI助手“元宝”应用中,就集成了Turbo快思考和T1深思考两种模型,允许用户在需要详细推理时调用T1,平时默认用Turbo即时回答。
这种双轨策略,与阿里Qwen3单模型双模式有异曲同工之妙,都是为不同复杂度的问题提供差异化模型,既保证效果又保证速度。
DeepSeek R1自从正式上线以来,其幻觉现象频发就成为了各大厂商瞄准的攻坚对象。
百度就是其中的代表。百度在国内大模型竞争中经历了一个明显的策略转折:从最初坚持闭源、寻求商业变现,到在DeepSeek等冲击下宣布开源、全面免费的重大转向。
2025年3月16日,百度如期发布了文心大模型4.5。文心4.5被定义为百度首个“原生多模态”大模型,具备图像、文本、音频等多模态联合理解与生成能力。它引入了深度思考能力,能够进行复杂问题的逐步推理,并集成了百度自研的iRAG检索增强技术。
通过“深度搜索”功能,文心4.5可以自动检索外部知识以回答用户问题,显著降低了幻觉率,这也是百度迎战DeepSeek的底气所在。
在价格方面,百度也正在开始加码。前几天的百度AI开发者大会上发布的文心4.5Turbo,相比于文心4.5价格下降80%,每百万token的输入输出价格仅为DeepSeek V3的40%。DeepSeek的成本优势正在大厂们的面前荡然无存。
字节跳动为了应对DeepSeek的竞争,则将自身的产品重心放在了多模态上。从旗下火山引擎团队于2024年5月首次对外全面介绍了代号“豆包”的大模型家族,一口气亮相了9个模型开始,豆包就着重多模态模型上的发展。
与其他厂商喜欢强调模型参数和基准测试成绩不同,字节刻意淡化参数规模与榜单,转而突出实际落地效果和低使用门槛,力求让大模型真正融入多样化的实际场景。
本月中旬,豆包1.5深度思考模型上线,除了在数学推理、编程竞赛、科学推理等专业领域上表现超越DeepSeek R1之外,最大的亮点是Doubao-1.5-thinking-pro-vision具备了视觉推理理解能力,同时豆包文生图模型3.0版本发布,进一步丰富了多模态生态。
字节跳动的多模态战略背后,是敏锐感知到了大模型从技术概念转向产品概念的路径。后DeepSeek R1时代里,单纯追求参数规模和技术指标的提升已不足以构建产品护城河了。
字节跳动带着这家宇宙大厂的“互联网基因”,加入了大模型竞争。多模型并进确保了其在文本、语音、图像各方面全面开花;极低价格和广泛产品植入为其赢得了规模和数据。
总的来看,除了单纯的专业领域的基准测试刷分之外,价格、响应、多模态都已经成了各大厂商应对DeepSeek竞争的有力武器。当基础语言对话能力很难拉开差距时,各大厂用产品思维找到了迅速突围DeepSeek的差异化功能。
03
开源生态的长短期利益结合
随着DeepSeek、Llama、Qwen、智谱在开源生态构建上付出了越来越多的努力,开源已经成为主流路线之一。过去大厂倾向于闭源谋利,而如今开源被证明是赢得生态和快速迭代的有效途径。DeepSeek进一步刺激了大厂拥抱开源生态的决心,阿里全面开源千问证明了 “模型开源是AI时代的主题”。
不难看出,国内大模型正走向一个比拼综合实力和效率的时代,而不再仅以参数和单点性能论英雄。
Qwen3、DeepSeek以及腾讯、百度、字节的各种“模型”迭代实践,折射出了一种转变:大家都在追求更高的性价比——既要性能足够好,又要成本足够低、应用足够广。
可以说,我们正在进入AI的下半场。
OpenAI的研究员姚顺雨前段时间曾发长文,探讨AI的下半场该专注于哪里:“从现在开始,AI将从解决问题转向定义问题。为了在‘下半场’蓬勃发展,人们需要及时转变思维方式和技能,更接近产品经理的水平。”
根据晚点访谈,阿里云CTO、通义实验室负责人周靖人对于开源大模型的战略意义:首先,模型作为核心生产要素,开源能加速其普及,推动产业快速发展;其次,开源已成为大模型创新的重要驱动力。
可以预见的是:国内大模型的落地方向将更加贴近实际应用,不再只是实验室里的模型比拼。这也给开源大模型的参数效率、推理成本提供了一个更加激烈的竞争区域。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
更多推荐
所有评论(0)