从Qwen3 MoE & 稠密模型性能测试-看CPU/GPU算力需求

自从通义千问推出Qwen3系列大模型，人们的注意力一下子从DeepSeek上转移出不少。有一点遗憾是235B的参数量，不见得能达到或者超过671B的效果？但这并不影响我的兴趣，因为我更关心私有部署，以及各种模型在硬件上的性能发挥。本次的Qwen3除了传统的Dense（稠密）模型之外，还包含2个MoE专家激活模型——Qwen3-30B-A3B和Qwen3-235B-A22B。其实这并不是通义千问第一

全栈大佬！

1159人浏览 · 2025-05-04 16:58:27

全栈大佬！ · 2025-05-04 16:58:27 发布

自从通义千问推出Qwen3系列大模型，人们的注意力一下子从DeepSeek上转移出不少。有一点遗憾是235B的参数量，不见得能达到或者超过671B的效果？

但这并不影响我的兴趣，因为我更关心私有部署，以及各种模型在硬件上的性能发挥。本次的Qwen3除了传统的Dense（稠密）模型之外，还包含2个MoE专家激活模型——Qwen3-30B-A3B和Qwen3-235B-A22B。其实这并不是通义千问第一次发布MoE模型，在Qwen2时就有过一款57B-A14B；不过应该说是从DeepSeek之后才吸引了人们对MoE更多的关注。

上图给出了选择不同模型的简单指导。235B-A22B（与671B相比）显存资源占用低，在同等硬件上性能更好；30B-A3B的优点类似。

不过这只是一个基本建议，在我自己动手测试之前，也只能说是了解个大概。尽管本次测试也有一定的局限性，但我觉得还是能反映出一些东西，值得作为干货来分享给大家。

Qwen3 30B-A3B MoE模型的惊艳性能表现

测试模型	参数量（激活参数量）	模型文件大小
Qwen3-4B-Q4_K_M	40亿	2.32GB
DeepSeek-R1-Distill-Qwen-7B-Q4_K_M	70亿	4.36GB
Qwen3-8B-Q4_K_M	80亿	4.68GB
Qwen3-14B-Q4_K_M	140亿	8.38GB
Qwen3-30B-A3B-Q3_K_L	300亿（30亿）	13.5GB
Qwen3-32B-Q3_K_L	320亿	16.1GB

注1：本次测试包含2种精度的模型，原则上尽量使用Q4_K_M（INT4量化精度）；由于30B和32B参数量较大，受限于测试机32GB内存的配置，选择了Q3_K_L模型用于参考对比。

注2：以上图表只是对比了相对性能，我并没有标出具体的Token/s数值，本文的目的更多是为了对比模型之间的区别。

我是用一台32GB内存、集成显卡的AI PC来测试的。在内存（含iGPU共享内存）带宽固定的情况下，我已经习惯了iGPU比CPU Core的AI算力表现更好。

另外一点规律：通常参数量越小的模型，在同样硬件上运行的速度就越快，反之亦然。就像我在《都说是7B 大模型，为什么人家只用CPU 就能吐字飞快...》中讨论过的，那个真正“飞快”的其实是1.5B。上图中我一共测试了5款Dense模型：Qwen3 4B、8B、14B、32B，以及DeepSeek R1 Distill Qwen 7B蒸馏模型。它们的表现都是符合这两点规律的。

唯一有点特别的是，我之前很少看到有人在32GB内存的笔记本上跑32B模型。实际上int4量化之后用CPU可以跑起来，但问题是：1、速度难以接受；2、如果想用性能更好的iGPU，系统内存+共享显存的开销容易超标。

由于我本次的测试机就是32GB内存，所以Qwen3-30B-A3B和Qwen3-32B模型选择了Q3_K_L（3bit量化）——其模型文件大小分别为14B的1.61和1.92倍。上面呈现出的传统32B Dense模型测试结果还是不理想，iGPU模式下可能爆内存了，所以没比CPU快太多。

为了让Qwen3-30B-A3B在iGPU上能跑流畅些，我还用了另一个办法（稍后具体讲）。MoE模型测试结果是振奋人心的。30B-A3B-Q3跑出了跟4B Q4接近的性能；而且用CPU跑出的速度，也比7B、8B的iGPU模式要强。这符合MoE模型本身的特点：内存容量开销与传统Dense模型相同，但每次激活参数少，所以对算力的需求大幅降低。此时CPU Core与iGPU的差距就被拉近了。

LM Studio：AI PC易上手的工具

本次测试我使用了LM Studio，它与Ollama的底层都是llama.cpp，Ollama出现更早应该说也更成熟一些，不过后来者也有几点优势或者说特点，我简单总结如下：

- LM Studio自带图形界面，这一点在Windows下使用方便多了；而Ollama只有命令行所以要搭配Open Webui这些。

- 官方提供适配AI PC的版本，比如想把AMD的Radeon集显用起来，从这里下载就好https://lmstudio.ai/ryzenai

- 可直接使用.gguf格式的模型文件。Ollama其实也支持，只是要先导入成自己的格式。

注：LM Studio也是在一两天之内就开始支持Qwen3系列模型（能看出识别了moe等信息）。这里我踩过一个小小坑，提醒大家一下：网上有不少人分享同名的Qwen3-XXXX.gguf量化模型文件，最好是从https://huggingface.co/lmstudio-community或者https://www.modelscope.cn/organization/lmstudio-community下载，兼容LM Studio更有保证。

在选择加载模型时，从这里可以看出模型的层数——比如Qwen3 30B A3B是48层，“GPU卸载”一项可以选择其中多少层加载到CPU/GPU。像我本次使用AI PC，在大多数情况下若想跑得快些，应该拉到最右边。如果该拉杆不能操作，可能与下面的设置有关：

如上图，当“配置运行环境”选择Vulkan llama.cpp (Windows)之后，就可以使用AMD AI PC集成的Radeon显卡来处理大模型了。

注：当前LM Studio还不支持GPU+NPU混合加速，期待将来会有吧。

以上为文本生成测试过程中的截图

测试硬件 & iGPU共享内存容量调节

以上是我本次测试的AI PC笔记本配置。

- 机型：Dell Pro 14 Plus PB14255（相当于以前的Latitude商用笔记本5000系列）

- CPU：AMD Ryzen AI 7 PRO 350

- 集成显卡：AMD Radeon 860M

- 内存：32GB LPDDR5 8000MT/s，双通道（或称4x32bit），实际工作频率7500MT/s

- NVMe SSD：1TB

上图可以看到AMD集显的一点不同之处——默认设置下，具备4xx MB（或称0.5GB）的专用显存，再加上最多可以共享一半的系统内存，约32/2=16GB。

这个“可变显示卡内存”有两种修改方式，一种是上图中的3档调节；或者下图中更多的容量选项。

为了更清晰些我还是整理个表格：

总内存容量	以32GB为例
可变显示卡内存	专用GPU内存	剩余系统内存	共享GPU内存(左边一项的50%)
Minimum（默认值）	0.5 GB	31.5 GB	15.75 GB
Medium	8 GB	24 GB	12 GB
High	16 GB	16 GB	8 GB
自定义	0.5 - 24GB	最小8 GB	最小4 GB

按照这个算法，我在《DeepSeek 能否引领AI PC 发展趋势？(技术篇)》提到的高端CPU——AMD Ryzen™ AI MAX+ 395，如果配置128GB内存，将“固定显存”设置为64GB，其“固定+可共享显存”就应该达到了96GB。

本次在用iGPU测试Qwen3 30B-A3B、32B模型时，我是将“可变显示卡内存”设置为“High”——即分配16 GB的“专用GPU内存”。具体测试32B模型时的截图如下：

“专用GPU内存”+“共享GPU内存”这种驱动上的设计，我觉得是为了适应微软Windows对集显内存共享的策略。在考虑全局内存开销时，我们可以看左边“23.8 GB” 的GPU总体内存占用了多少，再加上系统内存的开销——这两项最好都不要太贴近上限，否则会爆内存或者影响性能。

我在本次测试中用32GB内存AI PC的iGPU跑了30B、32B Q3_K_L大模型。在此基础上有长上下文需求的应用，一种传统做法是增加内存容量到64GB；或者考虑KV Cache压缩/卸载到SSD的新技术。另外，大多数生产环境不建议低于Q4_K_M精度，一些情况下可能会考虑高效的动态量化模型。

小结

按照行业共识，MoE专家模型更适合AI对话；RAG知识库等还是用传统Dense模型比较好。这一次Qwen3 30B-A3B无疑是对端侧算力需求的大幅降低，期待有更好的应用出现。

上图是我在AMD文档《WHAT INFRASTRUCTURE WORKS BEST FOR INFERENCE?》中看到过的，高核数服务器CPU也可以适用于一些不超过20B参数的Transformers/LLM应用。

本次我测试的笔记本CPU，是4x Zen5 + 4x Zen5c一共8核，22-25W功耗释放。从另一个角度来看，如果换成EPYC服务器，算力和内存带宽还能提高许多，如果跑Qwen3 30B-A3B这样的模型应该可以有更高的性能和并发支持表现。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

一文搞懂 Deepseek

DeepSeek技术社区

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

HAproxy服务器（带日志）

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置