本地部署教程来了，全新开源推理大模型QwQ-32B，性能比肩DeepSeek满血版

本地跑 QwQ-32B，解锁企业级 AI 新姿势，隐私、成本双兼顾。

AI科技论谈

7377人浏览 · 2025-03-10 19:39:28

AI科技论谈 · 2025-03-10 19:39:28 发布

本地跑 QwQ-32B，解锁企业级 AI 新姿势，隐私、成本双兼顾。

微信搜索关注《AI科技论谈》

人工智能的应用越来越广泛。但不少人在使用 AI 模型时，都面临着 API 调用繁琐、云服务成本高，以及敏感数据隐私难以保障等问题。

现在，有了新解法！阿里巴巴的 QwQ-32B 能让你在自家电脑上跑企业级 AI。

本地部署 QwQ-32B 优势多多。不用频繁调用 API，不用给云服务续费，数据还能留在本地，隐私更安全。

本文教你如何在 Windows、macOS 和 Linux 系统上安装运行 QwQ-32B。值得一提的是，Ollama 平台上其他模型安装流程也与此类似，掌握了 QwQ-32B 的安装，就能玩转 Ollama 上的各类模型，通用性拉满。

一、本地运行QwQ-32B的好处

在深入了解具体细节之前，让我们先快速看下在本地部署QwQ-32B究竟有哪些不可忽视的优势：

隐私保护：将所有数据都保留在自己的电脑上，不用担心将敏感信息发送到云服务。
节省成本：本地安装直接省去了反复调用 API 所产生的费用。以 QwQ-32B 为例，每处理 100 万个令牌，运行成本仅 0.25 美元，相比之下，云服务成本要高得多。
定制化：使用自己的数据集对模型进行微调，根据独特需求进行调整。
灵活性：基于同一套简单流程，在本地运行 QwQ-32B 时，还能轻松在不同模型间切换，比如热门的 Llama 3、Mistol 等。这让用户能够灵活选择最适合场景的模型，拓展应用边界。

在本地运行QwQ-32B能让你完全掌控模型，而且设置过程对初学者来说非常友好。即使你以前从未打开过终端，也能在大约10分钟内完成设置并运行起来！

二、QwQ-32B的硬件要求

在本地运行QwQ-32B需要强大的硬件支持，以确保安装顺利和推理高效。以下是各平台的最低要求：

Mac
- 处理器：建议使用Apple Silicon的M1 Pro或M1 Max，以获得最佳性能。
- 内存：最低24GB。（对于更大的上下文处理，拥有48GB及以上统一内存的系统性能更佳。）
- 存储：有足够的可用磁盘空间（建议至少100GB用于存储模型文件和其他数据）。
Windows
- 处理器：支持AVX2/AVX512的现代多核CPU。
- GPU：量化版本：NVIDIA GeForce RTX 3060（12GB显存）或更高配置。全精度推理：建议使用NVIDIA RTX 4090（24GB显存）。
- 内存：至少32GB，以保证运行流畅。
- 存储：至少100GB可用空间，用于存储模型文件和相关资源。
Linux
- 处理器：支持AVX2/AVX512的多核CPU，ARM芯片也兼容。
- GPU：量化版本：NVIDIA RTX 3090或RTX 4090（24GB显存）即可。对于更大的上下文或更高精度设置，建议使用NVIDIA A6000等GPU。
- 内存：最低32GB。
- 存储：至少100GB可用空间用于存储模型。

三、如何在Windows上安装QwQ-32B

步骤1：下载并安装Ollama：

操作如下： - 访问ollama.com，点击Windows版本的下载按钮。 - 运行下载的.exe文件，无需管理员权限。 - 按照屏幕上的指示完成Ollama的安装，安装过程中会要求输入电脑密码。

步骤2：打开终端：

接下来，在Windows电脑上打开终端。你可以在开始菜单中搜索“终端”。

步骤3：安装所选模型：

安装好Ollama后，就可以安装QwQ-32B了。

在终端中输入命令：ollama run qwq。

这个命令会让Ollama运行QwQ-32B的全精度（FP16）版本。

如果系统的显存较少你也可以选择量化版本：ollama run qwq:32b-preview-q4_K_M。按下回车键后，模型开始安装。

安装完成后，你可以向模型提出一个简单问题来测试，比如：

What’s the integral of x² from 0 to 5?（x²从0到5的积分是多少？）

终端应该会显示答案，这就证明模型已安装并正常运行。

四、如何在macOS上安装QwQ-32B

步骤1：打开终端：Mac用户，尤其是使用Apple Silicon的用户，安装过程与之类似。打开终端并运行：ollama run qwq。这个脚本会在你的macOS上安装Ollama，按照安装过程中出现的提示操作即可。
步骤2：管理内存：对于内存较高（48GB及以上）的Mac电脑，你可以选择5位量化版本：ollama run qwq:32b-preview-q5_1。这个版本针对拥有强大统一内存设置的电脑进行了优化。在推理过程中，你可以使用“活动监视器”来监控内存使用情况。
步骤3：测试模型：安装完成后，在终端中输入一个查询来测试设置：> What’s your name?（你叫什么名字？）你应该会收到模型的回答，这就确认一切都按预期正常工作。

五、如何在Linux上安装QwQ-32B

要通过Ollama在Linux上安装并运行QwQ-32B模型，请按照以下步骤操作：

步骤1：安装Ollama：Ollama简化了运行像QwQ-32B这样的先进人工智能模型的设置过程。使用以下命令进行安装：curl -fsSL https://ollama.com/install.sh | sh
步骤2：安装完成后，运行ollama命令来验证Ollama是否安装成功。
步骤3：拉取QwQ-32B模型：使用Ollama下载QwQ-32B模型，运行以下命令：ollama pull qwq:32b。这将获取针对高效推理进行优化的QwQ-32B量化版本。
步骤4：运行模型：模型下载完成后，你可以在终端中直接与之交互。使用这个命令来启动模型：ollama run qwq:32b

六、可选操作：使用Docker设置Web界面

如果你更喜欢类似ChatGPT的图形界面，而不是使用命令行，那么可以使用Docker设置一个Web用户界面（UI）。这种方法技术要求稍高一些，但只需要设置一次。

步骤1：安装Docker Desktop：从Docker的官方网站下载并安装Docker Desktop。
步骤2：运行Open WebUI容器：在终端中运行：docker run -d -p 8080:8080 — gpus all -v ollama:/root/.ollama -v open-webui:/app/backend/data — name open-webui — restart always ghcr.io/open-webui/open-webui:main。这个命令会拉取容器，设置GPU访问权限，并映射必要的卷。完成后，打开网络浏览器，访问http://localhost:8080。你会看到一个类似ChatGPT的界面，在这个界面上你可以与本地模型进行交互。

七、硬件配置不足时的云解决方案

如果你的电脑不符合所需的规格，可以考虑使用云服务替代方案。例如，NodeShift提供GPU实例：

在NodeShift上注册并创建一个账户。
启动一个配备A100或A6000 GPU的GPU实例。
使用自动安装程序安装QwQ-32B：curl -sL nodeshift.com/qwq32b-install | bash。这将在云实例上设置QwQ-32B，让你可以避开硬件限制，同时仍能享受到类似本地运行的控制体验。

八、微调与定制

模型运行起来后，你可以对它进行微调，以满足自身需求。

例如，你可以使用自己的数据集创建一个定制版的QwQ-32B：ollama create qwq-custom -f Modelfile。如需更多指导，可以浏览阿里巴巴在Hugging Face上的官方仓库（https://huggingface.co/Qwen/QwQ-32B），在那里你能找到示例配置和社区贡献内容。