保姆级教程：QwQ-32B星海云上实战！颠覆认知！32B模型比肩671B DeepSeek

阿里开源QwQ-32B模型，性能媲美671B DeepSeek！本教程教你在星海智算平台快速部署，单台4090D即可运行。体验高效AI，快来尝试！

天王盖地虎133

1421人浏览 · 2025-03-07 13:42:30

天王盖地虎133 · 2025-03-07 13:42:30 发布

就在昨天，阿里开源了最新的QwQ-32B推理模型，跑分不输671B的满血版DeepSeek R1。
在这里插入图片描述
该模型基于Qwen2.5-32B结合强化学习炼成，未采用MoE（Mixture of Experts）架构，使得其在单台机器上能够高效运行。QwQ-32B的上下文长度高达131k。

之前的DeepSeek，即使在云平台上也只能部署蒸馏版模型，无法个人部署满血版的模型，而这次的32B模型可以在单张4090D上面完美运行，尝鲜者的福音来了！

以下为在星海智算平台部署并推理QwQ-32B的教程：

1、使用云平台创建实例

星海智算是一个专为AI而生的GPU算力平台，提供4090、4090D、A100、V100、3090等多种型号的主流GPU。价格便宜，4090一个小时费用不超过2块钱。
注册网址为：星海智算，完成实名认证并首充6元以上会赠送10元代金券，也可通过邀请链接注册（https://gpu.spacehpc.com/user/register?inviteCode=21735375），还会再送10元代金券。

进入星海智算平台的用户控制台后，可以在GPU实例栏选择创建实例，我这里选择的是西北B区的4090D，镜像选择Ubuntu24.04/CUDA12.4/cuDNN9.4，磁盘扩容到60G。
在这里插入图片描述
等待1-2分钟，状态栏变为“运行中”后，点击JupyterLab。

进入JupyterLab后，开一个终端。

在这里插入图片描述

终端内会自动显示CPU、内存、显卡、磁盘等信息。

在这里插入图片描述

2、用Ollama部署QwQ-32B

2.1 安装Ollama

在Ollama的下载页面（https://ollama.com/download），选择Linux系统，复制命令部署Ollama

curl -fsSL https://ollama.com/install.sh | sh

在这里插入图片描述

复制命令在之前打开的云平台的终端中运行，如下如下图所示结果就意味着Ollama安装成功了
在这里插入图片描述

2.2 用Ollama部署QwQ-32B

进入以下页面，可以看到QwQ-32B的模型信息。
https://ollama.com/library/qwq
在这里插入图片描述
复制右边的命令到终端中，即可下载并使用QwQ-32B模型。

ollama run qwq

在这里插入图片描述
图中跟大模型交互的方式为命令行界面，使用体验不好，可以安装Open WebUI前端来交互，可以先按Ctrl + d 键退出Ollama交互界面。

3、安装并使用Open WebUI

Open WebUI是一个可扩展、功能丰富且用户友好的自托管AI平台，设计用于完全离线操作。它支持各种LLM运行器，如Ollama和与OpenAI兼容的API，内置用于RAG的推理引擎，使其成为强大的AI部署解决方案。

3.1 安装Open WebUI

运行以下命令安装Open WebUI，中间需要选择y和N的地方，按y并回车。

conda create -n open-webui python=3.11    #创建open-webui虚拟环境
conda activate open-webui    #启动open-webui虚拟环境
pip install open-webui    # 安装Open WebUI
pip install ffmpeg    #安装依赖：ffmpeg

3.2 使用Open WebUI跟大模型对话

3.2.1 运行Open WebUI服务
运行以下代码运行Open WebUI

conda deactivate    #关闭open-webui虚拟环境
conda activate open-webui    #启动open-webui虚拟环境
source /etc/network_turbo    #开启网络加速
open-webui serve --port 7860    #运行open-webui并指定7660端口

出现下图所示图标，说明运行成功
在这里插入图片描述