通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI 一键部署教程：Ubuntu 20.04系统环境快速配置

本文介绍了如何在星图GPU平台上自动化部署通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI镜像，快速搭建个人AI对话服务。通过简单的Docker命令，用户即可在Ubuntu 20.04系统上启动该模型，并通过Web界面进行智能对话、文本生成等应用，轻松体验大语言模型的便捷交互。

黄冈新学爸

18人浏览 · 2026-03-20 01:44:10

黄冈新学爸 · 2026-03-20 01:44:10 发布

通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI 一键部署教程：Ubuntu 20.04系统环境快速配置

你是不是刚拿到一台Ubuntu 20.04的服务器，想快速体验一下通义千问大模型，结果被一堆环境配置、驱动安装搞得头大？别担心，这篇教程就是为你准备的。咱们今天不聊复杂的原理，就手把手带你走一遍从零开始，在星图GPU平台上把通义千问1.5-1.8B-Chat-GPTQ-Int4这个轻量级模型的服务跑起来，让你能通过一个清爽的Web界面直接对话。

整个过程其实比你想象的要简单，核心就是“一键部署”。你只需要跟着步骤走，大概二三十分钟，就能拥有一个属于自己的大模型对话服务。下面，咱们就开始吧。

1. 准备工作：检查你的“装备”

在动手之前，先确认一下你的服务器是不是满足基本要求。这就像做饭前要看看厨房有没有锅碗瓢盆一样。

首先，你需要一台安装了Ubuntu 20.04操作系统的服务器。为什么是20.04？因为它是一个长期支持版本，社区资源丰富，遇到问题好解决。你的服务器最好有GPU，因为大模型推理用GPU会快很多。当然，纯CPU也能跑，只是速度会慢一些。

打开你的终端，用ssh连上服务器。我们先来快速检查几个关键信息：

查看系统版本：
```
lsb_release -a
```
输出里应该能看到 Description: Ubuntu 20.04.x LTS。
查看有没有GPU（可选，但有的话体验更好）：
```
lspci | grep -i nvidia
```
如果能看到NVIDIA显卡的信息，那就说明硬件是OK的。
检查磁盘空间：
```
df -h
```
建议系统盘至少有20GB以上的剩余空间，因为我们要安装驱动、拉取镜像，这些都会占用空间。

好了，确认基础环境没问题，咱们就进入正题，开始配置。

2. 第一步：给系统“打基础”

一台干净的Ubuntu系统，需要先安装一些必要的软件包和工具，这就像盖房子前要打好地基。

2.1 更新软件源和系统

首先，我们把系统的软件列表更新到最新，并升级所有已安装的包。打开终端，依次执行：

sudo apt update
sudo apt upgrade -y

这个-y参数是自动回答“yes”，省得我们一直确认。这个过程可能会花几分钟，取决于网络和更新包的数量。

2.2 安装必要的依赖工具

接下来，安装一些后续步骤会用到的工具，比如curl（用来下载文件）、wget（另一个下载工具）、git（版本管理，虽然这里不一定用，但常备无患）等。

sudo apt install -y curl wget git vim net-tools

另外，因为我们最终要通过浏览器访问服务，所以需要确保服务器开放了相应的端口。我们可以用ufw这个防火墙工具来管理，先把它装上：

sudo apt install -y ufw

基础打好了，接下来是关键的一步——配置GPU环境。如果你用的是带GPU的服务器（比如星图平台提供的），这一步能极大提升模型运行速度。

3. 第二步：配置GPU驱动与CUDA（GPU用户必看）

如果你确认服务器有NVIDIA GPU，那么请跟着这一步走。如果只有CPU，可以跳过整个第三步，直接看第四节。

3.1 安装NVIDIA驱动

Ubuntu 20.04自带的驱动管理工具ubuntu-drivers很好用，它能自动检测并推荐合适的驱动。

# 首先，添加官方的显卡驱动PPA源
sudo add-apt-repository ppa:graphics-drivers/ppa -y
sudo apt update

# 自动检测并安装推荐的驱动
sudo ubuntu-drivers autoinstall

安装完成后，必须重启服务器让驱动生效。

sudo reboot

重启后，重新ssh连接服务器，输入以下命令验证驱动是否安装成功：

nvidia-smi

如果看到类似下面的输出，显示了GPU型号、驱动版本和CUDA版本信息，那就恭喜你，驱动安装成功了。

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.03   Driver Version: 470.182.03   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:00:1E.0 Off |                    0 |
| N/A   34C    P8    10W /  70W |      0MiB / 15109MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

注意看CUDA Version那一项，它显示的是驱动支持的最高CUDA版本，我们接下来需要安装匹配的CUDA Toolkit。

3.2 安装CUDA Toolkit

CUDA是NVIDIA推出的并行计算平台。我们选择安装CUDA 11.8，这是一个比较稳定且兼容性好的版本。从NVIDIA官网直接下载安装脚本会比较方便。

# 下载CUDA 11.8的安装脚本
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run

# 运行安装脚本
sudo sh cuda_11.8.0_520.61.05_linux.run

运行安装脚本后，会出现一个文本界面。这里要注意：

按空格键翻页到最下面。
通过上下箭头移动光标，回车键选中或取消。
确保取消勾选 Driver，因为我们已经装好驱动了，只安装CUDA Toolkit即可。
勾选 CUDA Toolkit 11.8，然后选择 Install 开始安装。

安装完成后，需要将CUDA路径添加到系统环境变量，这样系统才能找到它。

# 编辑当前用户的配置文件（如果你用的是bash）
echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

# 让配置立即生效
source ~/.bashrc

验证CUDA是否安装成功：

nvcc --version

如果正确输出了CUDA编译器的版本信息（如 release 11.8），那么CUDA环境就配置好了。

4. 第三步：拉取并启动通义千问WebUI镜像

前面的铺垫工作都做完了，现在进入最核心、也是最简单的一步——使用Docker一键部署。Docker容器技术能把应用和它需要的所有环境打包在一起，我们直接运行这个“包裹”就行，省去了在本地安装Python、PyTorch等各种依赖的麻烦。

4.1 安装Docker

如果你的系统还没有安装Docker，可以用下面的命令快速安装：

# 卸载旧版本（如果有）
sudo apt remove docker docker-engine docker.io containerd runc -y

# 安装依赖
sudo apt update
sudo apt install -y apt-transport-https ca-certificates curl software-properties-common

# 添加Docker官方GPG密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

# 添加Docker软件源
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"

# 安装Docker引擎
sudo apt update
sudo apt install -y docker-ce docker-ce-cli containerd.io

# 将当前用户加入docker组，这样就不用每次都加sudo了
sudo usermod -aG docker $USER

重要：执行完用户组修改后，你需要完全退出当前的SSH会话，然后重新登录，这个改动才会生效。

重新登录后，验证Docker安装成功：

docker --version

4.2 拉取并运行通义千问镜像

星图镜像广场已经为我们准备好了打包好的通义千问WebUI镜像，我们直接拉取运行即可。这个镜像包含了模型、Web界面和所有依赖。

# 拉取镜像（镜像较大，请耐心等待）
docker pull csdnpai/qwen1.5-1.8b-chat-gptq-int4-webui:latest

# 运行容器
docker run -d --name qwen-webui \
  --gpus all \
  -p 7860:7860 \
  csdnpai/qwen1.5-1.8b-chat-gptq-int4-webui:latest

我来解释一下上面docker run命令的几个参数：

-d：让容器在后台运行。
--name qwen-webui：给容器起个名字，方便管理。
--gpus all：将宿主机的所有GPU都分配给这个容器使用。如果你是CPU服务器，去掉这个参数即可。
-p 7860:7860：端口映射。将容器内部的7860端口映射到宿主机的7860端口。这样我们通过访问服务器的7860端口就能连上Web界面了。

运行成功后，可以用下面的命令查看容器状态：

docker ps

你应该能看到一个名为qwen-webui的容器正在运行（STATUS 显示为 Up）。

5. 第四步：配置防火墙与访问WebUI

服务已经在容器里跑起来了，但我们的服务器防火墙可能还关着门。我们需要打开一扇“门”（端口），让外部的浏览器能访问进来。

5.1 配置防火墙开放端口

我们使用之前安装的ufw工具来开放7860端口。

# 允许7860端口的传入连接
sudo ufw allow 7860/tcp

# 启用防火墙（如果之前没启用的话）
sudo ufw --force enable

# 查看防火墙状态，确认7860端口规则已添加
sudo ufw status verbose

在输出中，你应该能看到一条类似 7860/tcp ALLOW IN Anywhere 的规则。

5.2 通过浏览器访问WebUI

现在，一切就绪！打开你本地电脑的浏览器，在地址栏输入：

http://你的服务器IP地址:7860

将“你的服务器IP地址”替换成你Ubuntu服务器的实际公网IP。

稍等片刻（第一次加载可能需要一点时间初始化模型），一个简洁的Web聊天界面就会出现在你面前。你可以在输入框里向通义千问1.5-1.8B模型提问了，比如“你好，请介绍一下你自己”，或者让它帮你写段代码、总结文章，试试看它的反应吧！

6. 常见问题与小贴士

部署过程基本都是一帆风顺的，但偶尔也会遇到点小波折。这里我总结几个可能会碰到的问题和解决办法。

问题：访问 http://IP:7860 打不开页面。
- 检查1： 确认容器是否在运行。执行 docker ps，看看qwen-webui容器是不是Up状态。如果不是，用 docker logs qwen-webui 查看容器日志找错误原因。
- 检查2： 确认防火墙端口是否开放。执行 sudo ufw status，确认7860端口是ALLOW状态。
- 检查3： 如果你是在云服务器上，还需要去云服务商的控制台（比如安全组规则）检查，是否放行了服务器的7860端口入站流量。
问题：GPU版容器启动失败，提示CUDA错误。
- 解决： 大概率是CUDA版本或驱动不兼容。请严格按照第三步的步骤，确保nvidia-smi和nvcc --version都能正确输出，且CUDA版本是11.x。可以尝试重启Docker服务：sudo systemctl restart docker，然后重新运行docker run命令。
小贴士：如何管理容器？
- 停止服务： docker stop qwen-webui
- 启动服务： docker start qwen-webui
- 重启服务： docker restart qwen-webui
- 删除容器（会清除对话记录等数据）： docker rm -f qwen-webui
- 查看实时日志： docker logs -f qwen-webui
小贴士：模型加载慢？
- 第一次启动时，模型需要从磁盘加载到GPU或内存，可能会花一两分钟，这是正常的。后续对话响应就会快很多。