通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI 一键部署教程:Ubuntu 20.04系统环境快速配置

你是不是刚拿到一台Ubuntu 20.04的服务器,想快速体验一下通义千问大模型,结果被一堆环境配置、驱动安装搞得头大?别担心,这篇教程就是为你准备的。咱们今天不聊复杂的原理,就手把手带你走一遍从零开始,在星图GPU平台上把通义千问1.5-1.8B-Chat-GPTQ-Int4这个轻量级模型的服务跑起来,让你能通过一个清爽的Web界面直接对话。

整个过程其实比你想象的要简单,核心就是“一键部署”。你只需要跟着步骤走,大概二三十分钟,就能拥有一个属于自己的大模型对话服务。下面,咱们就开始吧。

1. 准备工作:检查你的“装备”

在动手之前,先确认一下你的服务器是不是满足基本要求。这就像做饭前要看看厨房有没有锅碗瓢盆一样。

首先,你需要一台安装了Ubuntu 20.04操作系统的服务器。为什么是20.04?因为它是一个长期支持版本,社区资源丰富,遇到问题好解决。你的服务器最好有GPU,因为大模型推理用GPU会快很多。当然,纯CPU也能跑,只是速度会慢一些。

打开你的终端,用ssh连上服务器。我们先来快速检查几个关键信息:

  1. 查看系统版本

    lsb_release -a
    

    输出里应该能看到 Description: Ubuntu 20.04.x LTS

  2. 查看有没有GPU(可选,但有的话体验更好):

    lspci | grep -i nvidia
    

    如果能看到NVIDIA显卡的信息,那就说明硬件是OK的。

  3. 检查磁盘空间

    df -h
    

    建议系统盘至少有20GB以上的剩余空间,因为我们要安装驱动、拉取镜像,这些都会占用空间。

好了,确认基础环境没问题,咱们就进入正题,开始配置。

2. 第一步:给系统“打基础”

一台干净的Ubuntu系统,需要先安装一些必要的软件包和工具,这就像盖房子前要打好地基。

2.1 更新软件源和系统

首先,我们把系统的软件列表更新到最新,并升级所有已安装的包。打开终端,依次执行:

sudo apt update
sudo apt upgrade -y

这个-y参数是自动回答“yes”,省得我们一直确认。这个过程可能会花几分钟,取决于网络和更新包的数量。

2.2 安装必要的依赖工具

接下来,安装一些后续步骤会用到的工具,比如curl(用来下载文件)、wget(另一个下载工具)、git(版本管理,虽然这里不一定用,但常备无患)等。

sudo apt install -y curl wget git vim net-tools

另外,因为我们最终要通过浏览器访问服务,所以需要确保服务器开放了相应的端口。我们可以用ufw这个防火墙工具来管理,先把它装上:

sudo apt install -y ufw

基础打好了,接下来是关键的一步——配置GPU环境。如果你用的是带GPU的服务器(比如星图平台提供的),这一步能极大提升模型运行速度。

3. 第二步:配置GPU驱动与CUDA(GPU用户必看)

如果你确认服务器有NVIDIA GPU,那么请跟着这一步走。如果只有CPU,可以跳过整个第三步,直接看第四节。

3.1 安装NVIDIA驱动

Ubuntu 20.04自带的驱动管理工具ubuntu-drivers很好用,它能自动检测并推荐合适的驱动。

# 首先,添加官方的显卡驱动PPA源
sudo add-apt-repository ppa:graphics-drivers/ppa -y
sudo apt update

# 自动检测并安装推荐的驱动
sudo ubuntu-drivers autoinstall

安装完成后,必须重启服务器让驱动生效。

sudo reboot

重启后,重新ssh连接服务器,输入以下命令验证驱动是否安装成功:

nvidia-smi

如果看到类似下面的输出,显示了GPU型号、驱动版本和CUDA版本信息,那就恭喜你,驱动安装成功了。

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.182.03   Driver Version: 470.182.03   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:00:1E.0 Off |                    0 |
| N/A   34C    P8    10W /  70W |      0MiB / 15109MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

注意看CUDA Version那一项,它显示的是驱动支持的最高CUDA版本,我们接下来需要安装匹配的CUDA Toolkit。

3.2 安装CUDA Toolkit

CUDA是NVIDIA推出的并行计算平台。我们选择安装CUDA 11.8,这是一个比较稳定且兼容性好的版本。从NVIDIA官网直接下载安装脚本会比较方便。

# 下载CUDA 11.8的安装脚本
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run

# 运行安装脚本
sudo sh cuda_11.8.0_520.61.05_linux.run

运行安装脚本后,会出现一个文本界面。这里要注意:

  • 按空格键翻页到最下面。
  • 通过上下箭头移动光标,回车键选中或取消。
  • 确保取消勾选 Driver,因为我们已经装好驱动了,只安装CUDA Toolkit即可。
  • 勾选 CUDA Toolkit 11.8,然后选择 Install 开始安装。

安装完成后,需要将CUDA路径添加到系统环境变量,这样系统才能找到它。

# 编辑当前用户的配置文件(如果你用的是bash)
echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

# 让配置立即生效
source ~/.bashrc

验证CUDA是否安装成功:

nvcc --version

如果正确输出了CUDA编译器的版本信息(如 release 11.8),那么CUDA环境就配置好了。

4. 第三步:拉取并启动通义千问WebUI镜像

前面的铺垫工作都做完了,现在进入最核心、也是最简单的一步——使用Docker一键部署。Docker容器技术能把应用和它需要的所有环境打包在一起,我们直接运行这个“包裹”就行,省去了在本地安装Python、PyTorch等各种依赖的麻烦。

4.1 安装Docker

如果你的系统还没有安装Docker,可以用下面的命令快速安装:

# 卸载旧版本(如果有)
sudo apt remove docker docker-engine docker.io containerd runc -y

# 安装依赖
sudo apt update
sudo apt install -y apt-transport-https ca-certificates curl software-properties-common

# 添加Docker官方GPG密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

# 添加Docker软件源
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"

# 安装Docker引擎
sudo apt update
sudo apt install -y docker-ce docker-ce-cli containerd.io

# 将当前用户加入docker组,这样就不用每次都加sudo了
sudo usermod -aG docker $USER

重要:执行完用户组修改后,你需要完全退出当前的SSH会话,然后重新登录,这个改动才会生效。

重新登录后,验证Docker安装成功:

docker --version

4.2 拉取并运行通义千问镜像

星图镜像广场已经为我们准备好了打包好的通义千问WebUI镜像,我们直接拉取运行即可。这个镜像包含了模型、Web界面和所有依赖。

# 拉取镜像(镜像较大,请耐心等待)
docker pull csdnpai/qwen1.5-1.8b-chat-gptq-int4-webui:latest

# 运行容器
docker run -d --name qwen-webui \
  --gpus all \
  -p 7860:7860 \
  csdnpai/qwen1.5-1.8b-chat-gptq-int4-webui:latest

我来解释一下上面docker run命令的几个参数:

  • -d:让容器在后台运行。
  • --name qwen-webui:给容器起个名字,方便管理。
  • --gpus all:将宿主机的所有GPU都分配给这个容器使用。如果你是CPU服务器,去掉这个参数即可。
  • -p 7860:7860:端口映射。将容器内部的7860端口映射到宿主机的7860端口。这样我们通过访问服务器的7860端口就能连上Web界面了。

运行成功后,可以用下面的命令查看容器状态:

docker ps

你应该能看到一个名为qwen-webui的容器正在运行(STATUS 显示为 Up)。

5. 第四步:配置防火墙与访问WebUI

服务已经在容器里跑起来了,但我们的服务器防火墙可能还关着门。我们需要打开一扇“门”(端口),让外部的浏览器能访问进来。

5.1 配置防火墙开放端口

我们使用之前安装的ufw工具来开放7860端口。

# 允许7860端口的传入连接
sudo ufw allow 7860/tcp

# 启用防火墙(如果之前没启用的话)
sudo ufw --force enable

# 查看防火墙状态,确认7860端口规则已添加
sudo ufw status verbose

在输出中,你应该能看到一条类似 7860/tcp ALLOW IN Anywhere 的规则。

5.2 通过浏览器访问WebUI

现在,一切就绪!打开你本地电脑的浏览器,在地址栏输入:

http://你的服务器IP地址:7860

将“你的服务器IP地址”替换成你Ubuntu服务器的实际公网IP。

稍等片刻(第一次加载可能需要一点时间初始化模型),一个简洁的Web聊天界面就会出现在你面前。你可以在输入框里向通义千问1.5-1.8B模型提问了,比如“你好,请介绍一下你自己”,或者让它帮你写段代码、总结文章,试试看它的反应吧!

6. 常见问题与小贴士

部署过程基本都是一帆风顺的,但偶尔也会遇到点小波折。这里我总结几个可能会碰到的问题和解决办法。

  • 问题:访问 http://IP:7860 打不开页面。

    • 检查1: 确认容器是否在运行。执行 docker ps,看看qwen-webui容器是不是Up状态。如果不是,用 docker logs qwen-webui 查看容器日志找错误原因。
    • 检查2: 确认防火墙端口是否开放。执行 sudo ufw status,确认7860端口是ALLOW状态。
    • 检查3: 如果你是在云服务器上,还需要去云服务商的控制台(比如安全组规则)检查,是否放行了服务器的7860端口入站流量。
  • 问题:GPU版容器启动失败,提示CUDA错误。

    • 解决: 大概率是CUDA版本或驱动不兼容。请严格按照第三步的步骤,确保nvidia-sminvcc --version都能正确输出,且CUDA版本是11.x。可以尝试重启Docker服务:sudo systemctl restart docker,然后重新运行docker run命令。
  • 小贴士:如何管理容器?

    • 停止服务: docker stop qwen-webui
    • 启动服务: docker start qwen-webui
    • 重启服务: docker restart qwen-webui
    • 删除容器(会清除对话记录等数据): docker rm -f qwen-webui
    • 查看实时日志: docker logs -f qwen-webui
  • 小贴士:模型加载慢?

    • 第一次启动时,模型需要从磁盘加载到GPU或内存,可能会花一两分钟,这是正常的。后续对话响应就会快很多。

走完这六步,你的通义千问WebUI服务应该已经稳稳地跑起来了。整个过程其实就像搭积木,每一步都有明确的目标。用Docker部署最大的好处就是环境隔离,干净利落,以后想换别的模型或者升级版本,直接操作容器就行,不会把系统环境搞得一团糟。

这个1.8B的Int4量化版本非常适合在单卡GPU甚至CPU上体验,响应速度快,对话效果对于日常问答、文本生成等任务来说已经相当够用。你可以多试试不同的提问方式,看看它的能力边界在哪里。玩得开心!


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐