通义千问1.5-1.8B快速部署指南：3步搭建个人AI对话系统

本文介绍了如何在星图GPU平台上自动化部署通义千问1.5-1.8B-Chat-GPTQ-Int4镜像，快速搭建个人AI对话系统。通过该平台，用户无需复杂配置即可一键启动服务，并利用其网页界面或API进行智能对话、代码生成等日常辅助，轻松体验大模型能力。

有调App

185人浏览 · 2026-03-08 00:45:51

有调App · 2026-03-08 00:45:51 发布

通义千问1.5-1.8B快速部署指南：3步搭建个人AI对话系统

想在自己的电脑或服务器上快速拥有一个能聊天的AI助手吗？今天，我就带你用最简单的方法，三步搞定通义千问1.5-1.8B模型的部署。这个模型虽然小巧，但对话能力相当不错，而且经过GPTQ量化后，对硬件要求极低，普通带GPU的电脑就能流畅运行。整个过程就像安装一个软件那么简单，不需要复杂的配置，跟着做就行。

1. 准备工作：理清思路，检查环境

在开始之前，我们先花两分钟搞清楚要做什么。我们的目标很简单：通过一个预置好的Docker镜像，快速启动一个通义千问1.5-1.8B-Chat模型的聊天服务，并且自带一个漂亮的网页聊天界面。

整个过程可以分解为三个清晰的步骤：

环境检查：确认你的电脑或服务器满足基本要求。
一键启动：用一条命令拉取并运行包含所有依赖的完整镜像。
验证使用：打开网页，开始和AI对话。

为了确保一切顺利，请先快速核对一下你的环境：

操作系统：推荐使用Linux系统（如Ubuntu 20.04/22.04， CentOS 7/8等），Windows和macOS通过Docker Desktop也可以，但本文以Linux命令为例。
硬件：拥有NVIDIA GPU的机器会获得最佳体验（显存建议2GB以上）。如果没有GPU，纯CPU也能运行，只是速度会慢一些。
软件：需要提前安装好Docker和NVIDIA容器工具包（如果使用GPU）。这是唯一的前置依赖。
网络：机器需要能正常访问互联网，以下载Docker镜像。

如果你的环境都准备好了，那我们就直接开始吧。

2. 第一步：快速配置基础环境

这一步的目标是确保Docker可以正常运行，并且能够调用GPU（如果可用）。如果你已经安装并配置好了Docker和NVIDIA容器工具包，可以跳过本节，直接进入第二步。

2.1 安装Docker

Docker是我们这次部署的核心工具，它把模型、运行环境、前端界面全都打包好了，我们直接运行就行。

打开你的终端，依次执行以下命令来安装Docker：

# 1. 更新软件包列表
sudo apt update

# 2. 安装一些必要的工具，让apt可以通过HTTPS使用仓库
sudo apt install -y apt-transport-https ca-certificates curl software-properties-common

# 3. 添加Docker的官方GPG密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg

# 4. 设置稳定的Docker仓库
echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

# 5. 再次更新，并安装Docker引擎
sudo apt update
sudo apt install -y docker-ce docker-ce-cli containerd.io

# 6. 启动Docker服务，并设置开机自启
sudo systemctl start docker
sudo systemctl enable docker

# 7. （可选但推荐）将当前用户加入docker组，这样以后运行docker命令就不用每次都加sudo了
sudo usermod -aG docker $USER

重要提示：执行完最后一条命令后，你需要完全退出当前的终端窗口，然后重新打开一个新的终端，用户组的变更才会生效。

验证Docker是否安装成功：

docker --version

如果能看到版本号，说明安装成功。再运行一个测试容器：

sudo docker run hello-world

如果看到“Hello from Docker!”的欢迎信息，恭喜你，Docker环境就绪了。

2.2 配置GPU支持（如果使用GPU）

如果你打算使用GPU来加速模型推理，那么还需要安装NVIDIA Container Toolkit，这样Docker容器才能访问到你电脑上的显卡。

首先，确认你的NVIDIA驱动已经安装好：
```
nvidia-smi
```
如果这个命令能输出一个包含GPU信息的表格，说明驱动没问题。记下右上角的“CUDA Version”，例如“12.2”。

安装NVIDIA Container Toolkit：

# 添加仓库和密钥
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

# 安装工具包
sudo apt update
sudo apt install -y nvidia-container-toolkit

# 配置Docker使用nvidia作为运行时
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

验证GPU在Docker中是否可用：
```
sudo docker run --rm --gpus all nvidia/cuda:12.2.0-base-ubuntu20.04 nvidia-smi
```
如果这条命令也能输出和宿主机上一样的GPU信息表格，那么GPU环境就配置成功了。

3. 第二步：一键拉取并启动模型服务

这是最简单也最核心的一步。我们将使用一个已经配置好的镜像，它包含了量化后的通义千问1.5-1.8B模型、高效的vLLM推理后端，以及一个基于Chainlit的Web前端。

3.1 拉取镜像

在终端中执行以下命令，从镜像仓库拉取我们需要的镜像。这个过程需要下载几个GB的数据，请保持网络通畅。

sudo docker pull <这里填写实际的镜像仓库地址>/qwen1.5-1.8b-chat-gptq-int4:latest

请将 <这里填写实际的镜像仓库地址> 替换为你获取到的真实镜像地址。

3.2 启动服务容器

镜像拉取完成后，用一条命令启动它：

sudo docker run -d --name my-qwen-chat \
  --gpus all \
  -p 8000:8000 \
  -p 8501:8501 \
  <这里填写实际的镜像仓库地址>/qwen1.5-1.8b-chat-gptq-int4:latest

我们来解释一下这条命令的每个部分：

-d：让容器在后台运行。
--name my-qwen-chat：给这个容器起个名字，方便管理，比如查看日志、停止容器。
--gpus all：将宿主机的所有GPU资源分配给这个容器使用。如果你的环境没有GPU，请删除这个参数，容器会使用CPU运行（速度较慢）。
-p 8000:8000：端口映射。将容器内部的8000端口（通常是vLLM的API服务端口）映射到宿主机的8000端口。
-p 8501:8501：端口映射。将容器内部的8501端口（Chainlit前端服务端口）映射到宿主机的8501端口。
最后是镜像的名称。

执行命令后，服务就开始在后台启动了。模型加载需要一点时间，特别是第一次运行。

3.3 检查服务状态

我们可以通过查看容器日志来了解启动进度：

# 查看容器是否在运行
sudo docker ps

# 查看容器的实时日志，观察模型加载情况
sudo docker logs -f my-qwen-chat

当你看到日志中输出类似 Uvicorn running on http://0.0.0.0:8000 和 Your app is available at http://0.0.0.0:8501 这样的信息时，说明服务已经启动成功。按 Ctrl+C 可以退出日志查看。

4. 第三步：开始与你的AI助手对话

服务启动成功后，你有两种方式来使用它：通过网页聊天界面，或者通过API接口调用。

4.1 使用网页聊天界面（推荐）

这是最简单直观的方式。打开你的浏览器，访问以下地址：

http://你的服务器IP地址:8501

如果服务就运行在你当前的电脑上，直接访问 http://localhost:8501 即可。

你会看到一个简洁现代的聊天界面。在底部的输入框里，直接输入你想问的问题，比如“你好，请介绍一下你自己”，然后按回车或点击发送。稍等片刻，通义千问模型就会给出回复。

这个界面支持连续对话，上下文管理是自动的，你可以像和朋友聊天一样，进行多轮问答。

4.2 通过API接口调用

如果你希望将模型能力集成到自己的程序里，可以通过其提供的API来调用。服务通常会在8000端口提供一个兼容OpenAI格式的API。

你可以使用 curl 命令进行快速测试：

curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen1.5-1.8B-Chat",
    "messages": [
      {"role": "user", "content": "用Python写一个快速排序函数"}
    ],
    "stream": false,
    "max_tokens": 512
  }'

也可以使用Python的 requests 库：

import requests
import json

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}
data = {
    "model": "Qwen1.5-1.8B-Chat",
    "messages": [{"role": "user", "content": "你好，世界！"}],
    "stream": False
}

response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json()['choices'][0]['message']['content'])

4.3 常见问题与小技巧

页面无法访问：首先确认服务是否真的启动了（docker logs查看日志），然后检查防火墙或云服务器的安全组规则，是否放行了8501和8000端口。
模型回复慢：1.8B的模型在CPU上推理确实会慢一些。如果可能，尽量使用GPU环境。你可以在启动容器时通过环境变量限制使用的GPU，例如 --gpus '"device=0"' 只使用第一块GPU。

如何停止/重启服务：

# 停止服务
sudo docker stop my-qwen-chat
# 启动服务
sudo docker start my-qwen-chat
# 重启服务
sudo docker restart my-qwen-chat
# 删除容器（谨慎操作，会清除对话记录等临时数据）
sudo docker rm -f my-qwen-chat

保存对话记录：Chainlit的对话记录默认在容器内部。如果你希望持久化保存，可以在启动容器时通过 -v 参数挂载一个本地目录到容器内的 /app/chainlit 路径。

5. 总结

好了，到这里你已经成功搭建了一个属于个人的通义千问AI对话系统。我们来快速回顾一下这三个步骤：

准备：安装Docker和NVIDIA工具包（如需GPU）。
启动：一条 docker run 命令拉取并运行全能镜像。
对话：打开浏览器或调用API，开始使用。

这个方法最大的优点就是“开箱即用”，省去了手动安装Python环境、配置CUDA、下载模型、搭建前后端等一系列繁琐操作。这个1.8B的量化模型非常适合个人学习、创意写作辅助、代码片段生成或者搭建一个简单的演示原型。它反应快，资源占用少，让你能轻松体验大模型对话的能力。

接下来，你可以尝试问它各种问题，看看它的知识边界和创造力。也可以基于提供的API，开发一些有趣的小应用。最重要的是，你已经拥有了一个随时待命的AI助手。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Object.defineProperty 和 Proxy

把下面的代码补全，要求：实现 reactive 函数（用 Proxy），修改属性时打印"更新了"，支持嵌套对象（可选，进阶）。Deepseek前端进阶计划第二条：搞懂 Object.defineProperty 和 Proxy 的区别。这些都是 Proxy 内置的，自动识别的。✍️ 动手：实现一个 reactive(obj)，让修改属性时打印“更新了”。get/set 不能直接操作 obj.nam