从零开始：通义千问1.8B-Chat本地化部署完整流程

本文介绍了如何在星图GPU平台上自动化部署通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI镜像，快速搭建轻量级AI对话系统。该量化模型仅需4GB显存即可运行，适用于智能客服、教育辅助等实时交互场景，通过WebUI界面实现开箱即用的对话体验。

92sweetie

183人浏览 · 2026-03-25 00:05:58

92sweetie · 2026-03-25 00:05:58 发布

从零开始：通义千问1.8B-Chat本地化部署完整流程

1. 项目概述与技术优势

通义千问1.5-1.8B-Chat-GPTQ-Int4是阿里云推出的轻量级对话模型，经过4位量化处理后，显存需求仅约4GB，特别适合在消费级GPU或边缘设备上部署。这个版本保留了原模型90%以上的对话能力，同时大幅降低了硬件门槛。

与标准版本相比，这个量化版模型有三大核心优势：

硬件友好：显存需求从16GB降至4GB，甚至可以在没有独立显卡的机器上运行
部署简单：提供开箱即用的WebUI界面，无需复杂配置
响应迅速：量化后推理速度提升30%，适合实时交互场景

2. 环境准备与前置检查

2.1 硬件要求

组件	最低配置	推荐配置
GPU	4GB显存	NVIDIA RTX 3060及以上
内存	8GB	16GB
存储	4GB可用空间	SSD硬盘

2.2 软件依赖

确保系统已安装以下基础组件：

Ubuntu 20.04/22.04 LTS（或其他Linux发行版）
Python 3.11
CUDA 11.8（如使用GPU）
conda/miniconda（推荐）

运行以下命令检查基础环境：

# 检查Python版本
python3 --version

# 检查CUDA（如有GPU）
nvcc --version

# 检查conda
conda --version

3. 完整部署步骤

3.1 获取模型文件

由于原始模型目录是只读文件系统，我们需要将模型复制到可写目录：

# 创建工作目录
mkdir -p /root/qwen-1.8b-chat/model

# 复制模型文件（假设原始模型在/root/ai-models/Qwen/Qwen1___5-1___8B-Chat-GPTQ-Int4）
cp -r /root/ai-models/Qwen/Qwen1___5-1___8B-Chat-GPTQ-Int4/* /root/qwen-1.8b-chat/model/

# 创建量化配置文件
echo '{
  "bits": 4,
  "group_size": 128,
  "desc_act": false,
  "damp_percent": 0.1,
  "sym": true,
  "true_sequential": true,
  "model_name_or_path": "Qwen1.5-1.8B-Chat-GPTQ-Int4",
  "model_file_base_name": "model"
}' > /root/qwen-1.8b-chat/model/quantize_config.json

3.2 设置Python环境

使用conda创建隔离环境：

conda create -n qwen python=3.11 -y
conda activate qwen

# 安装核心依赖
pip install torch==2.8.0 transformers==4.47.0 auto-gptq==0.7.1 gradio==4.40.0

3.3 部署WebUI服务

创建应用文件/root/qwen-1.8b-chat/app.py：

from transformers import AutoModelForCausalLM, AutoTokenizer
import gradio as gr

model_path = "/root/qwen-1.8b-chat/model"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)

def chat(message, history, temperature=0.7, top_p=0.9, max_length=2048):
    response, _ = model.chat(
        tokenizer,
        message,
        history=history,
        temperature=temperature,
        top_p=top_p,
        max_length=max_length
    )
    return response

demo = gr.ChatInterface(
    fn=chat,
    additional_inputs=[
        gr.Slider(0.1, 2.0, value=0.7, label="Temperature"),
        gr.Slider(0.1, 1.0, value=0.9, label="Top-P"),
        gr.Slider(128, 4096, value=2048, step=128, label="Max Length")
    ]
)

demo.launch(server_name="0.0.0.0")

创建启动脚本/root/qwen-1.8b-chat/start.sh：

#!/bin/bash
source /opt/miniconda3/etc/profile.d/conda.sh
conda activate qwen
cd /root/qwen-1.8b-chat
exec python app.py

赋予执行权限：

chmod +x /root/qwen-1.8b-chat/start.sh

4. 服务管理与优化

4.1 使用Supervisor管理进程

安装Supervisor（如未安装）：

sudo apt-get install supervisor -y

创建配置文件/etc/supervisor/conf.d/qwen-1.8b-chat.conf：

[program:qwen-1.8b-chat]
command=/root/qwen-1.8b-chat/start.sh
directory=/root/qwen-1.8b-chat
user=root
autostart=true
autorestart=true
startretries=3
stderr_logfile=/root/qwen-1.8b-chat/logs/error.log
stdout_logfile=/root/qwen-1.8b-chat/logs/app.log
environment=PATH="/opt/miniconda3/envs/qwen/bin:%(ENV_PATH)s"

应用配置并启动服务：

sudo supervisorctl reread
sudo supervisorctl update
sudo supervisorctl start qwen-1.8b-chat

4.2 常用管理命令

# 查看服务状态
sudo supervisorctl status qwen-1.8b-chat

# 重启服务
sudo supervisorctl restart qwen-1.8b-chat

# 查看日志
tail -f /root/qwen-1.8b-chat/logs/app.log

5. 访问与使用指南

5.1 访问Web界面

在浏览器中访问：

http://<服务器IP>:7860

5.2 参数调优建议

参数	推荐值	效果说明
Temperature	0.4-0.7	平衡创意与准确性，值越高回答越随机
Top-P	0.8-0.95	控制回答多样性，值越高词汇选择范围越广
Max Length	1024-2048	根据显存情况调整，值越大生成内容越长

5.3 典型问题示例

尝试以下问题测试模型表现：

"用Python实现快速排序算法"
"解释Transformer架构的核心思想"
"写一封正式的商务邮件，询问项目进度"
"生成一份关于机器学习在医疗领域应用的报告大纲"

6. 常见问题排查

6.1 服务无法启动

检查步骤：

确认端口7860未被占用：ss -tlnp | grep 7860
检查日志：tail -f /root/qwen-1.8b-chat/logs/error.log
验证conda环境是否激活正确

6.2 显存不足错误

解决方案：

降低max_length参数值（建议尝试1024）
检查是否有其他进程占用显存：nvidia-smi
如果使用CPU模式，确保内存足够（可能需要16GB以上）

6.3 生成质量优化

如果回答质量不理想：

调整temperature到0.5左右获得更保守的回答
在问题中添加更多上下文和约束条件
通过系统消息引导模型角色："你是一个专业的AI助手，回答应当准确简洁"

7. 进阶配置与优化

7.1 自定义系统提示

修改app.py添加系统消息：

def chat(message, history, temperature=0.7, top_p=0.9, max_length=2048):
    system_message = "你是一个专业的技术助手，回答应当准确、简洁且易于理解。"
    response, _ = model.chat(
        tokenizer,
        message,
        history=[{"role": "system", "content": system_message}] + history,
        temperature=temperature,
        top_p=top_p,
        max_length=max_length
    )
    return response

7.2 性能监控

添加Prometheus监控端点（可选）：

from prometheus_client import start_http_server, Counter

REQUESTS = Counter('chat_requests', 'Total chat requests')

def chat(message, history, temperature=0.7, top_p=0.9, max_length=2048):
    REQUESTS.inc()
    # 原有chat函数内容

启动监控服务：