Qwen3.5-4B-AWQ快速部署：无需编译，4bit量化模型直接加载vLLM服务

本文介绍了如何在星图GPU平台上自动化部署Qwen3.5-4B-AWQ-4bit镜像，这是阿里云通义千问团队推出的轻量级稠密模型。通过该平台，用户可快速搭建AI服务环境，无需复杂编译过程，适用于多语言文本生成、工具调用等场景，显著提升开发效率。

Ramaswamy

706人浏览 · 2026-05-04 03:15:45

Ramaswamy · 2026-05-04 03:15:45 发布

Qwen3.5-4B-AWQ快速部署：无需编译，4bit量化模型直接加载vLLM服务

1. 项目概述

Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型，经过4bit AWQ量化后，显存占用仅约3GB，可以在RTX 3060/4060等消费级显卡上流畅运行。这款模型在保持轻量化的同时，性能表现依然出色：

性能均衡：MMLU-Pro得分接近Qwen3-30B-A3B，OmniDocBench击败GPT-5-Nano
全能力覆盖：支持201种语言、原生多模态（图文）、长上下文、工具调用
部署友好：适配vLLM推理引擎，无需复杂编译过程

模型路径位于/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit，WebUI默认端口为7860。

2. 快速部署指南

2.1 环境准备

确保您的系统满足以下要求：

NVIDIA显卡（推荐RTX 3060/4060或更高）
已安装NVIDIA驱动和CUDA
至少4GB显存（推荐6GB以上）

2.2 服务管理命令

项目使用supervisor进行服务管理，以下是常用命令：

# 查看服务状态
supervisorctl status

# 启动服务
supervisorctl start qwen35-4b-awq

# 停止服务
supervisorctl stop qwen35-4b-awq

# 重启服务
supervisorctl restart qwen35-4b-awq

2.3 日志查看

服务运行日志和错误日志分别位于：

# 实时查看运行日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log

# 查看错误日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log

3. 使用指南

3.1 访问WebUI

服务启动后，可以通过浏览器访问：

http://localhost:7860

3.2 开机自启配置

项目已配置supervisor开机自启：

autostart=true：系统启动时自动运行服务
autorestart=true：服务崩溃后自动重启

supervisord本身也已配置为开机启动，确保所有配置的服务都能自动运行。

3.3 手动运行（调试用）

如需手动运行服务进行调试：

cd /root/Qwen3.5-4B-AWQ-4bit
/opt/miniconda3/envs/torch28/bin/python webui.py

4. 常见问题解决

4.1 GPU显存问题

如果服务启动失败并提示显存不足，可能是之前有残留进程占用显存：

# 查看GPU显存占用
nvidia-smi

# 查找VLLM残留进程
ps aux | grep VLLM

# 终止残留进程后重试
kill -9 <PID>
supervisorctl start qwen35-4b-awq

4.2 目录结构说明

项目目录结构如下：

/root/Qwen3.5-4B-AWQ-4bit/
├── webui.py              # 主程序
├── supervisor.conf       # supervisor配置
└── logs/
    ├── webui.log         # 运行日志
    └── webui.err.log     # 错误日志