Qwen3.5-4B-AWQ-4bit基础教程：3步完成Ubuntu安装与模型部署

本文介绍了如何在星图GPU平台上自动化部署阿里云通义千问团队推出的Qwen3.5-4B-AWQ-4bit稠密模型，实现高效的大语言模型推理。通过简单的三步流程，用户可在Ubuntu系统中快速完成环境配置与模型部署，适用于智能客服、文本生成等自然语言处理场景，显著降低AI应用开发门槛。

周立-ric

190人浏览 · 2026-04-26 05:02:53

周立-ric · 2026-04-26 05:02:53 发布

Qwen3.5-4B-AWQ-4bit基础教程：3步完成Ubuntu安装与模型部署

1. 引言

最近大模型推理越来越火，但很多朋友卡在了第一步——环境部署。今天我们就来手把手教你，如何在Ubuntu系统上快速部署Qwen3.5-4B-AWQ-4bit模型。这个教程特别适合刚接触AI模型部署的新手，跟着步骤走，30分钟内就能搞定。

为什么要用AWQ量化？简单来说，它能让大模型在保持不错精度的同时，显存占用大幅降低。4bit量化的Qwen3.5-4B模型，8GB显存的显卡就能跑起来，对个人开发者特别友好。

2. 环境准备

2.1 系统要求

首先确认你的Ubuntu系统满足以下条件：

Ubuntu 20.04或22.04 LTS版本（推荐22.04）
至少8GB显存的NVIDIA显卡（如RTX 3060/3070）
系统内存建议16GB以上
硬盘空间至少20GB（模型文件约8GB）

2.2 基础环境配置

打开终端，依次执行以下命令：

# 更新系统包
sudo apt update && sudo apt upgrade -y

# 安装基础依赖
sudo apt install -y python3-pip python3-venv git wget

# 安装CUDA Toolkit（以CUDA 11.8为例）
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run

安装CUDA时，记得勾选驱动和工具包，其他选项可以保持默认。

3. 模型部署

3.1 创建Python虚拟环境

为了避免依赖冲突，我们先用venv创建独立环境：

python3 -m venv qwen-env
source qwen-env/bin/activate

3.2 安装Python依赖

激活环境后，安装必要的Python包：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install autoawq transformers accelerate

这里我们用了PyTorch官方提供的CUDA 11.8版本，确保和前面安装的CUDA版本匹配。

3.3 下载模型权重

Qwen3.5-4B-AWQ的模型权重可以从Hugging Face获取：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen1.5-4B-AWQ"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

首次运行会自动下载模型，大小约8GB，国内用户建议先配置镜像源加速下载。

4. 运行推理测试

4.1 基础推理示例

模型加载完成后，可以试试简单的文本生成：

input_text = "请用中文介绍一下你自己"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

4.2 常见问题解决

如果遇到类似"CUDA out of memory"的错误，可以尝试：

减小max_new_tokens参数值

添加load_in_4bit=True参数：

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    load_in_4bit=True
)

5. 总结

整个部署过程比想象中简单吧？其实核心就三步：装环境、下模型、跑推理。用AWQ量化后的模型，在消费级显卡上也能流畅运行，这对个人开发者和小团队特别友好。

实际使用时，你可能还会遇到网络问题或者依赖冲突。这时候别急，先检查CUDA和PyTorch版本是否匹配，再看看错误提示里缺少什么库。大多数问题都能通过Google找到解决方案。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek-V4 上线验收标准：从压测到观测的工程实践

DeepSeek技术社区

多租户推理服务中密钥管理与配额熔断的工程实践

DeepSeek技术社区

知识库权限下放至段落级：DeepSeek RAG 增量索引与 ACL 同步的工程实践

DeepSeek技术社区

所有评论(0)

查看更多评论

周立-ric

@weixin_32456485

已为社区贡献8条内容

Qwen3.5-4B-AWQ-4bit基础教程：3步完成Ubuntu安装与模型部署

周立-ric

Qwen3.5-4B-AWQ-4bit基础教程：3步完成Ubuntu安装与模型部署

1. 引言

2. 环境准备

2.1 系统要求

2.2 基础环境配置

3. 模型部署

3.1 创建Python虚拟环境

3.2 安装Python依赖

3.3 下载模型权重

4. 运行推理测试

4.1 基础推理示例

4.2 常见问题解决

5. 总结

所有评论(0)

温馨提示：您尚未绑定手机号

周立-ric