Qwen3.5-4B-AWQ-4bit基础教程:3步完成Ubuntu安装与模型部署

1. 引言

最近大模型推理越来越火,但很多朋友卡在了第一步——环境部署。今天我们就来手把手教你,如何在Ubuntu系统上快速部署Qwen3.5-4B-AWQ-4bit模型。这个教程特别适合刚接触AI模型部署的新手,跟着步骤走,30分钟内就能搞定。

为什么要用AWQ量化?简单来说,它能让大模型在保持不错精度的同时,显存占用大幅降低。4bit量化的Qwen3.5-4B模型,8GB显存的显卡就能跑起来,对个人开发者特别友好。

2. 环境准备

2.1 系统要求

首先确认你的Ubuntu系统满足以下条件:

  • Ubuntu 20.04或22.04 LTS版本(推荐22.04)
  • 至少8GB显存的NVIDIA显卡(如RTX 3060/3070)
  • 系统内存建议16GB以上
  • 硬盘空间至少20GB(模型文件约8GB)

2.2 基础环境配置

打开终端,依次执行以下命令:

# 更新系统包
sudo apt update && sudo apt upgrade -y

# 安装基础依赖
sudo apt install -y python3-pip python3-venv git wget

# 安装CUDA Toolkit(以CUDA 11.8为例)
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run

安装CUDA时,记得勾选驱动和工具包,其他选项可以保持默认。

3. 模型部署

3.1 创建Python虚拟环境

为了避免依赖冲突,我们先用venv创建独立环境:

python3 -m venv qwen-env
source qwen-env/bin/activate

3.2 安装Python依赖

激活环境后,安装必要的Python包:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install autoawq transformers accelerate

这里我们用了PyTorch官方提供的CUDA 11.8版本,确保和前面安装的CUDA版本匹配。

3.3 下载模型权重

Qwen3.5-4B-AWQ的模型权重可以从Hugging Face获取:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen1.5-4B-AWQ"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

首次运行会自动下载模型,大小约8GB,国内用户建议先配置镜像源加速下载。

4. 运行推理测试

4.1 基础推理示例

模型加载完成后,可以试试简单的文本生成:

input_text = "请用中文介绍一下你自己"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

4.2 常见问题解决

如果遇到类似"CUDA out of memory"的错误,可以尝试:

  1. 减小max_new_tokens参数值
  2. 添加load_in_4bit=True参数:
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        device_map="auto",
        load_in_4bit=True
    )
    

5. 总结

整个部署过程比想象中简单吧?其实核心就三步:装环境、下模型、跑推理。用AWQ量化后的模型,在消费级显卡上也能流畅运行,这对个人开发者和小团队特别友好。

实际使用时,你可能还会遇到网络问题或者依赖冲突。这时候别急,先检查CUDA和PyTorch版本是否匹配,再看看错误提示里缺少什么库。大多数问题都能通过Google找到解决方案。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐