Qwen3-4B-Thinking部署教程：Windows Subsystem for Linux（WSL2）完整环境搭建

本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像，实现高效的大语言模型推理。该镜像支持在Windows Subsystem for Linux（WSL2）环境中快速搭建AI开发环境，特别适用于本地化部署的智能对话系统开发，满足数据隐私和定制化需求。

语嫣凝冰

355人浏览 · 2026-04-16 05:01:14

语嫣凝冰 · 2026-04-16 05:01:14 发布

Qwen3-4B-Thinking部署教程：Windows Subsystem for Linux（WSL2）完整环境搭建

1. 环境准备与WSL2安装

在Windows系统上部署AI模型，WSL2提供了一个接近原生Linux性能的解决方案。以下是搭建环境的完整步骤：

启用Windows功能：
- 打开"控制面板"→"程序"→"启用或关闭Windows功能"
- 勾选"适用于Linux的Windows子系统"和"虚拟机平台"
- 重启计算机使更改生效
安装WSL2：以管理员身份打开PowerShell，执行：
```
wsl --install
```
这会自动安装默认的Ubuntu发行版
设置WSL版本：
```
wsl --set-default-version 2
```

验证安装：

wsl -l -v

应显示类似：

NAME      STATE           VERSION
* Ubuntu    Running         2

2. 基础环境配置

2.1 系统更新与依赖安装

在WSL终端中执行：

sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-venv git curl

2.2 CUDA驱动安装（可选）

如需GPU加速：

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda-repo-wsl-ubuntu-12-4-local_12.4.0-1_amd64.deb
sudo dpkg -i cuda-repo-wsl-ubuntu-12-4-local_12.4.0-1_amd64.deb
sudo cp /var/cuda-repo-wsl-ubuntu-12-4-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

3. 模型部署与验证

3.1 创建Python虚拟环境

python3 -m venv qwen_env
source qwen_env/bin/activate

3.2 安装依赖库

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install vllm chainlit

3.3 下载模型

git clone https://huggingface.co/unsloth/Qwen3-4B-Thinking-2507

3.4 使用vLLM启动服务

python -m vllm.entrypoints.api_server \
    --model unsloth/Qwen3-4B-Thinking-2507 \
    --trust-remote-code \
    --port 8000

3.5 验证服务状态

curl http://localhost:8000/v1/models

应返回类似：

{
  "object": "list",
  "data": [
    {
      "id": "unsloth/Qwen3-4B-Thinking-2507",
      "object": "model",
      "created": 1686935002,
      "owned_by": "organization-owner"
    }
  ]
}

4. Chainlit前端集成

4.1 创建Chainlit应用

新建app.py文件：

import chainlit as cl
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="none")

@cl.on_message
async def main(message: cl.Message):
    response = client.chat.completions.create(
        model="unsloth/Qwen3-4B-Thinking-2507",
        messages=[{"role": "user", "content": message.content}],
        temperature=0.7,
    )
    await cl.Message(content=response.choices[0].message.content).send()