Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF开箱即用：快速搭建本地智能对话系统

本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像，快速搭建本地智能对话系统。该镜像融合了推理与代码生成能力，用户可通过简洁的网页界面，将其应用于代码辅助、技术问答等编程相关场景，实现高效便捷的本地AI对话体验。

呦呦Ruming

184人浏览 · 2026-03-21 00:11:55

呦呦Ruming · 2026-03-21 00:11:55 发布

Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF开箱即用：快速搭建本地智能对话系统

想不想在本地电脑上拥有一个属于自己的智能对话助手？一个既能像ChatGPT一样聊天，又特别擅长理解和生成代码的AI伙伴？今天，我就带你用Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF这个模型，快速搭建一套完整的本地智能对话系统。

这个模型听起来名字很长，其实特点很鲜明：它基于Qwen3-4B-Thinking-2507这个擅长推理的模型，又在OpenAI GPT-5-Codex的1000个高质量代码示例上做了专门训练。简单说，就是既有不错的通用对话能力，又在代码相关任务上表现突出。

最棒的是，整个部署过程比你想的要简单。我们不需要从零开始写复杂的代码，而是用两个现成的工具：vllm负责模型推理，chainlit负责网页界面。你只需要跟着步骤操作，大概30分钟就能搞定一切。

1. 准备工作：检查你的环境

在开始动手之前，我们先花几分钟确认一下你的电脑环境是否合适。虽然这个部署方案对硬件要求不算太高，但一些基础条件还是要满足的。

1.1 硬件和系统要求

首先看看你的电脑配置：

操作系统：推荐Ubuntu 20.04或更高版本，其他Linux发行版如CentOS 7+也可以。Windows用户可以通过WSL2来运行。
内存：至少需要16GB RAM。模型本身占用大约8GB内存，加上系统和其他软件的开销，16GB是比较稳妥的选择。
存储空间：准备20GB以上的可用空间。模型文件大概2-4GB，还要留出安装软件和临时文件的空间。
Python版本：Python 3.8到3.11之间的版本都可以，我推荐用Python 3.10，兼容性最好。
GPU（可选但推荐）：如果你有NVIDIA显卡，哪怕是比较老的型号，也能显著提升推理速度。没有GPU也能跑，就是用CPU会慢一些。

如果你用的是云服务器，选择配置的时候可以参考这些要求。个人电脑的话，现在主流的配置基本都能满足。

1.2 安装必要的软件

打开你的终端，先确保一些基础工具已经安装好了：

# 更新系统软件包（Ubuntu/Debian系统）
sudo apt update && sudo apt upgrade -y

# 安装Python和pip（如果还没装的话）
sudo apt install python3 python3-pip python3-venv -y

# 安装git，后面可能会用到
sudo apt install git -y

# 安装curl和wget，下载文件用
sudo apt install curl wget -y

这些命令在Ubuntu和Debian系统上可以直接用。如果你用的是CentOS或者Fedora，命令稍微有点不同：

# CentOS/Fedora系统
sudo yum update -y
sudo yum install python3 python3-pip git curl wget -y

安装完成后，检查一下Python版本：

python3 --version

如果显示Python 3.8或更高版本，就说明没问题了。

2. 快速部署模型后端

好了，环境准备完毕，我们现在开始部署模型。整个过程分为几个清晰的步骤，你一步一步跟着做就行。

2.1 获取模型文件

首先需要下载模型文件。这个模型已经转换成了GGUF格式，这是一种优化过的格式，部署起来特别方便。

# 创建一个专门的工作目录
mkdir -p ~/qwen3-local
cd ~/qwen3-local

# 下载模型文件
# 注意：这里需要替换成实际的下载链接
# 你可以从Hugging Face或者其他模型仓库获取
wget https://your-model-download-link/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF.q4_0.gguf

# 如果下载链接需要认证或者其他方式，可能需要用curl
# curl -L -o model.gguf https://your-model-download-link

下载完成后，检查一下文件：

# 查看文件大小
ls -lh *.gguf

# 检查文件类型
file *.gguf

正常的GGUF文件大小在2-4GB左右，具体取决于量化等级。q4_0是比较常用的平衡选择，在保证质量的同时控制文件大小。

2.2 安装vllm推理引擎

vllm是一个专门为大语言模型优化的推理引擎，速度很快，而且使用起来很简单。我们用Python虚拟环境来安装，避免污染系统环境。

# 创建Python虚拟环境
python3 -m venv venv

# 激活虚拟环境
source venv/bin/activate

# 升级pip
pip install --upgrade pip

# 安装vllm
pip install vllm

# 安装其他可能需要的依赖
pip install torch torchvision torchaudio

如果安装过程中遇到问题，可以尝试这些解决方法：

# 如果pip安装vllm失败，可以指定版本
pip install vllm==0.3.3

# 或者从源码安装
# pip install git+https://github.com/vllm-project/vllm.git

# 如果遇到CUDA相关错误，可能需要安装对应版本的PyTorch
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装完成后，验证一下vllm是否安装成功：

python -c "import vllm; print('vllm版本:', vllm.__version__)"

如果能看到版本号，说明安装成功了。

2.3 启动模型服务

现在到了关键步骤——启动模型服务。vllm提供了很简单的命令行接口。

# 基本启动命令（有GPU的情况）
python -m vllm.entrypoints.openai.api_server \
    --model ~/qwen3-local/Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF.q4_0.gguf \
    --served-model-name qwen3-4b \
    --port 8000 \
    --host 0.0.0.0 \
    --max-model-len 4096 \
    --gpu-memory-utilization 0.9

我来解释一下这些参数是什么意思：

--model：指定模型文件的路径，就是你刚才下载的那个文件
--served-model-name：给模型起个名字，后面调用API时会用到这个名字
--port：服务监听的端口号，8000是常用端口
--host：0.0.0.0表示监听所有网络接口，这样其他设备也能访问
--max-model-len：模型支持的最大上下文长度，4096对于大多数场景都够用了
--gpu-memory-utilization：GPU内存使用率，0.9表示使用90%的GPU内存

如果你没有GPU，或者想用CPU运行，命令稍微调整一下：

# CPU模式启动
python -m vllm.entrypoints.openai.api_server \
    --model ~/qwen3-local/model.gguf \
    --served-model-name qwen3-4b \
    --port 8000 \
    --host 0.0.0.0 \
    --device cpu \
    --max-model-len 2048  # CPU模式下可以适当减小上下文长度

启动命令执行后，你会看到类似这样的输出：

INFO 初始化LLM引擎...
INFO 加载模型权重...
INFO 模型权重加载完成
INFO LLM引擎初始化完成
INFO 服务运行在 http://0.0.0.0:8000

看到最后一行，就说明服务启动成功了。这个过程可能需要几分钟，因为模型比较大，加载需要一些时间。

2.4 验证服务是否正常

服务启动后，我们得确认一下它是不是真的能用了。有几种简单的方法可以测试。

方法一：直接查看服务状态

在启动服务的终端里，如果看到模型成功加载的信息，基本就说明没问题了。你也可以查看日志文件：

# 如果服务输出到了日志文件
tail -f /root/workspace/llm.log

看到类似"模型加载成功"或者"服务已启动"的信息，就说明一切正常。

方法二：用curl测试API

打开另一个终端窗口，执行这个命令：

curl http://localhost:8000/v1/models

如果服务正常，你会看到这样的响应：

{
  "object": "list",
  "data": [
    {
      "id": "qwen3-4b",
      "object": "model",
      "created": 1721035825,
      "owned_by": "vllm"
    }
  ]
}

方法三：发送一个简单的请求

试试让模型回答一个问题：

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-4b",
    "messages": [
      {"role": "user", "content": "你好，请介绍一下你自己"}
    ],
    "max_tokens": 100,
    "temperature": 0.7
  }'

如果一切正常，你会收到模型生成的回复。第一次请求可能会慢一点，因为模型需要预热。

3. 搭建漂亮的网页聊天界面

模型服务跑起来了，但用命令行调用总归不太方便。接下来我们给这个模型装上一个漂亮的网页界面，让你像用ChatGPT一样和它对话。

3.1 安装Chainlit

Chainlit是一个专门为AI应用设计的UI框架，安装特别简单：

# 确保还在虚拟环境中
source venv/bin/activate

# 安装chainlit
pip install chainlit

# 安装openai库，用来调用我们的vllm服务
pip install openai

3.2 创建聊天应用

在项目目录下创建一个Python文件，名字就叫chat_app.py：

# chat_app.py
import chainlit as cl
import openai
import os

# 配置OpenAI客户端，指向我们本地的vllm服务
# 注意：base_url要改成我们服务的地址
client = openai.OpenAI(
    base_url="http://localhost:8000/v1",  # vllm服务的地址
    api_key="not-needed"  # vllm不需要真正的API key，随便填一个就行
)

@cl.on_chat_start
async def start_chat():
    """
    聊天开始时的欢迎消息
    """
    welcome_msg = """欢迎使用Qwen3-4B智能助手！

这是一个部署在你本地的AI对话系统，基于Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF模型。

这个模型有什么特点？
1. 在GPT-5-Codex的1000个高质量代码示例上训练过，特别擅长代码相关任务
2. 支持4096个token的上下文长度，能记住比较长的对话
3. 完全本地运行，你的对话内容不会上传到任何服务器

你可以问我任何问题，我会尽力回答。试试问我编程问题、让写代码，或者就是随便聊聊天！"""
    
    await cl.Message(content=welcome_msg).send()

@cl.on_message
async def handle_message(message: cl.Message):
    """
    处理用户发送的消息
    """
    # 先发送一个空消息，显示"正在思考"的状态
    msg = cl.Message(content="")
    await msg.send()
    
    try:
        # 调用我们本地的vllm服务
        response = client.chat.completions.create(
            model="qwen3-4b",  # 模型名字要和vllm启动时设置的一致
            messages=[
                {
                    "role": "system", 
                    "content": "你是一个有帮助的AI助手。请用中文回答用户的问题。"
                },
                {
                    "role": "user", 
                    "content": message.content
                }
            ],
            temperature=0.7,  # 控制回答的随机性，0.7是比较平衡的值
            max_tokens=1024,   # 每次回答的最大长度
            stream=True        # 启用流式输出，让回答一个字一个字地显示
        )
        
        # 流式接收模型的回答
        full_response = ""
        for chunk in response:
            if chunk.choices[0].delta.content is not None:
                token = chunk.choices[0].delta.content
                full_response += token
                await msg.stream_token(token)  # 一个字一个字地显示
        
        # 更新消息，标记为完成
        await msg.update()
        
    except Exception as e:
        # 如果出错了，显示错误信息
        error_msg = f"抱歉，出错了: {str(e)}"
        await cl.Message(content=error_msg).send()

这个文件做了几件事：

配置OpenAI客户端连接到我们本地的vllm服务
定义聊天开始时的欢迎消息
处理用户发送的消息，调用模型并流式显示回答
添加了基本的错误处理

3.3 自定义界面样式

如果你想让界面更好看，可以创建一个配置文件。在项目目录下创建.chainlit文件夹，然后在里面创建config.toml文件：

# 创建配置目录和文件
mkdir -p .chainlit

编辑配置文件：

# .chainlit/config.toml
[UI]
name = "Qwen3-4B本地助手"
description = "基于Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF的本地对话系统"
show_readme_as_default = false

[theme]
primaryColor = "#4f46e5"  # 主色调
backgroundColor = "#ffffff"  # 背景色
textColor = "#000000"  # 文字颜色

[features]
telemetry = false  # 关闭数据收集

3.4 启动聊天界面

现在可以启动前端服务了：

# 在项目目录下运行
chainlit run chat_app.py -w --port 7860

参数说明：

-w：启用自动重载，修改代码后会自动重启服务
--port 7860：指定服务端口，7860是Chainlit的默认端口

启动成功后，你会看到这样的输出：

你的应用可以在 http://localhost:7860 访问

打开浏览器，输入http://localhost:7860，就能看到聊天界面了。如果你是在服务器上部署的，把localhost换成服务器的IP地址就行。

4. 实际使用体验

现在一切就绪，让我们来实际体验一下这个本地对话系统。打开浏览器，访问聊天界面，你会看到一个干净简洁的对话窗口。

4.1 基础对话测试

先试试一些简单的对话，看看模型的基本能力：

测试1：普通聊天

你：你好，请介绍一下你自己
模型：你好！我是基于Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF模型的AI助手。我在GPT-5-Codex的1000个高质量代码示例上进行了微调，所以特别擅长编程和代码相关的任务。我完全运行在你的本地环境中，我们的对话内容不会离开你的电脑。有什么我可以帮你的吗？

测试2：知识问答

你：Python中的列表和元组有什么区别？
模型：Python中列表和元组的主要区别有：
1. 可变性：列表是可变的（mutable），创建后可以修改；元组是不可变的（immutable），创建后不能修改
2. 语法：列表用方括号[]表示，元组用圆括号()表示
3. 性能：元组由于不可变性，访问速度比列表快，内存占用也更小
4. 用途：列表用于存储同类型的数据集合，元组通常用于存储不同类型的数据，类似于数据库中的一条记录
5. 方法：列表有更多内置方法（如append、remove等），元组方法较少
简单说，需要修改数据时用列表，不需要修改时用元组。

测试3：创意写作

你：帮我写一个关于人工智能的短诗
模型：代码编织思维网，
数据流淌智慧河。
机器学习探真理，
智能花开新世界。
算法如笔绘蓝图，
模型似镜映人心。
未来已来非虚言，
人机共生谱新篇。

4.2 代码能力测试

这个模型经过GPT-5-Codex数据的微调，在代码相关任务上应该表现不错。我们来重点测试一下：

测试1：代码生成

你：写一个Python函数，检查一个字符串是不是回文
模型：```python
def is_palindrome(s: str) -> bool:
    """
    检查字符串是否是回文
    忽略大小写和非字母数字字符
    
    参数:
        s: 要检查的字符串
        
    返回:
        如果是回文返回True，否则返回False
    """
    # 转换为小写并移除非字母数字字符
    cleaned = ''.join(c.lower() for c in s if c.isalnum())
    
    # 使用双指针法检查是否是回文
    left, right = 0, len(cleaned) - 1
    while left < right:
        if cleaned[left] != cleaned[right]:
            return False
        left += 1
        right -= 1
    
    return True

# 测试示例
print(is_palindrome("A man, a plan, a canal: Panama"))  # True
print(is_palindrome("race a car"))  # False
print(is_palindrome(""))  # True


**测试2：代码解释**

你：解释一下快速排序算法的原理模型：快速排序是一种高效的排序算法，采用分治策略。它的基本原理是：

选择基准：从数组中选择一个元素作为基准（pivot）
分区：重新排列数组，所有比基准小的元素放在基准前面，所有比基准大的元素放在基准后面
递归：对基准前后的子数组递归地进行快速排序

关键点：

平均时间复杂度：O(n log n)
最坏情况（已排序数组）：O(n²)
空间复杂度：O(log n)（递归调用栈）
不稳定排序

快速排序的优势在于原地排序（不需要额外空间）和缓存友好性，在实际应用中通常比其他O(n log n)算法更快。


**测试3：代码调试**

你：这段代码有什么问题？ def calculate_average(numbers): total = 0 for i in range(len(numbers)): total += numbers[i] return total / len(numbers)

print(calculate_average([])) 模型：这段代码有两个主要问题：

除零错误：当numbers为空列表时，len(numbers)为0，执行total / len(numbers)会导致ZeroDivisionError
可以更Pythonic：使用sum()函数和for循环更简洁

改进版本：

def calculate_average(numbers):
    if not numbers:  # 处理空列表情况
        return 0  # 或者抛出异常，根据需求决定
    return sum(numbers) / len(numbers)

# 或者使用更安全的版本
def calculate_average_safe(numbers):
    if not numbers:
        return 0
    try:
        return sum(numbers) / len(numbers)
    except ZeroDivisionError:
        return 0


### 4.3 性能监控

在使用的过程中，你可能想了解系统的运行状态。这里有几个有用的监控命令：

```bash
# 查看vllm服务的资源使用情况
# 打开另一个终端执行
watch -n 1 "ps aux | grep vllm"

# 查看系统内存使用
free -h

# 如果有GPU，查看GPU使用情况
nvidia-smi

# 测试API响应时间
time curl -s -o /dev/null -w "%{time_total}s\n" http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen3-4b", "messages": [{"role": "user", "content": "test"}], "max_tokens": 10}'

第一次请求通常会比较慢，因为模型需要加载到内存。后续的请求就会快很多了。

5. 常见问题解决

在部署和使用过程中，你可能会遇到一些问题。这里我整理了一些常见问题和解决方法。

5.1 模型加载失败

问题：启动vllm时提示模型加载失败，或者卡在加载阶段

可能原因和解决：

内存不足：模型需要大约8GB内存，如果内存不够，可以尝试这些方法：

# 增加swap空间（临时解决方案）
sudo fallocate -l 8G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# 或者使用量化等级更低的模型
# 比如q3_k_s比q4_0占用更少内存

模型文件损坏：重新下载模型文件，下载完成后检查文件完整性：

# 检查文件大小
ls -lh model.gguf

# 如果是分片下载的，检查是否完整
wc -c model.gguf

格式不支持：确保下载的是GGUF格式的文件，其他格式需要转换：

# 可以使用llama.cpp的convert脚本转换其他格式
# 需要先安装llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

# 转换模型（示例命令，具体参数根据模型调整）
./convert.py --outtype gguf --outfile model.gguf input_model.bin

5.2 服务启动但无法访问

问题：vllm显示已启动，但无法通过API访问

解决步骤：

检查端口占用：

# 查看8000端口是否被占用
sudo netstat -tlnp | grep :8000

# 如果被占用，可以换一个端口
# 修改vllm启动命令中的--port参数

检查防火墙设置：

# Ubuntu查看防火墙状态
sudo ufw status

# 如果防火墙开启，添加规则允许8000端口
sudo ufw allow 8000/tcp

# CentOS查看防火墙
sudo firewall-cmd --list-all

# 添加端口规则
sudo firewall-cmd --add-port=8000/tcp --permanent
sudo firewall-cmd --reload

检查服务是否真的在运行：

# 查看vllm进程
ps aux | grep vllm

# 查看服务日志
# 如果启动时指定了日志文件
tail -f /path/to/vllm.log

5.3 Chainlit界面问题

问题：能打开Chainlit页面，但发送消息没反应或者显示错误

解决：

检查vllm服务：确保vllm服务正在运行，并且端口正确：
```
# 测试vllm API是否正常
curl http://localhost:8000/v1/models
```

检查Chainlit配置：确认chat_app.py中的API地址正确：

# 确保这个地址和vllm服务地址一致
base_url="http://localhost:8000/v1"

查看浏览器控制台：按F12打开开发者工具，查看Console标签页有没有错误信息。

查看Chainlit日志：

# 启动Chainlit时添加详细日志
chainlit run chat_app.py --port 7860 --debug

5.4 响应速度慢

问题：模型响应时间太长，等待很久才有回复

优化建议：

使用GPU加速：如果有NVIDIA显卡，确保安装了正确的CUDA驱动和PyTorch版本。

调整vllm参数：

# 尝试这些优化参数
python -m vllm.entrypoints.openai.api_server \
    --model ~/qwen3-local/model.gguf \
    --served-model-name qwen3-4b \
    --port 8000 \
    --host 0.0.0.0 \
    --max-model-len 2048 \        # 减小上下文长度
    --gpu-memory-utilization 0.95 \ # 提高GPU利用率
    --tensor-parallel-size 1 \     # 调整并行度
    --block-size 16 \              # 调整块大小
    --swap-space 4 \               # GPU内存不足时使用swap
    --enforce-eager                # 禁用图优化，可能更稳定

使用更低的量化等级：如果用的是q4_0，可以尝试q3_k_s，虽然质量可能略有下降，但速度会更快。

预热模型：第一次请求前先发送一个简单的请求预热模型：

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen3-4b", "messages": [{"role": "user", "content": "ping"}], "max_tokens": 1}'

6. 进阶配置和优化

如果你想让这个本地对话系统更加完善，这里有一些进阶的配置建议。

6.1 让服务在后台运行

现在我们的服务是在终端前台运行的，关掉终端服务就停了。我们可以让它在后台运行：

方法一：使用nohup

# 启动vllm服务到后台
nohup python -m vllm.entrypoints.openai.api_server \
    --model ~/qwen3-local/model.gguf \
    --served-model-name qwen3-4b \
    --port 8000 \
    --host 0.0.0.0 \
    --max-model-len 4096 > vllm.log 2>&1 &

# 启动Chainlit到后台
nohup chainlit run chat_app.py --port 7860 > chainlit.log 2>&1 &

# 查看日志
tail -f vllm.log
tail -f chainlit.log

# 停止服务
pkill -f "vllm.entrypoints.openai.api_server"
pkill -f "chainlit"

方法二：使用systemd（更专业）

创建systemd服务文件，让系统自动管理服务：

# 创建vllm服务文件
sudo nano /etc/systemd/system/vllm-qwen3.service

文件内容：

[Unit]
Description=vLLM Qwen3-4B Service
After=network.target

[Service]
Type=simple
User=你的用户名
WorkingDirectory=/home/你的用户名/qwen3-local
Environment="PATH=/home/你的用户名/qwen3-local/venv/bin"
ExecStart=/home/你的用户名/qwen3-local/venv/bin/python -m vllm.entrypoints.openai.api_server \
    --model /home/你的用户名/qwen3-local/model.gguf \
    --served-model-name qwen3-4b \
    --port 8000 \
    --host 0.0.0.0 \
    --max-model-len 4096
Restart=always
RestartSec=10
StandardOutput=journal
StandardError=journal

[Install]
WantedBy=multi-user.target

启用服务：

sudo systemctl daemon-reload
sudo systemctl enable vllm-qwen3
sudo systemctl start vllm-qwen3
sudo systemctl status vllm-qwen3

6.2 添加更多功能

现在的聊天界面比较基础，你可以根据需要添加更多功能：

添加对话历史：

# 在chat_app.py中添加
import json
from datetime import datetime

@cl.on_chat_start
async def start_chat():
    # 原有的欢迎消息...
    
    # 尝试加载对话历史
    try:
        with open("chat_history.json", "r") as f:
            history = json.load(f)
            # 显示最近几条历史记录
            for msg in history[-5:]:
                await cl.Message(content=f"历史记录: {msg}").send()
    except FileNotFoundError:
        pass

@cl.on_message
async def handle_message(message: cl.Message):
    # 原有的处理逻辑...
    
    # 保存对话历史
    history_entry = {
        "timestamp": datetime.now().isoformat(),
        "user": message.content,
        "assistant": full_response
    }
    
    try:
        with open("chat_history.json", "a") as f:
            json.dump(history_entry, f)
            f.write("\n")
    except:
        pass  # 保存失败也不影响主要功能

添加模型设置调整：

# 在聊天界面中添加设置选项
from chainlit.input_widget import Slider

@cl.on_chat_start
async def start_chat():
    settings = await cl.ChatSettings(
        [
            Slider(
                id="temperature",
                label="温度（随机性）",
                initial=0.7,
                min=0,
                max=1,
                step=0.1,
            ),
            Slider(
                id="max_tokens",
                label="最大生成长度",
                initial=1024,
                min=100,
                max=4096,
                step=100,
            ),
        ]
    ).send()
    
    # 原有的欢迎消息...

@cl.on_message
async def handle_message(message: cl.Message):
    # 获取用户设置
    temperature = cl.user_session.get("temperature") or 0.7
    max_tokens = cl.user_session.get("max_tokens") or 1024
    
    # 使用用户设置调用模型
    response = client.chat.completions.create(
        model="qwen3-4b",
        messages=[...],
        temperature=temperature,
        max_tokens=max_tokens,
        stream=True
    )
    # ...

6.3 安全考虑

如果你的服务需要对外网开放，建议添加一些安全措施：

添加基础认证：

# 在chat_app.py开头添加
from chainlit.server import app
from fastapi import Request, HTTPException
from fastapi.responses import RedirectResponse
import secrets

# 生成一个随机token（实际使用中应该从配置文件读取）
API_TOKEN = secrets.token_urlsafe(32)

@app.middleware("http")
async def auth_middleware(request: Request, call_next):
    # 允许静态文件访问
    if request.url.path.startswith("/static/"):
        return await call_next(request)
    
    # 检查token
    auth_header = request.headers.get("Authorization")
    if not auth_header or not auth_header.startswith("Bearer "):
        return RedirectResponse(url="/login")
    
    token = auth_header.replace("Bearer ", "")
    if token != API_TOKEN:
        return RedirectResponse(url="/login")
    
    return await call_next(request)

# 添加登录页面
@app.get("/login")
async def login_page():
    return """
    <html>
        <body>
            <h1>请输入访问令牌</h1>
            <form action="/auth" method="post">
                <input type="password" name="token" placeholder="访问令牌">
                <button type="submit">登录</button>
            </form>
        </body>
    </html>
    """

限制访问IP：

# 只允许特定IP访问
ALLOWED_IPS = ["127.0.0.1", "192.168.1.0/24"]  # 本地和局域网

@app.middleware("http")
async def ip_filter(request: Request, call_next):
    client_ip = request.client.host
    
    # 简单的IP检查（实际应该用更完善的方案）
    allowed = False
    for ip_range in ALLOWED_IPS:
        if client_ip.startswith(ip_range.replace("/24", "")):
            allowed = True
            break
    
    if not allowed and client_ip != "127.0.0.1":
        return HTTPException(status_code=403, detail="IP不允许访问")
    
    return await call_next(request)

7. 总结

跟着这个教程走下来，你应该已经成功在本地搭建了一个完整的智能对话系统。让我简单总结一下我们都完成了什么：

部署成果：

模型后端：用vllm部署了Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF模型，提供了一个标准的OpenAI兼容API
网页前端：用Chainlit搭建了美观易用的聊天界面，支持流式输出
完整系统：从模型加载到网页交互的完整流程，全部在本地运行

这个模型的特点：