高效部署Qwen3-Embedding-4B：vLLM+Open-WebUI集成教程

本文介绍了如何在星图GPU平台自动化部署通义千问3-Embedding-4B-向量化模型，实现高效的文本向量化处理。该模型支持32k token长文本和多语言语义理解，可快速构建智能知识库系统，应用于文档检索、语义匹配和智能搜索等场景，显著提升文本处理效率。

op3721

561人浏览 · 2026-03-21 02:07:14

op3721 · 2026-03-21 02:07:14 发布

高效部署Qwen3-Embedding-4B：vLLM+Open-WebUI集成教程

1. 引言：为什么选择Qwen3-Embedding-4B？

如果你正在寻找一个既强大又实用的文本向量化模型，Qwen3-Embedding-4B绝对值得关注。这个模型来自阿里通义千问团队，专门用于将文本转换成高维向量表示，是构建智能搜索、文档去重、语义匹配等应用的理想选择。

简单来说，这个模型有以下几个突出特点：

中等体量：40亿参数，单张RTX 3060就能流畅运行
长文本处理：支持32k token的超长文本，整篇论文或合同都能一次处理
多语言支持：覆盖119种语言和编程语言，跨语言检索效果出色
商用友好：Apache 2.0协议，可以放心用在商业项目中

本文将手把手教你如何用vLLM和Open-WebUI快速部署这个模型，搭建属于自己的知识库系统。

2. 环境准备与快速部署

2.1 系统要求

在开始之前，请确保你的系统满足以下要求：

GPU：至少8GB显存（推荐12GB以上）
系统：Ubuntu 20.04+或兼容的Linux发行版
驱动：NVIDIA驱动版本≥515.65.01
存储：至少10GB可用空间

2.2 一键部署步骤

部署过程非常简单，只需要几个命令就能完成：

# 克隆部署仓库
git clone https://github.com/QwenLM/Qwen3-Embedding-4B.git
cd Qwen3-Embedding-4B

# 创建Python虚拟环境
python -m venv venv
source venv/bin/activate

# 安装依赖包
pip install -r requirements.txt

# 启动vLLM服务
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3-Embedding-4B \
    --dtype float16 \
    --gpu-memory-utilization 0.8

2.3 启动Open-WebUI

打开新的终端窗口，继续执行：

# 安装Open-WebUI
docker pull ghcr.io/open-webui/open-webui:main

# 运行Open-WebUI
docker run -d \
    -p 7860:8080 \
    -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
    -v open-webui:/app/backend/data \
    --name open-webui \
    ghcr.io/open-webui/open-webui:main

3. 配置与验证

3.1 服务启动检查

部署完成后，需要等待几分钟让服务完全启动。你可以通过以下命令检查服务状态：

# 检查vLLM服务
curl http://localhost:8000/v1/models

# 检查Open-WebUI服务
curl http://localhost:7860/api/health

如果一切正常，你应该能看到类似这样的响应：

{"object":"list","data":[{"id":"Qwen3-Embedding-4B"}]}

3.2 登录Web界面

在浏览器中打开 http://你的服务器IP:7860，使用以下账号登录：

用户名：kakajiang@kakajiang.com
密码：kakajiang

4. 模型配置实战

4.1 设置Embedding模型

登录成功后，按照以下步骤配置模型：

进入设置页面，选择"模型"选项卡
在Embedding模型部分，选择"Qwen3-Embedding-4B"
设置模型参数：
- 维度：2560
- 最大长度：32768
- 批量大小：32

4.2 创建知识库

现在我们来创建一个测试知识库：

点击左侧菜单的"知识库"
点击"新建知识库"，命名为"测试文档"
上传示例文档（PDF、TXT或Word文件）
等待文档处理完成

5. 效果验证与使用

5.1 语义搜索测试

让我们测试一下模型的语义搜索能力：

import requests
import json

# 设置API端点
url = "http://localhost:8000/v1/embeddings"

# 准备请求数据
headers = {
    "Content-Type": "application/json"
}

data = {
    "model": "Qwen3-Embedding-4B",
    "input": "机器学习的基本概念和应用场景"
}

# 发送请求
response = requests.post(url, headers=headers, data=json.dumps(data))
embeddings = response.json()

print(f"生成的向量维度：{len(embeddings['data'][0]['embedding'])}")

5.2 实际应用示例

下面是一个完整的知识库检索示例：

from openai import OpenAI
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 初始化客户端
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc123"
)

# 生成查询向量
query = "人工智能的发展历史"
response = client.embeddings.create(
    model="Qwen3-Embedding-4B",
    input=query
)
query_vector = np.array(response.data[0].embedding).reshape(1, -1)

# 假设我们有一些文档向量
document_vectors = [...]  # 从知识库获取的文档向量

# 计算相似度
similarities = cosine_similarity(query_vector, document_vectors)
most_similar_index = np.argmax(similarities)

print(f"最相关的文档索引：{most_similar_index}")
print(f"相似度得分：{similarities[0][most_similar_index]:.4f}")

6. 性能优化技巧

6.1 vLLM配置优化

为了获得最佳性能，可以调整vLLM的启动参数：

python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3-Embedding-4B \
    --dtype float16 \
    --gpu-memory-utilization 0.9 \
    --max-num-seqs 256 \
    --max-model-len 32768 \
    --batch-size 64

6.2 批量处理建议

对于大量文档处理，建议使用批量处理：

# 批量生成向量
documents = [
    "文档1内容...",
    "文档2内容...",
    # ...更多文档
]

batch_size = 32
results = []

for i in range(0, len(documents), batch_size):
    batch = documents[i:i+batch_size]
    response = client.embeddings.create(
        model="Qwen3-Embedding-4B",
        input=batch
    )
    results.extend(response.data)