通义千问Embedding实战：新闻聚类系统的向量化处理流程

本文介绍了如何在星图GPU平台上自动化部署通义千问3-Embedding-4B-向量化模型，并利用该模型构建新闻聚类系统。通过将新闻文本转化为语义向量，系统能自动将内容相似的新闻归为一类，有效应用于海量资讯的智能整理与热点分析，提升信息处理效率。

咸鱼cc

969人浏览 · 2026-04-02 03:49:21

咸鱼cc · 2026-04-02 03:49:21 发布

通义千问Embedding实战：新闻聚类系统的向量化处理流程

你是不是也遇到过这样的烦恼？每天面对海量的新闻资讯，想快速了解热点事件，却被淹没在信息的海洋里。手动整理？效率太低。用传统的关键词匹配？又不够智能，经常把不相关的新闻混在一起。

今天，我们就来解决这个问题。我将带你手把手搭建一个基于 通义千问Qwen3-Embedding-4B 模型的新闻聚类系统。这个系统的核心，就是利用AI模型将一篇篇文字新闻，转换成计算机能“理解”的数字向量，然后自动把内容相似的新闻归到一类。

整个过程，我们会用 vLLM 来高效部署模型，用 Open WebUI 来构建一个直观的操作界面。你不需要深厚的AI背景，跟着步骤走，就能让机器帮你自动梳理新闻脉络，洞察热点趋势。

1. 为什么选择Qwen3-Embedding-4B？

在开始动手之前，我们先花几分钟了解一下手里的“王牌”——Qwen3-Embedding-4B模型。知道它强在哪里，你才能更好地用它。

简单来说，Embedding模型就像一个“翻译官”，它的任务是把人类能看懂的文字（比如“今天股市大涨”），翻译成计算机能处理的、有数学意义的一串数字（也就是“向量”）。两个句子的向量越相似，就意味着它们在语义上越接近。

那么，Qwen3-Embedding-4B这个“翻译官”有什么过人之处呢？

中等身材，能力超群：它拥有40亿参数，这个体量在保证强大理解能力的同时，对硬件非常友好。一张普通的RTX 3060显卡（6GB或8GB显存）就能流畅运行它的量化版本。
“记忆力”超强：它能一次性处理长达32,000个token的文本。这是什么概念？差不多是一整篇学术论文、一份标准合同，或者一个中小型代码库的长度。这意味着处理长新闻、深度报道时，它不会“断片”，能把握全文核心。
“语言天赋”点满：支持119种自然语言和主流编程语言。无论是中文新闻、英文报道，还是中英混合的技术资讯，它都能准确理解，实现跨语言的语义搜索和聚类。
效果拔尖：在权威的评测基准（如MTEB、CMTEB）上，它在同尺寸的开源模型中表现领先。也就是说，用它做出来的向量，在相似度计算上更准、更可靠。
灵活多用：它具备“指令感知”能力。你只需要在文本前加上简单的任务描述，比如“为聚类任务生成向量：”，同一个模型就能输出更适合聚类任务的向量，无需重新训练，非常方便。

一句话总结：如果你需要在单张消费级显卡上，对多语言、长文本进行高质量的语义理解（比如搜索、去重、聚类），Qwen3-Embedding-4B是目前开源领域一个非常省心且强大的选择。

2. 环境搭建与模型部署

理论清楚了，我们开始动手。我们的目标是快速搭建一个可以体验和调用Embedding模型的服务。这里我们采用 vLLM + Open WebUI 的组合，这是目前个人开发者和小团队体验大模型最高效、最直观的方式之一。

2.1 核心工具简介

vLLM：一个专注于大模型推理的高性能库。它的核心优势是采用了PagedAttention等优化技术，能极大地提升模型吞吐量，减少显存占用。简单说，就是能让你的显卡同时处理更多请求，且速度更快。
Open WebUI：一个功能丰富的Web界面（以前叫Ollama WebUI）。它为你提供了类似ChatGPT的聊天界面，并且集成了知识库（RAG）、模型管理等功能。我们将用它来可视化地管理我们的新闻文档和测试聚类效果。

2.2 一键部署流程

得益于社区生态，部署变得非常简单。你很可能已经拥有了一个预配置好的环境。通常，部署完成后你会获得两个访问地址：

Open WebUI 界面：通常是 http://你的服务器IP:8080 或类似端口。这是我们的主操作界面。
vLLM API 服务：通常是 http://你的服务器IP:8000 或类似端口。这是模型对外提供向量化服务的接口，我们的后端程序会调用它。

如何确认服务已启动？ 部署完成后，需要等待几分钟让vLLM加载模型以及Open WebUI启动。之后，你可以通过提供的网页服务地址进入Open WebUI。或者，如果你通过Jupyter等环境启动，可能需要将URL中的端口（如8888）修改为Open WebUI的端口（如7860或8080）进行访问。

演示信息（请使用为你提供的专属信息）：访问地址：http://你的服务器地址:端口 账号：your_username@example.com 密码：your_password

登录后，你就进入了Open WebUI的主界面。

3. 在Open WebUI中配置与验证Embedding模型

登录Open WebUI后，我们需要先告诉它：“嘿，请使用我们刚刚部署好的Qwen3-Embedding模型。”

3.1 设置Embedding模型

在Open WebUI界面侧边栏或设置菜单中，找到 设置 (Settings) 选项。
在设置页面中，寻找 模型 (Models) 或 连接 (Connections) 相关的标签页。
你需要添加一个新的“Embedding模型”端点。关键配置如下：
- 模型名称：可以自定义，例如 Qwen3-Embedding-4B。
- API 类型：选择 OpenAI 或 vLLM（因为vLLM的API与OpenAI兼容）。
- API 地址 (Base URL)：填写你的vLLM服务地址，例如 http://localhost:8000/v1。
- 模型标识 (Model Identifier)：填写 Qwen/Qwen3-Embedding-4B。

配置完成后保存。Open WebUI会尝试连接该端点。如果状态显示正常，说明配置成功，系统现在可以使用这个模型为文本生成向量了。

(此处本应有配置截图，示意在Open WebUI中填写API地址和模型名称的位置)

3.2 通过知识库功能快速验证

Open WebUI的“知识库 (Knowledge Base)”功能是验证Embedding模型是否工作正常的绝佳场所。

创建一个新的知识库，命名为“测试新闻集”。
在知识库中，以文件上传或直接粘贴的方式，添加几篇简短的新闻文本。例如：
- 新闻A：“某科技公司今日发布新一代人工智能芯片，宣称性能提升50%。”
- 新闻B：“半导体行业迎来新突破，一款AI芯片计算效率大幅提高。”
- 新闻C：“昨日股市收盘，新能源汽车板块集体飘红。”
- 新闻D：“国际油价因供需关系变化出现小幅下跌。”
上传后，Open WebUI会自动调用你刚才配置的Embedding模型，将这些新闻文本转换为向量，并存储到向量数据库中。
进行搜索测试：在知识库的搜索框中，输入一个查询，例如“关于AI芯片的新闻”。
观察结果：如果模型工作正常，系统返回的最相关文档应该是新闻A和新闻B，因为它们语义上都与“AI芯片”紧密相关。而新闻C和D的相关度应该很低。

这个简单的测试成功，就证明了我们的Embedding服务已经就绪，能够准确理解文本语义。

(此处本应有知识库搜索结果的截图，展示搜索“AI芯片”后，返回相关新闻的列表)

4. 构建新闻聚类系统：后端API调用

Open WebUI的界面很棒，但我们要构建一个自动化的聚类系统，就需要通过代码直接调用模型的API。别担心，这比想象中简单。

4.1 理解API接口

我们的vLLM服务提供了一个与OpenAI API格式兼容的接口。生成Embedding的核心端点通常是： POST http://你的vLLM地址:8000/v1/embeddings

我们需要向这个接口发送一个JSON格式的请求。

4.2 Python实战代码

下面是一个完整的Python示例，展示如何批量处理新闻文本，并生成它们的向量。

import requests
import json
import numpy as np
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity

# 1. 配置API信息
vllm_api_url = "http://localhost:8000/v1/embeddings"  # 替换为你的实际地址
model_name = "Qwen/Qwen3-Embedding-4B"
headers = {
    "Content-Type": "application/json"
}

# 2. 准备一批新闻数据
news_articles = [
    "某科技公司今日发布新一代人工智能芯片，宣称性能提升50%。",
    "半导体行业迎来新突破，一款AI芯片计算效率大幅提高。",
    "昨日股市收盘，新能源汽车板块集体飘红。",
    "特斯拉宣布新款电动汽车续航突破1000公里。",
    "国际油价因供需关系变化出现小幅下跌。",
    "OPEC+会议决定维持当前石油减产协议不变。",
    "研究人员利用AI技术发现新的抗生素化合物。",
    "机器学习算法在医疗影像诊断准确率上超越人类专家。"
]

# 3. 调用Embedding API生成向量
def get_embeddings(texts):
    """批量获取文本的嵌入向量"""
    data = {
        "model": model_name,
        "input": texts,
        # 可以添加指令前缀，让向量更适合聚类任务
        "instruction": "为文本聚类任务生成向量："
    }
    response = requests.post(vllm_api_url, headers=headers, data=json.dumps(data))
    
    if response.status_code == 200:
        result = response.json()
        # 提取所有向量的数据部分，并转换为numpy数组
        embeddings = [item['embedding'] for item in result['data']]
        return np.array(embeddings)
    else:
        print(f"请求失败: {response.status_code}")
        print(response.text)
        return None

print("正在生成新闻文本的向量...")
embeddings = get_embeddings(news_articles)

if embeddings is not None:
    print(f"向量生成成功！共生成 {len(embeddings)} 个向量，每个维度 {embeddings.shape[1]}")
    
    # 4. 使用K-Means算法进行聚类
    # 假设我们想将新闻聚成3类
    num_clusters = 3
    kmeans = KMeans(n_clusters=num_clusters, random_state=42, n_init=10)
    cluster_labels = kmeans.fit_predict(embeddings)
    
    # 5. 输出聚类结果
    print("\n=== 新闻聚类结果 ===")
    clusters = {}
    for i, (label, news) in enumerate(zip(cluster_labels, news_articles)):
        clusters.setdefault(label, []).append((i, news))
    
    for cluster_id, items in clusters.items():
        print(f"\n--- 类别 {cluster_id + 1} (共{len(items)}篇) ---")
        for idx, text in items:
            print(f"  新闻{idx+1}: {text}")
    
    # （可选）6. 分析类内相似度
    print("\n=== 各类别内平均相似度分析 ===")
    for cluster_id in range(num_clusters):
        cluster_indices = np.where(cluster_labels == cluster_id)[0]
        if len(cluster_indices) > 1:
            cluster_embeddings = embeddings[cluster_indices]
            # 计算类内所有向量两两之间的余弦相似度均值
            similarity_matrix = cosine_similarity(cluster_embeddings)
            # 取上三角矩阵（不含对角线）的平均值
            avg_similarity = similarity_matrix[np.triu_indices_from(similarity_matrix, k=1)].mean()
            print(f"类别 {cluster_id + 1} 内部平均语义相似度: {avg_similarity:.4f}")
        else:
            print(f"类别 {cluster_id + 1} 只有1篇文章，无法计算内部相似度。")

代码解读：

配置与准备：设置了API地址、模型名和请求头。准备了一个包含8条新闻的列表，涵盖科技、汽车、能源、医疗等主题。
调用向量化服务：get_embeddings 函数将新闻列表发送给vLLM API。注意我们添加了一个 “instruction” 参数，这是Qwen3-Embedding模型的特性，能引导模型生成更适合聚类任务的向量。
执行聚类：使用经典的K-Means算法对生成的2560维向量进行聚类。这里我们预设聚成3类。
结果展示：将属于同一类的新闻打印在一起。
效果评估（可选）：计算每个类别内部向量的平均余弦相似度。这个值越高，说明该类内的新闻在语义上越一致，聚类效果可能越好。

4.3 运行结果与解读

运行上述代码，你可能会得到类似下面的输出（具体分类可能因模型随机性略有不同）：

正在生成新闻文本的向量...
向量生成成功！共生成 8 个向量，每个维度 2560

=== 新闻聚类结果 ===

--- 类别 1 (共3篇) ---
  新闻1: 某科技公司今日发布新一代人工智能芯片，宣称性能提升50%。
  新闻2: 半导体行业迎来新突破，一款AI芯片计算效率大幅提高。
  新闻8: 机器学习算法在医疗影像诊断准确率上超越人类专家。

--- 类别 2 (共3篇) ---
  新闻3: 昨日股市收盘，新能源汽车板块集体飘红。
  新闻4: 特斯拉宣布新款电动汽车续航突破1000公里。
  新闻5: 国际油价因供需关系变化出现小幅下跌。

--- 类别 3 (共2篇) ---
  新闻6: OPEC+会议决定维持当前石油减产协议不变。
  新闻7: 研究人员利用AI技术发现新的抗生素化合物。

=== 各类别内平均相似度分析 ===
类别 1 内部平均语义相似度: 0.8543
类别 2 内部平均语义相似度: 0.7912
类别 3 内部平均语义相似度: 0.7235

结果分析：

类别1（科技/AI）：成功地将关于AI芯片和机器学习应用的新闻聚在了一起，且内部相似度最高（0.85），说明模型认为这些文本在语义上非常接近。
类别2（汽车/能源）：将新能源汽车股市新闻、特斯拉新车新闻和油价新闻聚在一起。虽然“油价”与“新能源汽车”在主题上略有差异，但可能都归属于“能源交通”大领域，模型捕捉到了这层关联。
类别3（综合）：包含石油政策和AI医疗发现。这个类别可能是个“杂项”或模型区分度不够的结果。在实际应用中，我们可以通过调整聚类数量（K值）或使用更精细的文本预处理来改善。

这个简单的例子证明了我们系统的有效性。模型成功地将语义相似的新闻聚合，将不同的新闻区分开来。

5. 总结与进阶思考

通过本文的实践，我们完成了一个从模型部署到实际应用的完整闭环：利用 Qwen3-Embedding-4B 模型将新闻文本向量化，并通过聚类算法实现了新闻的自动归类。

5.1 核心流程回顾

模型选型：选择了在效果、性能和长文本支持上均衡的Qwen3-Embedding-4B。
服务部署：使用vLLM进行高效推理部署，并用Open WebUI提供可视化管理和验证界面。
功能验证：在Open WebUI的知识库中，通过语义搜索验证了模型向量化的准确性。
系统构建：通过Python代码调用标准化API，批量处理新闻文本，并运用K-Means算法完成聚类分析。

5.2 如何做得更好？

这只是一个起点。要让这个系统真正强大，你还可以考虑以下方向：

处理海量数据：上述示例直接调用API，适合中小批量。对于百万级新闻，需要引入专业的向量数据库（如Milvus, Pinecone, Qdrant）来存储和高效检索向量。
优化聚类算法：K-Means需要预先指定类别数K。你可以尝试层次聚类或DBSCAN这类不需要预设K值的算法，或者用肘部法则和轮廓系数来科学确定最佳K值。
融入更多信息：单纯的文本内容聚类有时不够。可以尝试结合新闻的发布来源、时间、关键词热度等多模态信息，进行综合判断。
构建实时流水线：设计一个持续运行的流水线，自动抓取或接收新闻源，实时生成向量并更新聚类结果，实现热点事件的动态追踪。
可视化展示：将聚类结果用图表展示出来，例如使用t-SNE或UMAP将高维向量降维到2D/3D进行可视化，能更直观地看到新闻分布的聚集情况。

Qwen3-Embedding-4B模型就像一个强大的语义理解引擎，而我们今天的实践就是为它装上了“聚类分析”的轮子。希望这个实战指南能为你打开一扇门，让你能够轻松地将先进的Embedding技术应用到自己的数据分析和信息处理任务中。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

聊聊我是怎么用AI提高工作效率的

DeepSeek技术社区

命令行里的 AI 生产力：Windows 终端集成 DeepSeek 与 Claude 实践

在现代开发流中，频繁的上下文切换（Context Switching）是阻碍生产力的核心瓶颈。传统的 Web 端交互虽直观，但在 Windows 开发环境下，通过终端（Terminal）直接调用 LLM 能提供更纯粹、更高效的协作体验。本文旨在探讨如何在环境下深度集成DeepSeek与Claude，构建一套标准化、轻量化的 AI 接入范式。核心优势分析：终端方案基于 API 的无状态通信，规避了