从零开始学 Dify- RAG 知识库系统设计详解

RAG（检索增强生成）知识系统是 Dify 的核心组件，它使 AI 应用程序能够检索和利用外部知识。该系统管理从文档提取到知识检索的整个流程，支持不同的索引技术、文档处理方法和检索策略。

江湖人称麻花滕

1119人浏览 · 2025-06-04 20:54:41

江湖人称麻花滕 · 2025-06-04 20:54:41 发布

架构概述

RAG 知识系统遵循三阶段提取-转换-加载 (ETL) 流程进行文档处理，并结合复杂的检索机制进行知识访问。

RAG 系统架构图

RAG（检索增强生成）知识系统使应用程序能够通过以下方式利用基于文档的知识：

文档提取 ：处理各种文档格式
分块和嵌入 ：将文本转换为矢量表示
知识检索 ：查找与用户查询相关的信息

数据集管理

数据集结构

数据集是 RAG 知识体系的基本组织单元。每个数据集包含文档，文档被划分为多个段，以便于索引和检索。

数据集创建

为了创建数据集，系统接受包括名称、描述、索引技术和检索配置在内的参数。

POST /datasets

数据集创建工作流程：

验证参数
创建数据集记录
如果使用高质量索引，请配置嵌入模型
设置检索配置
设置权限

索引技术

该系统支持两种主要索引技术：

技术	描述	向量数据库	Embedding 模型	用例
`high_quality`	使用嵌入模型将文本转换为向量	必需	必需	更好的语义理解，处理细微的查询
`economy`	使用基于关键字的倒排索引	不需要	不需要	更低的资源占用，精准的关键字匹配

文档形式

文档可以以三种不同的形式进行处理和索引：

形式	描述	索引方法
`text_model`	直接嵌入的默认文本文档	直接嵌入文档内容
`qa_model`	问答对	生成问答对并嵌入问题
`hierarchical_model` （父子模型）	带有子段的父块	创建具有父块和子块的层次结构

文档处理 Pipeline

文档处理管道遵循提取-转换-加载（ETL）模式：

提取阶段

提取阶段处理不同的数据源：

上传文件 ：处理上传的文件，如 PDF、DOCX 等。
Notion 导入 ：从 Notion 页面提取内容
网站抓取 ：从抓取的网站中提取内容

提取过程将不同的内容源规范化为统一的文本文档格式。

转换阶段

转换阶段处理：

文本清理 ：根据配置的规则删除多余的空格、URL、电子邮件
分割（Segmentation） ：根据配置的规则将文档分成块
格式化 ：根据文档形式（文本、问答、分层）准备索引文本

关键分割参数：

分隔符（Separator） ：用于分割文本的字符序列（默认值： \n\n ）
最大令牌数（Max Tokens） ：每个段的最大令牌数（默认值：1024）
块重叠（Chunk Overlap） ：段之间的标记重叠（默认值：50）

加载阶段

将片段保存到数据库
为所有文档创建关键字索引
为了实现高质量索引，生成嵌入并将其存储在向量数据库中

该过程包括：

为段创建数据库记录
使用配置的嵌入模型生成文本嵌入
建立搜索索引（关键字和/或向量）

检索系统

检索系统负责根据用户查询从索引数据集中查找相关信息。

检索方法

系统支持多种检索方式：

方法	描述	要求	优势
语义搜索（Semantic Search）	使用向量相似性来查找语义相关的内容	嵌入模型，向量数据库	最适合基于含义的查询
关键词搜索（Keyword Search）	使用精确关键字匹配	关键词索引	适合精确的术语搜索
全文搜索（Full-Text Search）	使用全文索引技术	全文索引	平衡精度和召回率
混合搜索（Hybrid Search）	结合多种方法	所有索引	最佳整体表现

检索策略

系统支持两种主要的检索策略：

单一检索（Single Retrieval） ：使用带有 AI 模型的单一数据集来路由查询
多重检索（Multiple Retrieval） ：使用可配置的权重和评分在多个数据集中进行搜索

结果处理

格式化为文档上下文
可能使用重新排序模型进行重新排序
根据相关性阈值进行评分和过滤
按相关性排序
准备返回调用应用程序

与工作流集成

RAG 知识系统通过知识检索节点与 Dify 的工作流系统集成：

知识检索节点：

从工作流中获取查询输入
配置检索参数
调用数据集检索系统
将格式化的知识返回到工作流

API 集成

服务 API

RAG 知识系统公开了 RESTful API 以与客户端应用程序集成：

接口	Method	描述
`/datasets`	POST	创建新数据集
`/datasets`	GET	列出可用数据集
`/datasets/{dataset_id}`	GET	获取数据集详细信息
`/datasets/{dataset_id}`	POST	更新数据集设置
`/datasets/{dataset_id}`	DELETE	删除数据集
`/datasets/{dataset_id}/document/create-by-text`	POST	从文本创建文档
`/datasets/{dataset_id}/document/create-by-file`	POST	从文件创建文档
`/datasets/{dataset_id}/documents/{document_id}/update-by-text`	POST	通过文本更新文档

控制台 API

对于内部控制台使用，存在其他端点：

接口	Method	描述
`/console/datasets`	多种方式	控制台的数据集管理
`/console/datasets/{dataset_id}/documents`	多种方式	文档管理
`/console/datasets/{dataset_id}/documents/{document_id}/segments`	多种方式	段管理

速率限制和配额

该系统实施速率限制和配额执行，特别是在云部署中：

知识检索速率限制

对知识检索操作强制实施速率限制

# Simplified rate limiting logic
knowledge_rate_limit = FeatureService.get_knowledge_rate_limit(tenant_id)
if knowledge_rate_limit.enabled:
    current_time = int(time.time() * 1000)
    key = f"rate_limit_{tenant_id}"
    redis_client.zadd(key, {current_time: current_time})
    redis_client.zremrangebyscore(key, 0, current_time - 60000)
    request_count = redis_client.zcard(key)
    if request_count > knowledge_rate_limit.limit:
        # Add rate limit record and return error

资源限制

对各种资源实施限制：

资源	描述	执行点
向量空间	限制嵌入存储	在文档创建/索引期间
Documents	限制文档数量	文档上传期间
知识率	限制检索频率	在知识检索过程中

总结

RAG 知识系统是 Dify 中用于知识索引和检索的综合解决方案。它提供了灵活的文档处理、索引技术和检索策略选项，使其能够适应各种用例。该系统的模块化架构允许与工作流和对话系统等其他组件无缝集成。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述