引言
    在当今的信息时代,构建一个高效的知识管理系统对于企业和个人来说都至关重要。DeepSeek作为一个强大的深度学习模型,能够帮助我们理解和处理大量的文本信息。而Dify则是一个新兴的平台,旨在简化AI应用的开发和部署过程。本文将详细介绍如何使用Dify来搭建基于DeepSeek的本地知识库系统。

    如何部署DeepSeek本地模型请阅读此文档:[利用Ollama部署DeepSeek本地模型:从入门到实践-CSDN博客](https://blog.csdn.net/wanganui/article/details/145470057 "利用Ollama部署DeepSeek本地模型:从入门到实践-CSDN博客")

一、Dify介绍

官网:Dify.AI · 生成式 AI 应用创新引擎

文档:欢迎使用 Dify | Dify

Dify是什么?
    **Dify** 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 [LLMOps](https://docs.dify.ai/zh-hans/learn-more/extended-reading/what-is-llmops "LLMOps") 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。

    由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。这为开发者节省了许多重复造轮子的时间,使其可以专注在创新和业务需求上。
为什么使用Dify?
    你或许可以把 LangChain 这类的开发库(Library)想象为有着锤子、钉子的工具箱。与之相比,Dify 提供了更接近生产需要的完整方案,Dify 好比是一套脚手架,并且经过了精良的工程设计和软件测试。

重要的是,Dify 是开源的,它由一个专业的全职团队和社区共同打造。你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力,在灵活和安全的基础上,同时保持对数据的完全控制。

Dify 能做什么?
  • 创业,快速的将你的 AI 应用创意变成现实,无论成功和失败都需要加速。在真实世界,已经有几十个团队通过 Dify 构建 MVP(最小可用产品)获得投资,或通过 POC(概念验证)赢得了客户的订单。

  • 将 LLM 集成至已有业务,通过引入 LLM 增强现有应用的能力,接入 Dify 的 RESTful API 从而实现 Prompt 与业务代码的解耦,在 Dify 的管理界面是跟踪数据、成本和用量,持续改进应用效果。

  • 作为企业级 LLM 基础设施,一些银行和大型互联网公司正在将 Dify 部署为企业内的 LLM 网关,加速 GenAI 技术在企业内的推广,并实现中心化的监管。

  • 探索 LLM 的能力边界,即使你是一个技术爱好者,通过 Dify 也可以轻松的实践 Prompt 工程和 Agent 技术,在 GPTs 推出以前就已经有超过 60,000 开发者在 Dify 上创建了自己的第一个应用。

其他开源知识库
    为了进行一个清晰的横向对比,我们将从多个维度对MaxKB、AnythingLLM、Dify、FastGPT和Ragflow这些工具或平台进行比较。以下是基于现有信息整理的一个对比表格:
特性/平台 MaxKB AnythingLLM Dify FastGPT Ragflow
主要用途 知识库管理与检索 大规模语言模型的应用开发 AI应用快速开发与部署 快速构建和部署GPT模型 基于检索增强生成(RAG)的工作流
支持的模型 自定义 支持多种开源及私有LLMs 主要支持轻量级本地运行的模型 GPT系列模型 支持通过API集成的各种模型
硬件要求 适中,根据模型大小变化 高,特别是对于大型模型 较低,优化用于本地部署 根据模型大小变化,可能较高 中等到高,取决于使用的模型
用户友好度 提供图形界面(GUI),易于使用 对开发者友好,但需要一定的技术背景 提供CLI和API接口,相对易用 提供简化工具,适合快速原型设计 需要一定的配置和技术知识
集成能力 可以与其他系统集成 强大的集成能力,支持多环境 良好的集成能力 专注于GPT模型的快速集成 强调与外部数据源和模型的集成
扩展性 支持扩展,但有限 高度可扩展 具有一定的扩展性 适用于快速扩展的小型到中型项目 设计为高度可扩展
适用场景 知识管理、文档检索 复杂的语言处理任务,如对话系统 快速开发AI应用,适合初创公司和个人开发者 快速原型设计和小型项目的GPT模型部署 需要深度文本理解和检索的场景
社区和支持 社区较小,官方支持有限 活跃的开源社区 新兴平台,社区正在增长 相关资源丰富,尤其是关于GPT的内容 开源项目,有一定活跃度
    请注意,由于这些平台的具体功能和特性可能会随着时间而变化,上述信息是基于当前可获取的信息整理而成。在选择具体的工具或平台之前,建议访问其官方网站或联系官方支持团队,获取最新的产品信息和用户反馈。

    此外,“MaxKB”、“AnythingLLM”、“Dify”、“FastGPT”以及“Ragflow”的详细特性和应用场景可能需要更深入的研究来精确描述,因此鼓励读者进一步探索每个平台的独特优势和限制。

二、下载安装Dify

1、访问Dify的github站点:

GitHub - langgenius/dify: Dify is an open-source LLM app development platform. Dify’s intuitive interface combines AI workflow, RAG pipeline, agent capabilities, model management, observability features and more, letting you quickly go from prototype to production.,克隆Dify到本地并进入项目目录

git clone https://github.com/langgenius/dify.git
cd dify
cd docker
2、配置环境变量
cp .env.example .env
3、docker compose 启动Dify容器
docker compose up -d
4、访问Dify控制台

在浏览器中访问http://localhost/install,按照提示完成初始化配置。

完成后输入配置的帐户密码登录即可

三、使用Ollama安装文本嵌入模型

⚠️ 如何安装使用Ollama请查看文档:利用Ollama部署DeepSeek本地模型:从入门到实践-CSDN博客

1、什么是文本嵌入模型
    文本嵌入是一种将文本转换成固定长度的数值向量的技术。这种表示方式有助于机器学习算法更好地理解和处理人类语言。文本嵌入的目标是将相似意义的词或句子映射到接近的空间位置上,以便于计算它们之间的相似度或其他关系。
2、文本嵌入模型的作用
  • 语义搜索:通过比较查询与文档的嵌入向量,找到最相关的文档。
  • 推荐系统:根据用户兴趣的嵌入向量推荐产品或内容。
  • 情感分析:通过分析文本嵌入向量中的模式识别正面、负面或中立的情感倾向。
  • 问答系统:帮助理解问题并从大量文本中找到最合适的答案。
  • 文本分类:自动对文本进行分类,如新闻文章的主题分类等。
3、如何高效选择RAG的Embedding模型
 打开Ollama官网:[Ollama](https://ollama.com/ "Ollama"),点击上方的Models,选择Embedding

    理论上下载量最高的是被大多数人认可的,这里我们将前三位的模型做一个简单的对比
模型名称 性能特点(检索准确率等) 训练速度 推理速度 最低内存需求 推荐内存需求 GPU支持 其他要求(如存储空间)
nomic-embed-text 高精度检索,适合简短问题 中等 中等 8GB 16GB+ 支持 存储空间取决于模型大小,通常需要几GB到几十GB不等
mxbai-embed-large 快速处理大规模数据 8GB 16GB+ 支持 需要至少8GB内存,但推荐更多以处理大规模数据集
5

|
| snowflake-arctic-embed | 实用且平衡的选择 | 中等到快 | 中等到快 | 4GB | 8GB+ | 可选 | 依赖于具体应用场景,但通常需要足够的磁盘空间来存储训练数据 |

,根据自己的硬件配置选择一个合适的模型,这里我选择nomic-embed-text来做演示。

4、部署nomic-embed-text本地模型
    点击nomic-embed-text,直接复制命令到终端执行,等待下载完成即可。
ollama pull nomic-embed-text

四、搭建本地知识库

1、在Dify中上传DeepSeek模型以及文本嵌入模型
    在Dify控制台点击头像,在弹出菜单中选择设置

    ![](https://i-blog.csdnimg.cn/direct/c16fb685b1c6452c8150477a5cfd165d.png)​

    选择模型供应商,点击Ollama

    ![](https://i-blog.csdnimg.cn/direct/377d3f7f22a84092a601c3ae5ca2e746.png)​

    在弹出的页面中,模型类型选择LLM,模型名称输入deepseek-r1:7b(根据自己本地安装的模型名称填写,可通过ollama list命令查看安装的模型列表),基础URL填写本地Ollama Server的地址:如果使用 Docker 部署 Dify,请考虑使用本地网络 IP 地址,例如 http://192.168.1.100:11434 或 http://host.docker.internal:11434 访问服务,对于本地源代码部署,请使用 http://localhost:11434,模型类型选择“对话”,最大token填写“4096”,其余按照下图配置并点击保存

点击保存后如下图所示,点击继续添加模型

模型类型选择“Text Embedding”,模型名称填写“nomic-embed-text”,基础URL与上一步添加deepseek模型的地址一样,然后点击保存即可。

2、创建聊天应用

点击创建空白应用

选择聊天助手,输入应用名称,点击创建

测试一下添加的模型是否能正常运行

3、上传知识库

点击上方工具栏中的知识库,然后点击创建知识库

选择准备好的知识库文件,支持多种格式,点击下一步,我这里简单的写了一点测试文本

索引方式选择高质量,Embedding模型选择我们安装的nomic-embed-text,其他的默认即可,点击保存

等待嵌入完成

4、为应用添加上下文

点击上方工具栏中的工作室,点击第二步创建的聊天应用,在上下文配置处点击添加按钮,选择上一步上传的知识库,点击添加即可

5、测试知识库

现在按照我们上传的知识库中的内容,向deepseek本地模型发起提问,可以看到模型已完成了对知识库的学习,并准确的回答出了问题。

五、结论

    通过Dify与DeepSeek+Nomic-Embed-Text的有机组合,我们成功搭建了符合企业级需求的智能知识库系统。希望这篇指南能为您提供有价值的帮助,让您在探索人工智能技术的道路上更加顺利。

参考资料:

如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐