探索大模型应用系列03 | DeepSeek+RAG实现本地知识库

我们实际应用DeepSeek时，，例如专业术语理解困难、数据分析时效偏差、内容生成关联性弱等。这些现象的本质原因在于通用模型缺乏垂直领域的知识沉淀。目前主流的方法是改善这些问题。AI大语言模型如同闭卷考试的学生，仅能调用预训练知识。通过构建领域知识库实现"开卷作答"，实时检索数据进行学习并融合上下文生成解决方案，显著提升任务精准度与场景适配性。当用户提出问题时，系统会从外部的知识库中检索出与用户输

编程小饴

1346人浏览 · 2025-03-10 11:46:37

编程小饴 · 2025-03-10 11:46:37 发布

我们实际应用DeepSeek时，模型常因缺乏领域知识导致许多痛点，例如专业术语理解困难、数据分析时效偏差、内容生成关联性弱等。这些现象的本质原因在于通用模型缺乏垂直领域的知识沉淀。目前主流的方法是使用DeepSeek+RAG构建知识库系统改善这些问题。

AI大语言模型如同闭卷考试的学生，仅能调用预训练知识。通过构建领域知识库实现"开卷作答"，实时检索数据进行学习并融合上下文生成解决方案，显著提升任务精准度与场景适配性。

RAG （检索增强生成）：

检索(Retrieval)

当用户提出问题时，系统会从外部的知识库中检索出与用户输入相关的内容。

增强(Augmentation)

系统将检索到的信息与用户的输入结合，扩展模型的上下文。其结果传给生成模型(Deepseek)。

生成(Generation)

生成模型基于增强后的输入生成最终的回答。此回答参考外部知识库中的内容生成，更加准确可读。

DeepSeek+RAG 本地知识库的优点

具有高隐私性，数据本地存储无泄露风险；

离线可用，不受网络限制；

检索精准，针对特定领域文档提供准确结果；

可个性化定制，满足用户特定需求；

长期来说使用成本低，无需支付API调用费用。

基于AnythingLLM的RAG实践

目前我们可以借助很多技术栈工具来实现RAG功能，如AnythingLLM/Dify/Ragflow/Cherry Studio等。其中比较容易的是AnythingLLM，本篇主要介绍这个。

其他工具的搭建方法步骤略多，但并不困难。篇幅有限，此处不多介绍。鼓励大家查看下方教程，大胆尝试，实践学习。

前期准备

下载AnythingLLM Desktop

前往官网AnythingLLM Desktop，下载适合自己电脑的版本。安装时，注意安装到其他磁盘，不建议在c盘安装。

https://anythingllm.com/desktop

下载向量模型

Windows系统打开命令行，Mac系统打开Terminal，打开方法见第一期。复制代码，粘贴至图示位置并回车运行。

ollama pull bge-m3

AnythingLLM 配置

第一步： 打开后跳过介绍教程和登录，点击右下角的设置。

第二步：Ollama配置

1. 点击人工智能提供商下拉菜单

2. 点击 LLM首选项

3. 选择Ollama作为模型提供商

4. 选择已安装的deepseek 模型

5. 保存修改

注1： 如果没有所需deepseek模型版本，请重新进行该版本的本地部署，具体操作可查看第一期教程。

注2： 其他选项在本次中无需修改，但建议大家阅读下方备注，了解选项意义。

第三步：向量库模型配置

1. 选择Embedder首选项

2. 选择Ollama作为嵌入引擎提供商

3. 选择bge-m3模型

4. 保存修改

第四步：文本分割配置

1. 选择文本分割

2. 根据自己的文本输入，设置文本块大小，最大值为1000

3. 建议重叠率在10%~25%，设置文本块重叠

文本块重叠=文本块大小×重叠率

4. 保存修改

5. 结束配置，返回工作台

第五步：配置工作区

1. 选择或新建一个工作区

2. 点击默认会话或点击New Thread 新建一个会话

3. 上传知识库文档

如果文件多，或文件较大，此过程需要等待一段时间。待显示成功后可以开始使用。

第六步：使用问答功能并验证

提出问题，如果在回答下方citation发现之前上传的文件，说明这些文件已作为本地知识库参与答案生成。证明基于AnythingLLM的DeepSeek+RAG本地知识库已实现。

恭喜大家搭建成功啦！

本地知识库不仅具备高隐私性、离线可用的优势，还能快速关联个人文档，显著提高工作学习效率。随着技术持续进步，未来本地知识库将愈发智能强大。

我的DeepSeek部署资料已打包好（自取↓）
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码甚至预测市场趋势——答案就藏在大模型技术里！

❗️为什么你必须了解大模型？

1️⃣ 薪资爆炸：应届大模型工程师年薪40万起步，懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构：金融、医疗、教育正在被AI重塑，不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车：90%的进阶技巧不需写代码！会说话就能指挥AI

（附深度求索BOSS招聘信息）
在这里插入图片描述

⚠️警惕：当同事用DeepSeek 3小时干完你3天的工作时，淘汰倒计时就开始了。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？老师啊，我自学没有方向怎么办？老师，这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！当然这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！