技术突破！DeepSeek模型结合RAG技术，实现完全本地部署的智能知识库

在当今这个信息爆炸的时代，人工智能技术正以前所未有的速度发展。其中，DeepSeek 作为新一代的 AI 选手，迅速成为行业内的焦点。DeepSeek 在多项性能测试中已经达到了 OpenAI 的最新大模型 o1 水平，部分项目还实现了超越，在多项评测中表现优异，甚至直逼世界顶尖的闭源模型 GPT-4o 和 Claude-3.5-Sonnet。

猿类崛起@

1448人浏览 · 2025-04-27 19:33:58

猿类崛起@ · 2025-04-27 19:33:58 发布

一、前言

目前，我们已经在公司的高性能服务器上完成了本地 AI 智能助手部署的 demo，通过大参数量的 DeepSeek 本地大模型（70b 及以上）与丰富的本地知识库相结合，成功创建了 “虚拟 CST/ABAQUS 技术支持工程师” 这一 AI 智能体，验证了 AI 模型 + 行业本地知识库在业务中的实际运用效果。

二、技术方案概述

2.1 整体架构：DeepSeek-R1 模型与 RAG 技术相结合

在选择 AI 模型时，我们考虑引入 DeepSeek 本地大模型，并结合 RAG（Retrieval-Augmented Generation）技术构建整体架构。

RAG 技术工作思路：先解析本地数据库，将文本、图像或其他类型数据转换成高维向量，而后将原始问题和引用的知识内容以向量形式整合到生成模型的输入中，增强生成的文本质量

DeepSeek 是一款专注于推理的模型，特别适用于利用已有的知识库高效回答客户问题。其高效的推理能力和多模态融合特性，使得 DeepSeek 在处理复杂逻辑任务和长文本时表现出色。DeepSeek-R1 不仅在数学、代码和自然语言推理等任务上表现卓越，性能直接对标 OpenAI 的 o1 正式版，同时使用 MIT 协议以开源形式向全球开发者开放。

DeepSeek

而 RAG 技术则通过检索增强生成，进一步提升模型的检索和生成能力。通过从外部知识库中检索相关信息，并将这些信息整合到生成模型的输入中，以增强生成的文本质量、准确性和相关性。

在知识库中导入文档后，系统会通过分块处理将文档切割为语义连贯的片段（Chunk）。这些文本块会经过嵌入模型（Embedding Model）转化为高维向量，存储至向量数据库（Vector DB）。当用户发起问答请求时，系统通过向量相似度检索匹配的文本片段，并将问题与相关上下文共同输入大语言模型（LLM），完成检索增强生成（Retrieval-Augmented Generation，RAG）的智能问答流程。

RAG 技术对本地知识库处理的流程图，图源 Cherry Studio 官方文档

这种方法能有效解决大型语言模型在处理训练数据外信息时的 “幻觉” 问题。文献表明，RAG 技术通过动态检索外部知识库实现行业适配（Lewis et al., 2020），这种架构既保留了通用模型的对话能力，又能通过知识库更新扩展专业认知边界。现有研究表明其综合成本显著低于全参数微调方案（Izacard et al., 2022）。相较于微调模型需要重新训练参数的方式，RAG 技术通过动态检索外部知识库实现行业适配，无需承担高昂的模型重训练成本。

2.2 部署方式：完全本地部署

通过全链路本地化部署架构，实现数据从存储到处理的端到端闭环，在消除外部攻击面的同时确保毫秒级响应速度。技术验证采用 Ollama 容器化框架集成 Cherry Studio 平台及 RAGFlow 智能检索系统，基于离线环境完成向量数据库构建与模型推理，使敏感信息全程驻留内网。

2.3 实现效果：高效、准确、清晰

该 “虚拟工程师” demo 可以快速且准确地查询 CST、ABAQUS 软件的帮助文档和工程案例，相比传统检索的方式， “虚拟工程师” demo 更能深刻理解用户的需求。通过 DeepSeek-R1 模型与 RAG 技术的结合，“虚拟工程师” demo 能够快速、准确地找到相关文档和案例，提供精准的答案和建议。

ABAQUS 问题响应结果

CST 问题响应结果

相比传统的单纯使用 “微调模型” 技术方案（可类比为 “考前复习”），大模型与 RAG 技术工作流程（可类比为 “开卷考试”）能够结合具体行业学习的内容，更有针对性地给出建议的解决方案。该方案不仅提升了模型的适应性和灵活性，还显著提高了问题解决的效率和准确性。

部署本地知识库后，在思考的过程中会引用知识库内容

三、部署流程

3.1 总览

下表展示了不同部署方式的主要特点，大家可以根据自身的情况和需求，决定部署的方式。

请添加图片描述

本文将聚焦本地化部署方案，以轻量级模型DeepSeek-R1:1.5b为示范，通过三步走流程实现零门槛安装：

环境搭建：使用开源工具Ollama，通过 ollama run deepseek-r1:1.5b 命令完成模型加载；
离线运行：所有数据在本地完成向量化处理与推理，避免敏感信息外传；
硬件适配：1.5b 版本仅需 4GB 内存即可流畅运行，适合个人电脑部署。

3.2 部署DeepSeek

1、从官网下载并安装Ollama，过程略。可参考 https://ollama.com/

点击 Download 下载对应系统版本的安装包。

2、在 Ollama 模型列表中复制命令ollama run deepseek-r1:1.5b，粘贴到命令行中，等待下载完成。

此处以最低版本作为示例，后续会推荐适合的模型规模。

下载完成后，可直接在命令行中与模型对话，检查模型能否正常加载。

3、安装对话界面软件，可以更直观地调整模型的参数和提示词，同时也支持将对话内容完全存档在本地。推荐Cherry Studio https://cherry-ai.com/

4、配置远程 Ollama 服务（可选）。默认情况下，Ollama 服务仅在本地运行，不对外提供服务。要使 Ollama 服务能够覆盖在局域网内的设备中，需要设置以下两个环境变量：

OLLAMA_HOST=0.0.0.0   
OLLAMA_ORIGINS=*

5、评估电脑最大可以运行的模型参数。根据对应参数的模型大小，对比计算机配置（如显卡、显存、内存、CPU等）与实际应用效果（如共享显存占用、CPU/GPU占用等）。

3.3 知识库

简略版：使用内置知识库的 AI 对话平台

以下平台可根据个人喜好选择：

1.Cherry Studio设置方式：参考 https://docs.cherry-ai.com/knowledge-base/knowledge-base

2.AnythingLLM设置方式：参考 https://docs.anythingllm.com/introduction

至尊版：使用 docker 部署 RAGFlow

可参考：

https://ragflow.io/ https://www.bilibili.com/video/BV1WiP2ezE5a/

1.安装 RAGFlow 1. 安装 docker 2. 拉取 RAGFlow 镜像

可访问官方 GitHub 仓库的 README 页面拉取镜像，并按照文档中的指引安装部署：https://github.com/infiniflow/ragflow/blob/main/README_zh.md
如果遇到问题，可访问网络上部署 RAGFlow 的踩坑帖子，如：https://blog.csdn.net/gr1785/article/details/145543754?spm=1001.2014.3001.5502

2.添加本地模型

1、在浏览器输入http://localhost:88，并注册账号和组织（该账号基于本地服务）。
2、在页面中选择 Ollama，并选择对应的模型类型。（DeepSeek 模型选择 chat，bge-m3 模型选择 embedding）
3、按照控制台Ollama -list命令中列出的模型名称填写（建议在列表中复制）。
4、基础 URL：http://host.docker.internal:11434
5、最大 token 数可随便填写（本地部署不消耗在线
token）。
6、按照上述方法分别添加 chat 模型和 embedding 模型。

RAGFlow 添加本地模型配置示例

3、设置快速启用服务脚本

可编写一个批处理文件start_ragflow.bat

@echo off     
 
:: 解决中文乱码问题   
chcp 65001 >nul   
title RAGFlow启动器      

:: 进入docker目录启动服务   
cd /d "你的RAGFlow路径，以\ragflow-main\docker结尾"   
docker compose up -d      

:: 打开浏览器访问页面   
start """http://localhost:80"      

echo RAGFlow服务已启动，浏览器即将打开...   
pause   `

4、设置知识库

由于网上关于RAGFlow的内容众多，在 RAGFlow 中设置知识库的具体步骤，可根据官方文档或网络教程操作，在此不再赘述。

创建好的知识库

3.4 参数调整

参数背景知识

Temperature（温度） ：

温度参数控制模型生成文本的随机性和创造性程度（默认值为0.7或1.0，不同软件/平台有不同的设置）。具体表现为：

低温度值(0-0.3)：输出更确定、更专注，适合代码生成、数据分析等需要准确性的场景。
中等温度值(0.4-0.7)：平衡了创造性和连贯性，适合日常对话、一般性写作。
高温度值(0.8-1.0)：产生更具创造性和多样性的输出，适合创意写作、头脑风暴等场景。

Top P（核采样）：

默认值为 1，值越小，AI 生成的内容越单调，也越容易理解；值越大，AI 回复的词汇范围越大，越多样化。

核采样通过控制词汇选择的概率阈值来影响输出：

较小值(0.1-0.3)：仅考虑最高概率的词汇，输出更保守、更可控，适合代码注释、技术文档等场景。
中等值(0.4-0.6)：平衡词汇多样性和准确性，适合一般对话和写作任务，
较大值(0.7-1.0)：考虑更广泛的词汇选择，产生更丰富多样的内容，适合创意写作等需要多样化表达的场景。

💡

这两个参数可以独立使用或组合使用
根据具体任务类型选择合适的参数值
建议通过实验找到最适合特定应用场景的参数组合
以上内容仅供参考和了解概念，所给参数范围不一定适合所有模型，具体可参考模型相关文档给出的参数建议。

场景配置

不同业务场景中 LLM 模型的参数需求往往有着明显差异，需要结合理论与实践结果进行调整。下表系统地梳理了Temperature与Top-P参数的协同配置策略，综合考量了输出质量、创意需求及风险控制三个维度，并标注典型应用场景的实践验证效果。

场景	Temperature 范围	Top-P 范围	说明
代码生成	0.1–0.3	0.1–0.3	极低温+极低Top-P，减少语法错误，确保代码逻辑正确。
技术文档如代码、产品说明	0.2–0.5	0.5–0.7	低温+中低Top-P，确保输出准确结构化，避免冗余内容。
客户服务如聊天机器人	0.5–0.8	0.7–0.9	平衡自然与可控，保留部分多样性以灵活应答。
创意写作如诗歌、故事生成	0.7–1.2	0.8–0.95	高温+高Top-P，鼓励多样性，需注意逻辑连贯性。
开放探索如头脑风暴、灵感激发	1.0–1.5	0.95–1.0	高温+全覆盖Top-P，牺牲准确性以激发意外创新。
本地知识库如业务数据分类、结构化信息抽取、知识问答	0.2–0.5	0.5–0.7	降低随机性，确保输出稳定和事实准确，同时聚焦高频候选词，避免低质量内容干扰。

参数调整建议

优先调整单一参数：通常仅需调整Temperature或Top-P，避免两者同时大幅改动。
高温+中低Top-P：在创意任务中，高温配合稍低Top-P（如0.8）可平衡多样性与质量。
低温+低Top-P：用于高精度任务（如法律文本生成），确保输出高度可控。
提示词约束： 可以增加知识库中无查询内容情况下输出信息，最大化利用模型本身的知识范围。例如：【如果知识库中没有找到相关的信息，请现在回答的开头说明“我不了解这个问题，但我会根据我自己的理解尝试回答”，然后再讨论你的见解。】

四、总结

通过以上操作，即可在本地计算机或服务器上搭建一套完全离线的 AI 本地知识库查询系统。且效果能够随着模型参数、知识库参数的优化而变得更明显。目前，该方案已在企业内部知识管理、智能客服等场景落地，在保障数据安全的前提下，让企业知识库真正「活起来」。

DeepSeek 推理模型与 RAG 技术的结合，为构建企业专属知识库的业务场景提供了高效的解决方案。通过将行业积累的技术文档、项目经验等结构化数据与 AI 深度结合，既能让系统精准理解专业术语，又能基于实时更新的知识库生成可靠回答。采用这种架构的方案，既保留了通用大模型的对话能力，又通过持续学习企业特有知识，实现「越用越懂业务」的个性化效果。

我的DeepSeek部署资料已打包好（自取↓）
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码甚至预测市场趋势——答案就藏在大模型技术里！

❗️为什么你必须了解大模型？

1️⃣ 薪资爆炸：应届大模型工程师年薪40万起步，懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构：金融、医疗、教育正在被AI重塑，不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车：90%的进阶技巧不需写代码！会说话就能指挥AI

（附深度求索BOSS招聘信息）
在这里插入图片描述

⚠️警惕：当同事用DeepSeek 3小时干完你3天的工作时，淘汰倒计时就开始了。

一、大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

在这里插入图片描述

二、如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述