
【DeepSeek应用】DeepSeek 搭建个人知识库(Ollama+CherryStudio)
通过搭建个人知识库,让 DeepSeek 与私有数据结合,可以实现更专业的、更智慧的、私人定制的大模型。本文详细讲解 采用 CherryStudio 搭建 Deepseek 个人知识库的流程,并通过实例代码进行演示。
【DeepSeek应用】Deepseek R1 本地部署(Ollama+Docker+OpenWebUI)
【DeepSeek应用】DeepSeek 搭建个人知识库(Ollama+CherryStudio)
【DeepSeek应用】100个 DeepSeek 官方推荐的工具箱
【DeepSeek应用】Zotero+Deepseek 阅读与分析文献
【DeepSeek应用】DeepSeek 搭建个人知识库(Ollama+ChatBox)
DeepSeek-R1 大模型价格低廉,性能卓越,在 AI 行业引起了广泛关注。DeepSeek 提供了多种使用方式,满足不同用户的需求和场景。DeepSeek 本地部署在数据安全、性能、定制化、成本、离线可用性和技术自主性方面具有显著优势。
【DeepSeek应用】Deepseek R1 本地部署(Ollama+Docker+OpenWebUI) 详细讲解了基于 Ollama+Docker+OpenWebUI 的本地化部署流程。
本文在该文的基础上,进一步介绍搭建个人知识库,详细讲解 基于 CherryStudio 搭建个人知识库的流程,并通过实例代码演示。
1. 为什么搭建个人知识库
搭建个人知识库,本质上是通过私有化的大模型能力将分散的文档、笔记、数据等转化为可交互的智能知识体系。
DeepSeek 是基于公开数据训练的。在日常工作和学习中,我们常常会积累大量的文档、代码、笔记等资料。对于企业来说,更是积累了大量业务资料和技术资料,都是宝贵的私有知识库内容。通过搭建个人知识库,让 DeepSeek 和私有数据结合,就能实现更专业的、更智慧的、私人定制的大模型。
使用 DeepSeek + 个人知识库的典型应用场景如下。
- 学习研究:自动解析论文,生成结构化笔记,支持自然语言提问(如“对比Transformer和CNN的优缺点”)。
- 创作辅助:基于历史文档生成连贯内容(如技术博客草稿、代码模板),自动检查知识一致性。
- 企业知识管理:自动构建知识图谱,支持智能问答和知识推荐,提升团队协作效率。
如果个人知识库的内容不涉及保密数据,可以通过云服务搭建个人知识库,更加快捷高效。如果个人知识库的内容涉及商业秘密或个人隐私,不宜上传到云服务器,则建议在本地搭建个人知识库。
搭建基于 Deepseek 的个人知识库,可以采用不同的技术路线。
-
1. Ollama + Chatbox 搭建个人知识库:
通过 Ollama 提供本地模型运行支持,Chatbox 提供知识库管理功能,支持零代码或低代码操作。
Chatbox 是一个聊天性质的对话窗口,该方案适合快速搭建一个简单的文档知识库,但对于上传大批文件进行学习的效果不太理想。 -
2. CherryStudio + 第三方嵌入模型 搭建个人知识库:
通过 Ollama 提供本地模型运行支持,CherryStudio 通过图形化界面配置模型和知识库,无需编程。适合于个人用户或小团队快速构建基于私有数据的问答系统。 -
3. Docker + Dify 搭建个人知识库:
容器化部署,隔离性强,适合企业级应用;Dify 提供完整的知识库问答系统框架。适合 小型公司需要稳定、可扩展的私有知识库系统。
本文采用 CherryStudio 来搭建 Deepseek 个人知识库。
2. 获取 Deepseek API 权限
2.1 获取 Deepseek API 权限的途径
在 CherryStudio 中通过 API 接口调用 DeepSeek 模型,需要 DeepSeek API 权限。通过 Deepseek 官网或第三方平台都可以获取 Deepseek API 权限。
-
通过 Deepseek 官方平台获取 API Key
Deepseek 官方平台是最直接的获取 API Key 的方式,适合需要纯正模型和最新功能的用户。
步骤:
(1)注册并登录:访问 Deepseek 官方开发者平台,使用手机号或微信账号注册并登录。
(2)创建 API Key:在开发者平台首页点击 “API Keys”;选择 “创建 API Key”,填写名称并生成密钥。
注意:
(1)价格:每 100 万输出 Token 的价格为 8 元(V3 模型)或 16 元(R1 模型)。
(2)稳定性:由于官方服务器压力较大,可能会出现访问不稳定的情况。 -
通过硅基流动平台获取 API Key
硅基流动平台提供了 DeepSeek 模型的接入服务,适合需要稳定性和多样化模型的用户。
步骤:
(1)注册并登录:使用邀请码 cXfb9wOT 注册 硅基流动平台,即可获赠 2000 万 Tokens!
(2)创建 API Key:在平台首页,点击 “API 密钥”;选择 “新建 API 密钥”,填写描述信息并生成密钥。
注意事项:
(1)价格:每 100 万输出 Token 的价格为 8 元(V3 模型)或 16 元(R1 模型),与官方平台一致。
(2)功能:平台稳定性较好,适合长期使用。 -
通过百度千帆平台获取 API Key
百度千帆平台提供了 DeepSeek 模型的接入服务,价格相对较低。 -
通过火山方舟平台获取 API Key
火山方舟平台提供了 DeepSeek R1 模型的接入服务,适合需要高速联网和思维链功能的用户。
2.2 注册硅基流动平台获取 DeepSeek API 权限
使用邀请码 cXfb9wOT 注册 硅基流动平台,获赠 2000 万 Tokens!
- 访问 硅基流动平台,使用邀请码 cXfb9wOT 注册。注意如果不使用邀请码也可以注册,但不会获赠 Tokens,您可以在 “余额充值” 中充值获取 Tokens。
- 获取API
API密钥 是您访问 SiliconCloud 接口的凭证,具有该账户的完整权限。
(1)新建 API 密钥:在左侧控制台中选择 “API秘钥”,进入 API 管理页面,点击右上角的 “新建 API 密钥”,点击 “新建密钥” 即可新建一条 API密钥。
(2)复制 API 密钥:如下图所示,在 API 管理页面生成了一条 API 密钥,点击秘钥就可以复制 API 密钥,用于通过 API 来调用 Deepseek 模型。
3. 安装 CherryStudio
3.1 CherryStudio 简介
CherryStudio(https://cherry-ai.com) 是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台。其核心功能包括:
- 基础对话功能:支持一问多答、自动分组、对话导出、自定义参数、助手市场、多种格式渲染。
- 集成特色功能:提供 AI绘画、AI小程序、翻译功能、文件管理、全局搜索。
- 多服务商管理功能:支持 OpenAI、Gemini、Deepseek、Azure 等主流服务商的模型统一调用。
- 本地知识库系统:
- 多种格式支持:支持 PDF、DOCX、PPTX、XLSX、TXT、MD 等多种文件格式导入。
- 多种数据源支持:支持本地文件、网址、站点地图甚至手动输入内容作为知识库源。
- 知识库导出:支持将处理好的知识库导出并分享给他人使用。
- 支持搜索检查:知识库导入后,用户可实时检索测试,查看处理结果和分段效果。
使用 CherryStudio 构建个人知识库,所有使用数据都储存在本地,不会上传到任何第三方服务器,可以避免数据泄漏风险。此外,CherryStudio 支持全本地场景使用,可以实现本地部署 Deepseek 的模型调用。
Cherry Studio 针对个人用户免费。
3.2 CherryStudio 下载与安装
- 下载 CherryStudio 安装程序。
可以从 CherryStudio 官方网站 下载 CherryStudio 安装程序。如果下载速度慢,可以从官网主页选择“其他版本或备用线路下载”,或网盘下载。
- 安装 CherryStudio。
3.3 CherryStudio 模型配置
- 输入 API 密钥:
打开 CherryStudio 应用程序,点击左下角 “设置” 按钮,选择 “模型服务–硅基流动” 接入模型配置页面,将刚才从 硅基流动 获取的密钥 复制到 右侧的 “API 密钥” 栏中。
- 添加 Deepseek模型:
在模型配置页面,拉到页面最下方,点击“管理”按钮弹出 “硅基流动模型” 管理页面,在 CherryStudio v1.1.10 中默认添加了 Deepseek-R1 和 Deepseek-V3 模型,可以根据需要增加或删除所需的模型。
也可以点击 “添加” 按钮在弹出 “添加模型” 页面填写 模型ID 和模型名称,添加特定的模型。
- 检测 Deepseek 模型的连接:
(1)在模型配置页面,点击 “API密钥” 后面的 “检查按钮”,弹出“选择检测模型”窗口,点击“确定”按钮。
(2)如果连接成功,则弹出 “连接成功”,测试成功。如果连接失败,则弹出 “连接失败”,并显示失败原因的代码。
注意:“连接成功” 或 “连接失败” 的弹窗很快都会自动消失,因此在检测时要注意观察页面显示。
- 配置嵌入模型:
嵌入模型的主要作用是将本地文件的内容转换成有意义的数字,存储到向量数据库中。在用户提问时,利用 RAG 技术在数据库中搜索到相似答案,最终回复用户。
在 CherryStudio v1.1.10 中默认添加了 BAAI/bge-m3 嵌入模型。如果希望搜索的精准度更高,可以选择 “BAAI/bge-m3-large” 或 “Pro/BAAI/bge-m3” 模型。
4. 创建个人知识库
4.1 创建知识库
打开 CherryStudio 应用程序,点击左侧工具栏的 “知识库” 按钮,再点击左上角 “添加” 按钮,出现 “添加知识库” 弹窗。
- 填写知识库名称,这是用户自己取的名称,例如“ROP文献”。
- 点击“嵌入模型”下拉框,显示 “配置嵌入模型” 时所添加的嵌入模型,从中选择应用的嵌入模型,例如 BAAI/bge-m3 嵌入模型。
- 如已添加了 “重排序模型”,可以选择重排序模型,否则忽略。
- 点击 “确定” 完成知识库创建。
4.2 导入知识库文件
将文献资料导入知识库,并进行向量化处理。
CherryStudio 目前支持的文件格式包括:pdf,docx,pptx,xlsx,txt,md,mdx 等。
CherryStudio 支持多种方式添加数据:
- 添加文件:
- 在“知识库”管理页面,点击右上角“添加文件”按钮,打开文件夹从中选择添加的文件;
- 也可以直接从文件夹拖拽文件到 “拖拽文件到这里”,来添加文件。
- 添加文件夹目录:
- 在“知识库”管理页面,点击“添加目录” 可以添加整个文件夹,该目录下的文件(对于支持的文件格式)会被自动添加并向量化处理。
- 网址链接:
- 在“知识库”管理页面,点击“添加网址” 可以添加一个或多个 URL,多个网址之间用回车分隔。
- 网站地图:
- 在“知识库”管理页面,点击“站点地图” 可以输入站点地图 URL。支持 xml 格式的站点地图,如https://docs.siliconflow.cn/sitemap.xml。
- 纯文本笔记:
- 在“知识库”管理页面,点击“添加笔记” 弹出文本编辑窗口,可以输入文本笔记。
文献资料导入知识库后,系统会自动对文件内容进行向量化处理,完成后显示绿色 ✓ 标记。
提示:
- 导入知识库的文档中的插图暂不支持转换为向量,需要手动转换为文本;
- 使用网址作为知识库来源时不一定会成功,有些网站有比较严格的登录授权等验证机制,因此不一定能获取到准确内容。
- 很多网站都会提供站点地图(sitemap),通常在网站的根地址(即网址)后加/sitemap.xml可以获取到相关信息。
4.3 搜索知识库
导入知识库的文档资料向量化完成后,即可进行查询。
- 在“知识库”管理页面,拉到页面最下方,点击“搜索知识库” 按钮即可开始查询。
- 呈现从个人知识库的搜索结果,并显示每条结果的匹配分数(Score)。
5. 基于本地知识库的 Deepseek 对话
5.1 调用 Deepseek API 聊天
- 打开 CherryStudio 应用程序,点击左侧工具栏的 “助手” 按钮,进入聊天页面。
- 当前使用的是 “硅基流动” 的 “deepseek-ai/DeepSeek-V3” 模型,点击页面上方的模型按钮,可以切换到其它模型。
- 在下方聊天窗口输入消息,就可以与 DeepSeek-V3 模型进行对话。
注意:我们提出的问题是“哪些文献涉及 ROP 数据集?”。虽然 DeepSeek-V3 模型给出了一些看起来很精准、很真实的高水平回答,但遗憾的是这些文献资源都并不存在,而是 DeepSeek-V3 模型编造的,因此也没有给出具体的文献来源。
5.2 加载本地知识库与 Deepseek 聊天
- 点击聊天窗口下方的 “知识库” 按钮,选择用户建立的知识库。如下图所示,选择我们刚才建立的“ROP文献” 知识库。
- 在下方聊天窗口输入消息,与 DeepSeek-V3 模型进行对话。
我们提出的问题仍然是“哪些文献涉及 ROP 数据集?”。此时 DeepSeek-V3 模型从个人知识库的文献中检索到了相关内容并进行了总结。
值得注意的是:
- 在每条内容之后都明确地给出了参考文献编号,在回答的最后还列出了参考文献的引用来源。这些参考文献都来自个人知识库的文档。
- 与 CherryStudio 提供的 “搜索知识库” 功能不同的是,“搜索知识库” 只是从个人知识库的文档中进行搜索,而 DeepSeek 模型提供的对话则是在学习和理解个人知识库的知识后,从而可以提供智能的、精准的分析和总结。
6. 基于 Ollama 本地部署的 Deepseek 个人知识库系统
6.1 Ollama 本地部署 Deepseek
基于 Ollama 本地部署 Deepseek 详见本系列博客 【DeepSeek应用】Deepseek R1 本地部署(Ollama+Docker+OpenWebUI) 中的相关内容,本文只做简单概述。
-
Ollama 的下载与安装。
-
基于 Ollma 安装 deepseek-r1 模型。
(1)从 ollama 官网 查找 deepseek-r1 模型。
(2)点击进入 deepseek-r1 模型,可以选择不同版本的模型(1.5b/7b/14b/32b/70b/671b)。
(3)本教程选择选择 7b 模型,在命令行窗口运行安装命令 “ollama run deepseek-r1:7b”,程序会自动下载和安装运行。
(4)安装完成后显示 “success”,表明安装成功。
说明:如果安装其它版本,只要修改在安装命令最后的版本参数即可,详见以下命令列表。
# DeepSeek-R1-Distill-Qwen-1.5B
ollama run deepseek-r1:1.5b
# DeepSeek-R1-Distill-Qwen-7B
ollama run deepseek-r1:7b
# DeepSeek-R1-Distill-Llama-8B
ollama run deepseek-r1:8b
# DeepSeek-R1-Distill-Qwen-14B
ollama run deepseek-r1:14b
# DeepSeek-R1-Distill-Qwen-32B
ollama run deepseek-r1:32b
# DeepSeek-R1-Distill-Llama-70B
ollama run deepseek-r1:70b
- 使用 deepseek-r1 模型:
(1)在命令行窗口运行命令 “ollama run deepseek-r1:7b”,就可以在提示行输入,与 deepseek-r1 进行聊天。
注意:窗口运行命令 “ollama run deepseek-r1:7b”,根据实际安装的 deepseek-r1 模型而有差异,例如安装 32b 模型则输入 “ollama run deepseek-r1:32b”。
(2)输入 “/?”,可以获得帮助。
6.2 CherryStudio 配置本地 Deepseek 模型
- 点击 CherryStudio 左下角 “设置” 按钮,选择 “模型服务–Ollama” 进入模型配置页面:
- 勾选右上角 Ollama 之后的开关(如下图红色方框所示),启用 Ollama 模型;
- “API 密钥” 栏中空着不填;
- “API 地址” 栏中填 Ollama 默认的绑定地址“http://localhost:11434” 或 “http://127.0.0.1:11434” 。如果用户修改了 Ollama 的监听地址,则填写相应的修改地址。
- 点击 “管理” 按钮,弹出如下图所示的 Ollama 模型管理页面,点击所需启用模型后方的绿色加号 “+”。如下图所示,点击 “deepseek-r1:14b” 之后的加号(红色方框位置),变成白色减号 “-” 表示启用该模型。
- 配置嵌入模型:
构建知识库需要 embedding 模型,bge-m3 模型是当前领先的多语言嵌入模型,在 MIRACL、MKQA 等基准测试中排名第一,支持 100+ 语言。本教程基于 Ollama 部署 bge-m3模型。
- 在命令行窗口运行安装命令 “ollama run bge-m3”,程序会自动下载和安装运行。
安装完成后,显示“success” 表示安装成功。显示的 “Error: “bge-m3” does not support generate” 并不是安装错误,而是说明 bge-m3 模型不支持 generate 或 chat 这类生成式任务。
- 点击 “管理” 按钮弹出 Ollama 模型管理页面,点击嵌入模型 “bge-m3” 之后的加号(红色方框位置),变成白色减号 “-” 表示启用该模型。
6.3 基于本地个人知识库的本地部署 Deepseek 模型
以上,我们通过 Ollama 提供本地模型运行支持,CherryStudio 通过图形化界面配置模型和知识库,实现了基于本地个人知识库的本地部署 Deepseek 模型。
- 打开 CherryStudio 应用程序,点击左侧工具栏的 “助手” 按钮,进入聊天页面。
- 当前使用的是 “硅基流动” 的 “deepseek-ai/DeepSeek-V3” 模型,点击页面上方的模型按钮,切换到基于 Ollama 部署的 deepseek-r1:14b 本地模型。
-
点击聊天窗口下方的 “知识库” 按钮,选择建立的“ROP文献” 知识库。
-
在下方聊天窗口输入消息,就可以基于本地知识与 deepseek-r1 本地模型进行对话。
如图所示,deepseek-r1 本地模型的回答已经使用了本地知识库的内容,但回答质量比通过 “硅基流动” 调用 deepseek 模型较差。这是因为本教程中部署的是参数规模较小的 deepseek-r1:14b 模型,不是 671b 的满血版。
如果本地服务器支持部署高性能的 deepseek 模型,可以获得更好的回答质量。另外,使用本地模型无需联网和购买 tokens,还可以保护数据安全。
版权声明:
youcans@qq.com 原创作品,转载必须标注原文链接:
【DeepSeek应用】DeepSeek 搭建个人知识库(Ollama+CherryStudio)
Copyright@youcans 2025
Crated:2025-03
更多推荐
所有评论(0)