零代码搭建本地知识库：基于DeepSeek+RAG+Ollama+Cherry Studio全流程指南

核心价值企业敏感数据100%离线处理个人知识库智能问答本地模型快速响应支持PDF/Word/网页等多格式文档工具链Ollama：开源模型托管平台（支持150+模型）：深度求索开源的16K长文本大模型：中文语义向量模型：AI应用可视化客户端本方案在Intel i7-12700H + RTX 4070设备上实测，可流畅处理200页以内的技术文档问答。通过本地化部署既保障了数据安全，又充分发挥了Deep

python_知世

1353人浏览 · 2025-03-28 11:28:45

python_知世 · 2025-03-28 11:28:45 发布

一、方案优势与工具简介

核心价值：通过本地化部署的LLM（DeepSeek）与RAG技术结合，实现：

企业敏感数据100%离线处理
个人知识库智能问答
本地模型快速响应
支持PDF/Word/网页等多格式文档

工具链：

Ollama：开源模型托管平台（支持150+模型）
DeepSeek-R1：深度求索开源的16K长文本大模型
dmeta-embedding：中文语义向量模型
Cherry Studio：AI应用可视化客户端

二、环境准备与工具安装

1. 安装Ollama服务

访问Ollama官网下载对应系统安装包：

Windows用户双击.exe自动安装
macOS使用brew install ollama
Linux执行curl -fsSL https://ollama.com/install.sh | sh

验证安装成功：

ollama --version
# 应显示版本号（如：0.1.25）

2. 获取模型文件

在终端执行以下命令（按设备配置选择模型）：

# 基础版（8G显存+16G内存）
ollama run deepseek-r1:8b

# 高性能版（24G显存+32G内存）
ollama run deepseek-r1:128b

在这里插入图片描述

3. 安装嵌入模型

执行中文向量化模型安装：

ollama run shaw/dmeta-embedding-zh

三、Cherry Studio配置详解

客户端安装
从Cherry Studio官网下载最新版本，完成基础安装。
连接本地模型服务
- 左下角设置 → 模型服务 → Ollama
- 添加模型服务：```
  API地址: http://localhost:11434/v1/
  API密钥: 任意字符（本地验证可不填）
- 点击「检查连接」确认状态正常
关键配置项
- 务必为dmeta-embedding-zh选择嵌入模式
- 设置默认对话模型为deepseek-r1
- 调整上下文长度至16K（匹配模型能力）

四、知识库创建实战

新建知识库
- 点击「知识库」→「新建」
- 命名后选择dmeta-embedding-zh作为嵌入模型
文档导入技巧
- 支持格式：PDF/Word/Markdown/HTML/TXT
- 批量上传建议不超过50个文件
- 网页抓取需完整URL（支持https）
向量化处理
上传后自动启动解析，进度条显示绿色即完成。常见处理速度：
- 文本文件：约100页/分钟
- PDF扫描件：依赖OCR识别速度

五、智能问答测试

基础对话测试

# 示例问题
"请解释RAG技术的工作原理"

在这里插入图片描述

知识库检索验证

# 基于上传文档提问
"我们公司2023年的研发投入占比是多少？"

混合问答模式

"结合行业趋势分析，我们的产品路线图需要哪些调整？"

六、高级配置技巧

性能优化方案

# 调整Ollama运行参数
OLLAMA_NUM_GPU=2 ollama serve

多知识库协同
- 创建技术文档、市场情报等分类库
- 通过@知识库名称指定检索源

API集成开发

import requests
response = requests.post(
    "http://localhost:11434/v1/chat/completions",
    json={
        "model": "deepseek-r1",
        "messages": [{"role": "user", "content": "问题内容"}]
    }
)

七、常见问题排查

现象	解决方案
模型加载失败	检查显存占用，尝试较小模型
知识库检索无结果	确认dmeta模型设为嵌入模式
响应速度慢	调整Ollama的num_ctx参数
中文乱码	安装中文字体包并重启服务