
DeepSeek 部署实战:Ollama + 多客户端 + RAG
若用模型处理敏感数据,需进行数据加密(静态数据和传输中数据都要加密,可使用 BitLocker、LUKS 等工具加密磁盘,用 HTTPS 传输数据)、数据脱敏(去掉或替换敏感信息),遵循最小权限原则,定期备份数据。除上述客户端外,还有很多 LLM 客户端可能支持 Ollama,可在客户端设置中找到 “API”“连接” 或 “服务器” 选项,配置 Ollama 地址和端口进行尝试。检查 Ollama
DeepSeek 部署实战:Ollama + 多客户端 + RAG
一、前置条件
(一)硬件要求
- GPU:强烈建议使用 NVIDIA RTX 3090 或更高型号,显存至少 24GB。小显存跑大模型会遇到诸多问题,本人亲测 2080Ti 跑模型体验不佳。
- 内存:至少 64GB,推荐 128GB 或更多,否则运行时可能成为瓶颈。
- 存储:至少 100GB 可用空间,用于存放模型文件、软件和依赖库等。
- 兼容性检测:可通过DeepSeek 模型兼容性检测进行图形化检测,查看设备对 DeepSeek 模型的兼容性。
(二)软件要求
- 显卡驱动:确保是最新版本,避免兼容性问题导致错误。
- Docker(可选但强烈推荐用于 Lobe Chat 部署):使用它部署更省心。
- Node.js >= 18 和 pnpm(可选,用于手动部署 Lobe Chat,适合前端高手) 。
二、Ollama 安装与配置
(一)Windows 安装
- 下载:访问 Ollama 官网Ollama,下载 Windows 安装包。
- 安装:双击安装包,一路 “下一步” 完成安装。
- 验证:打开 PowerShell 或 CMD,输入
ollama --version
,出现版本号即安装成功。
(二)Linux 安装
- 安装:打开终端,执行
curl -fsSL https://ollama.com/install.sh | sh
。 - 验证:在终端输入
ollama --version
。
(三)macOS 安装
- 安装:可在终端执行
curl -fsSL https://ollama.com/install.sh | sh
,也能用 Homebrew 安装,命令为brew install ollama
。 - 验证:执行
ollama --version
。
(四)环境变量配置
- OLLAMA_HOST(可选):若想让内网其他机器访问 Ollama 服务,需配置此变量。Windows(PowerShell)下设置为
$env:OLLAMA_HOST="0.0.0.0:11434"
;Linux/macOS 下使用export OLLAMA_HOST="0.0.0.0:11434"
。同时,要在防火墙里放行 11434 端口(或自定义端口)。 - OLLAMA_MODELS(可选):可用于指定模型文件存放路径。
- 代理设置(内网常用):若网络需通过代理访问外网,必须设置 HTTP/HTTPS 代理。Windows(PowerShell)设置为
$env:HTTP_PROXY="http://your-proxy-server:port"
和$env:HTTPS_PROXY="http://your-proxy-server:port"
;Linux/macOS 设置为export HTTP_PROXY="http://your-proxy-server:port"
和export HTTPS_PROXY="http://your-proxy-server:port"
。
三、下载 DeepSeek 模型
(一)在线下载
使用以下命令下载:
ollama run huihui_ai/deepseek-r1-abliterated:32b
(越狱 32B 模型)ollama run deepseek-r1:32b
(官方模型)ollama run bge-m3
(文本向量模型,用于 RAG 知识库,二选一)ollama run nomic-embed-text
(文本向量模型,用于 RAG 知识库,二选一)
(二)离线下载
- 在能上网的机器上,用 Lmstudio 下载模型。
- 找到对应的 gguf 格式模型文件,将整个文件夹复制到内网目标机器的 Ollama 模型目录(常用 U 盘或内网共享文件夹复制)。
- 新建文件 Modelfile,写入下载的模型文件路径,例如
FROM ./nomic-embed-text-v1.5.f16.gguf
。 - cd 到模型文件和 Modelfile 所在目录,执行
ollama create nomic-embed-text-v1.5.f16 -f ./Modelfile
,通过ollama list
可查看导入成功的模型。
四、多客户端集成
(一)Lmstudio(图形化的 ollama)
- 下载:前往 LLStudio 官网LM Studio - Discover, download, and run local LLMs,下载对应系统版本。
- 安装:Windows 运行 LM - Studio - 0.3.9 - 6 - x64.exe;Mac 运行 LM - Studio - 0.3.9 - 6 - x64.dmg;Linux 需先执行
chmod +x LM-Studio-0.3.9-6-x64.AppImage
,再运行./LM-Studio-0.3.9-6-x64.AppImage
。 - 连接 Ollama:启动 Ollama(Windows 通常自动启动,可在服务管理器查看;Linux/macOS 在终端运行
ollama serve
)。打开 LLStudio,找到设置(齿轮图标),在 “Server” 或 “Connection” 中填写 Ollama 地址和端口(默认http://localhost:11434
,若不在同一台机器,填 Ollama 服务器 IP),选择下载的 DeepSeek 模型,测试连接。
(二)Chatbox(界面简洁的新秀)
- 特点:跨平台,界面简洁。
- 下载安装:在官网Chatbox AI: Your AI Copilot, Best AI Client on any device, Free Download下载对应系统安装包并安装。
- 连接 Ollama:打开 Chatbox,进入设置,找到 “API” 或 “连接”,选择 “Ollama”,填写 Ollama 地址和端口,选择模型并测试。
(三)Cherry-Studio(功能丰富)
- 官网:Cherry Studio - 全能的AI助手 ,支持 Windows、Linux、macOS。
- 优点:支持流式输出和 Markdown 渲染。
- 安装与配置:下载安装包安装,打开 Cherry-Studio,找到设置,选择 “模型” 或 “连接”,选择 “Ollama” 作为提供商,填写 Ollama 地址和端口(默认
http://localhost:11434
),选择模型,通过ollama list
获取模型 ID 名称添加模型,测试连接。
(四)Lobe Cat(推荐的 Web 界面)
- 特点:开源、高性能、界面美观,基于 Web,通过浏览器使用。
- GitHub:GitHub - lobehub/lobe-chat: 🤯 Lobe Chat - an open-source, modern-design AI chat framework. Supports Multi AI Providers( OpenAI / Claude 3 / Gemini / Ollama / Qwen / DeepSeek), Knowledge Base (file upload / knowledge management / RAG ), Multi-Modals (Vision/TTS/Plugins/Artifacts). One-click FREE deployment of your private ChatGPT/ Claude application.
- 部署(强烈推荐 Docker):
- 安装 Docker 和 Docker Compose。
- 克隆代码:
git clone https://github.com/lobehub/lobe-chat.git
,进入目录cd lobe-chat
。 - 配置:在 lobe - chat 目录下新建.env 文件,填写内容如下:
OPENAI_API_KEY=sk-your-openai-api-key # (不用OpenAI就留空)
ACCESS_CODE=your-super-secret-password # (一定要设置访问密码!)
OLLAMA_BASE_URL=http://your-ollama-host:11434 # (Ollama地址)
OLLAMA_API_MODEL=deepseek-coder:33b # (模型名称)
- 启动:执行
docker-compose up -d
。 - 访问:在浏览器打开
http://localhost:3010
(或.env 里配置的其他端口),设置了访问密码需输入密码进入。连接 Ollama 时,找到设置(齿轮图标),选择 “语言模型”,“提供商” 选 “Ollama”,填写 “Ollama Base URL” 和 “Model Name”,测试连接。
手动部署(不推荐,适合前端大佬):安装 Node.js(>= 18)和 pnpm,克隆代码,安装依赖pnpm install
,配置.env 文件,构建并启动pnpm build
然后pnpm start
,连接 Ollama 步骤同 Docker 部署。
(五)个人 / 企业 RAG 知识库搭建推荐
- Github:GitHub - rag-web-ui/rag-web-ui: RAG Web UI is an intelligent dialogue system based on RAG (Retrieval-Augmented Generation) technology.
- 介绍:RAG Web UI 是基于 RAG 技术的智能对话系统,可构建自有知识库的智能问答系统。支持多种文档格式(PDF、DOCX、Markdown、Text),具备智能文档管理、先进对话引擎,采用前后端分离设计和分布式文件存储。
- 特性:智能文档管理,支持多种文档格式,自动分块和向量化,支持异步文档和增量处理;先进对话引擎,基于 RAG 精准检索和生成,支持上下文多轮对话和引用角标查看原文;合理架构,前后端分离,分布式文件存储,支持多种高性能向量数据库 。
五、测试
选择一个客户端,输入问题或指令,查看模型是否能正常工作,若正常,模型会流畅输出文本。
六、安全加固
(一)网络隔离
将运行 Ollama 和客户端的服务器置于单独内网网段,严格限制对 Ollama 端口(默认 11434)的访问,仅允许信任 IP,通过防火墙严格控制服务器进出流量,只开放必要端口和协议。
(二)访问控制
利用 Nginx 等反向代理实现身份验证。Nginx 配置示例:
server {
listen 80;
server_name your-ollama-server.com; # 改成你的域名或IP
location / {
proxy_pass http://localhost:11434;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
# Basic Authentication (可选,强烈推荐)
auth_basic "Restricted Access"; # 提示信息
auth_basic_user_file /etc/nginx/.htpasswd; # 密码文件路径
}
}
可使用 htpasswd 工具生成.htpasswd 文件,同时不要使用默认端口,定期更换端口。
(三)模型安全
只从可信来源下载模型,避免下载来路不明的模型以防恶意代码植入。定期检查模型完整性,使用哈希校验(如 SHA256)验证模型文件是否被篡改,例如在 Linux/macOS 下执行sha256sum /path/to/your/model/file
计算哈希值并与官方对比。限制模型文件访问权限,仅授权用户可访问。
(四)系统安全
保持系统和软件更新,及时打补丁;防火墙只开启必要端口;启用系统日志并定期审查;使用强密码并定期更换;禁用不必要的服务;考虑部署 IDS/IPS。
(五)数据安全
若用模型处理敏感数据,需进行数据加密(静态数据和传输中数据都要加密,可使用 BitLocker、LUKS 等工具加密磁盘,用 HTTPS 传输数据)、数据脱敏(去掉或替换敏感信息),遵循最小权限原则,定期备份数据。
(六)Web 客户端(Lobe Chat)特别关照
必须使用 HTTPS,通过 Nginx 等反向代理配置;在 Lobe Chat 的.env 文件中设置强密码(ACCESS_CODE);防火墙限制 Lobe Chat 端口(默认 3010)的访问;可使用子路径部署增强安全性和方便 URL 管理。
(七)持续监控与更新
定期评估、扫描漏洞,及时更新 Ollama、客户端和模型;定期进行安全审计,检查系统配置、漏洞和异常行为,可使用 Nessus、OpenVAS 等工具扫描漏洞,审查系统和应用日志。
七、常见问题(FAQ)
(一)Ollama 下载模型失败
检查网络和代理设置,确认 HTTP_PROXY 和 HTTPS_PROXY 环境变量是否正确。
(二)客户端连不上 Ollama
检查 Ollama 服务是否启动,客户端中 Ollama 地址和端口是否正确,防火墙是否放行,若使用反向代理,检查其配置。
(三)怎么更新 Ollama 和模型
Ollama:Windows 下载新安装包重装;Linux/macOS 执行curl -fsSL https://ollama.com/install.sh | sh
。模型:执行ollama pull <模型名称>
。
(四)如何监控 Ollama 服务的资源使用
Windows 使用任务管理器或资源监视器;Linux/macOS 使用 top、htop 或 nvidia - smi(若有 N 卡),推荐使用 glances 跨平台系统监控工具。
八、性能调优
(一)调整 Ollama 线程数
设置OLLAMA_NUM_THREAD
环境变量,如export OLLAMA_NUM_THREAD=8
,根据 CPU 核心数调整,避免设置过高。
(二)GPU 加速
确保安装好 CUDA 和 cuDNN 驱动,且版本匹配,Ollama 会自动检测并使用 GPU,可查看 Ollama 启动日志确认。
(三)模型参数优化
在客户端调整生成参数,如 Temperature(控制随机性,0.7 - 0.9 为宜)、Top_p(控制多样性,0.9 或 0.95 常用)、Max Tokens(限制生成文本长度),多尝试不同参数组合找到最适合场景的设置。
九、故障排除
(一)Ollama 服务起不来
查看 Ollama 日志(通常在模型目录下的 logs 文件夹里),检查是否有其他程序占用 Ollama 端口。
(二)模型加载失败
检查模型文件是否完整、无损坏,确认模型文件放置在正确的 Ollama 模型目录,若不行,重新下载。
(三)客户端连不上
确认 Ollama 服务已启动,检查客户端配置中的 Ollama 地址和端口,检查防火墙设置。
(四)模型生成慢
参考 “性能调优” 章节进行优化,同时检查硬件性能是否不足。
十、扩展
除上述客户端外,还有很多 LLM 客户端可能支持 Ollama,可在客户端设置中找到 “API”“连接” 或 “服务器” 选项,配置 Ollama 地址和端口进行尝试。
更多推荐
所有评论(0)