从零开始,手把手教你用Ollama部署DeepSeek大模型(附全套避坑指南)
从零开始,手把手教你用Ollama部署DeepSeek大模型(附全套避坑指南)
前言:最近很多朋友问我,怎么把DeepSeek部署到自己的电脑上?官方API虽然方便,但数据要上云,调用还有频率限制。作为一名折腾了三年本地模型的开发者,我花了两个周末把完整的部署流程、踩过的坑和优化技巧整理成这篇教程,希望能帮到你。全程实操,跟着做就能跑通。
目录
- 一、为什么要把DeepSeek装到本地?
- 二、你的电脑能跑哪个模型?(附配置对照表)
- 三、环境准备:安装Ollama
- 四、下载并运行你的第一个DeepSeek模型
- 五、进阶配置:让模型更懂你
- 六、接入你的程序:API调用实战
- 七、搭建Web聊天界面(类似ChatGPT)
- 八、常见问题排查(我踩过的坑)
- 九、写在最后
一、为什么要把DeepSeek装到本地?
很多人问我:网上免费的AI工具那么多,为啥还要折腾本地部署?
说几个真实的好处:
- 数据完全私有:你的聊天记录、上传的文档,永远不会离开这台电脑。对于处理公司内部资料、个人隐私信息,这是刚需。
- 永久免费:不需要付API调用费,电费就是你唯一的成本。
- 不受限:没有频率限制、没有内容审查(当然请合法使用)、不需要排队等响应。
- 可深度定制:想让它扮演什么角色、记忆多长的对话、输出什么风格,全部可调。
我自己的场景是:工作日用它辅助写代码、分析日志,周末让它帮忙润色孩子的作文,老婆拿它当私人法律顾问查合同条款——一台机器,全家人用。
二、你的电脑能跑哪个模型?(附配置对照表)
DeepSeek 在 Ollama 上提供了多个规格的模型,选哪个取决于你的硬件。以下是我实测过的配置对照:
| 模型版本 | 参数量 | 所需内存/显存 | 推荐硬件 | 适合场景 |
|---|---|---|---|---|
| deepseek-r1:1.5b | 15亿 | ~1.1GB | 8G内存老电脑 | 快速测试,轻量对话 |
| deepseek-r1:7b | 70亿 | ~4.7GB | 16G内存/6G显存 | 新手首选,效果与资源的最佳平衡 |
| deepseek-r1:8b | 80亿 | ~5GB | 同上 | 蒸馏版,某些场景表现更好 |
| deepseek-r1:14b | 140亿 | ~9GB | 32G内存/12G显存 | 长文档处理,专业问答 |
| deepseek-r1:32b | 320亿 | ~20GB | RTX 3090/4090 | 高精度推理 |
| deepseek-r1:70b | 700亿 | ~43GB | 多卡/A100 | 企业级应用 |
怎么查自己的配置?
- Windows:右键“此电脑” → 属性,看内存;任务管理器 → 性能,看GPU。
- Mac:左上角苹果图标 → 关于本机。
- Linux:终端输入
free -h看内存,nvidia-smi看显卡。
建议:第一次玩,直接选
deepseek-r1:7b。我帮五个朋友装过,四台笔记本一台台式机,全部能跑。
三、环境准备:安装Ollama
Ollama 是运行模型的基础平台,把下载、管理、推理全部封装好了,对新手极其友好。
Windows 安装
- 打开浏览器,访问 https://ollama.com/download
- 点击 Windows 版本下载(OllamaSetup.exe,约 300MB)
- 双击安装包,一路点击“下一步”,默认装在C盘即可
- 安装完成后,右下角任务栏会出现一个羊驼图标,说明服务已启动
验证安装:按 Win + R,输入 cmd 回车,输入:
ollama -v
看到版本号就说明装好了。
macOS 安装
方法一:从 https://ollama.com/download 下载 .dmg 文件,双击拖入 Applications。
方法二(推荐):打开终端,输入:
brew install ollama
安装后运行:
ollama serve
菜单栏会出现羊驼图标。
Linux 安装(以 Ubuntu 为例)
curl -fsSL https://ollama.com/install.sh | sh
等待脚本执行完毕,输入 ollama -v 验证。
四、下载并运行你的第一个DeepSeek模型
拉取模型
打开终端,输入:
ollama pull deepseek-r1:7b
你会看到类似这样的进度:
pulling manifest
pulling 3a8f7c9b... 100% ▕████████████████▏ 4.7 GB
verifying sha256 digest
writing manifest
success
如果下载很慢怎么办?
这是最常见的卡点。因为模型文件托管在国外服务器,国内直连有时只有几十KB/s。
解决思路:
- 切换网络环境:用手机热点试试,有时候移动4G/5G比宽带快。
- 设置终端代理:如果你电脑上开了代理软件(Clash、V2Ray等),在终端设置对应环境变量后重试。
- 错峰下载:凌晨或上午时段通常更快。
开始对话
下载完成后,直接在终端输入:
ollama run deepseek-r1:7b
几秒后出现 >>> 提示符,就可以对话了。试一个经典问题:
用Python写一个冒泡排序,并解释每一步
模型会逐行输出代码和解释。按 Ctrl + D 或输入 /bye 退出。
此时,你已经拥有了一个完全运行在本地的AI助手。断网也能用,重启也不会丢。
常用管理命令
ollama list # 查看已下载的模型
ollama ps # 查看正在运行的模型
ollama stop 模型名 # 停止运行,释放内存
ollama rm 模型名 # 删除模型,释放硬盘
五、进阶配置:让模型更懂你
默认的 deepseek-r1:7b 上下文只有 2048 token,记不住长对话,也发挥不出DeepSeek真正的实力。我们要通过 Modelfile 自定义一个增强版。
创建自定义模型
在任意目录(比如桌面)新建一个文件,命名为 Modelfile(注意:没有后缀名,不是 .txt)。
用记事本打开,写入:
FROM deepseek-r1:7b
PARAMETER num_ctx 16384
PARAMETER temperature 0.7
PARAMETER top_p 0.9
参数说明:
num_ctx:上下文长度(必须是32的倍数)。16384 意味着模型能记住约一万多字的对话历史。显存充裕可设 32768。temperature:创造性控制。0.1 严谨(适合编程),0.7 平衡,1.5 脑洞大开。top_p:核采样概率,一般 0.9 不用动。
保存文件后,在终端进入该目录,执行:
ollama create my-deepseek -f Modelfile
等待几秒,新模型就创建好了。以后用 ollama run my-deepseek 启动即可。
定制专属角色
想让模型扮演特定角色?在 Modelfile 里加 SYSTEM 指令。比如打造一个代码审查助手:
FROM deepseek-r1:7b
SYSTEM """
你是一位资深Python代码审查专家。分析代码时按以下结构输出:
1. 整体评价(一句话)
2. 潜在问题(逐条列出,标注严重程度)
3. 优化建议(给出修改后的代码)
如果代码没有明显问题,直接说"这段代码写得不错"。
"""
PARAMETER num_ctx 16384
PARAMETER temperature 0.2
重新 ollama create 后,它就变成了严格的代码审查员。
不同量化版本的选择
拉取模型时可以指定量化精度标签,影响模型大小和推理速度:
ollama pull deepseek-r1:7b-q4_K_M # 默认推荐,4.7GB
ollama pull deepseek-r1:7b-q5_K_M # 稍大,质量更高,约5.5GB
ollama pull deepseek-r1:7b-q8_0 # 8-bit量化,约7GB
一般用默认的 q4_K_M 就够了,显存富裕追求极致质量的可以上 q8_0。
六、接入你的程序:API调用实战
Ollama 启动后会自动在本地 11434 端口提供 REST API,并且兼容 OpenAI 的接口格式。这意味着任何支持自定义 API 地址的 OpenAI 客户端,都能直接对接。
用 curl 测试
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "用一句话解释什么是递归",
"stream": false
}'
返回 JSON,response 字段就是答案。
Python 调用(与 OpenAI 完全一致)
安装库:
pip install openai
写一个脚本 local_ai.py:
from openai import OpenAI
# 指向本地 Ollama 服务
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="local" # Ollama 不需要真实 key,但不能为空
)
# 对话
response = client.chat.completions.create(
model="deepseek-r1:7b",
messages=[
{"role": "system", "content": "你是一个擅长用比喻解释概念的老师。"},
{"role": "user", "content": "请用生活中的例子解释什么是面向对象编程"}
],
temperature=0.7,
max_tokens=500
)
print(response.choices[0].message.content)
运行 python local_ai.py,就能在终端看到回答。
进阶:接入 LangChain
pip install langchain langchain-ollama
from langchain_ollama import ChatOllama
llm = ChatOllama(model="my-deepseek", temperature=0.3)
response = llm.invoke("总结一下RESTful API的设计原则")
print(response.content)
这意味着你可以把本地 DeepSeek 作为引擎,开发自己的应用:自动生成周报、分析Excel、搭建知识库问答系统,空间非常大。
七、搭建Web聊天界面(类似ChatGPT)
命令行不够友好?推荐用 Open WebUI,一个功能完善的自托管聊天界面,支持多模型切换、对话历史、文件上传。
环境要求
- 安装 Docker Desktop:访问 https://www.docker.com/products/docker-desktop 下载,一路默认安装即可。
部署步骤
打开终端,执行(Windows 用 PowerShell):
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
首次运行会自动拉取镜像,等待几分钟。
使用
- 浏览器访问
http://localhost:3000 - 首次访问需注册一个账号(数据存在你本地)
- 登录后在左上角选择模型
deepseek-r1:7b - 开始聊天!界面和 ChatGPT 几乎一样
Open WebUI 还支持:
- 上传 PDF、Word 等文件进行对话
- 多个模型同时加载,随时切换
- 对话记录自动保存和搜索
- 插件市场(可扩展联网搜索等功能)
八、常见问题排查(我踩过的坑)
真实部署不可能一帆风顺,以下是我和朋友遇到过的问题及解决方案。
问题一:下载模型到一半卡住
现象:ollama pull 一直显示 pulling manifest,或者下载速度归零。
排查:
- 按
Ctrl+C中断,重新执行ollama pull - 切换网络:手机USB共享网络、换个WiFi
- 设置代理后重试
问题二:提示 CUDA error / 显存不足
现象:运行模型时报 CUDA out of memory 或 CUDA error: no CUDA-capable device。
解决:
- NVIDIA 显卡用户:更新驱动到最新版(去NVIDIA官网搜索你的显卡型号,下载 Game Ready 驱动)
- 检查驱动是否正常:终端输入
nvidia-smi,看看能否显示显卡信息 - 如果驱动正常仍报错,换小模型:
ollama pull deepseek-r1:1.5b - 纯 CPU 用户:确认内存够用,16GB跑7B没问题,只是速度慢
问题三:回复很慢,逐字输出
现象:模型能运行,但每秒只蹦几个字。
原因:大概率在用 CPU 推理,没有调用 GPU。
检查:
ollama ps
查看模型状态,如果显示 100% CPU 就确认了。NVIDIA 用户检查驱动;AMD 用户确认 ROCm 安装(Linux下)。
问题四:Windows 终端找不到 ollama 命令
现象:安装完后输入 ollama 提示命令不存在。
解决:
- 重启电脑(最简单有效)
- 或手动添加环境变量:Ollama 默认装到
C:\Users\你的用户名\AppData\Local\Programs\Ollama,把该路径加到系统 PATH
问题五:Open WebUI 连接不上 Ollama
现象:Open WebUI 界面显示“无法连接”。
解决:
- 确认 Ollama 在运行:任务栏有羊驼图标
- 在 Open WebUI 设置中,Ollama 地址填写
http://host.docker.internal:11434 - Windows 如果用 Docker Desktop,确保 Docker 运行中
问题六:长对话后模型开始乱输出
现象:聊天到后面,模型开始胡说八道或突然中断。
原因:上下文长度超过显存限制。
解决:减小 Modelfile 中的 num_ctx,比如从 32768 改为 16384 或 8192。
九、写在最后
从环境搭建到自己调优的专属模型,这篇教程基本覆盖了本地部署 DeepSeek 的全过程。从零基础到能用,大概需要半小时;想玩得更深,可以研究 API 集成、RAG 知识库、或者尝试更大的模型。
我到现在还记得第一次在自己电脑上和 AI 聊天时的感觉——那是一种“这东西真的是我的”的踏实感。数据在自己的硬盘上,想怎么用就怎么用,不用看任何平台的脸色。
在折腾本地大模型的这两年,我最大的感受是:遇到一个莫名其妙的报错,Google 搜半天找不到答案,真的很消磨热情。后来我和几个有同样爱好的朋友拉了个小群,大家谁踩了坑就分享出来,慢慢攒了不少经验。
如果你在部署过程中遇到问题,或者把本地模型玩出了新花样,欢迎来 “AI技术ollama本地部署deepseek大模型交流群” 一起交流。没有广告,只聊技术和实战,还沉淀了不少排查脚本和优化模板。
一个人可以走得很快,但一群人可以走得很远。期待在群里见到你,一起把本地AI玩到极致。
如果这篇教程对你有帮助,请点赞、收藏、转发,让更多想折腾本地模型的朋友少走弯路。评论区也欢迎留下你的部署故事或问题,我会尽量回复每一条。
2026年6月 于深夜折腾完第N次环境重装后
更多推荐


所有评论(0)