从零开始，手把手教你用Ollama部署DeepSeek大模型（附全套避坑指南）

qq_27921669

87人浏览 · 2026-06-28 14:04:32

qq_27921669 · 2026-06-28 14:04:32 发布

从零开始，手把手教你用Ollama部署DeepSeek大模型（附全套避坑指南）

前言：最近很多朋友问我，怎么把DeepSeek部署到自己的电脑上？官方API虽然方便，但数据要上云，调用还有频率限制。作为一名折腾了三年本地模型的开发者，我花了两个周末把完整的部署流程、踩过的坑和优化技巧整理成这篇教程，希望能帮到你。全程实操，跟着做就能跑通。

一、为什么要把DeepSeek装到本地？
二、你的电脑能跑哪个模型？（附配置对照表）
三、环境准备：安装Ollama
四、下载并运行你的第一个DeepSeek模型
五、进阶配置：让模型更懂你
六、接入你的程序：API调用实战
七、搭建Web聊天界面（类似ChatGPT）
八、常见问题排查（我踩过的坑）
九、写在最后

一、为什么要把DeepSeek装到本地？

很多人问我：网上免费的AI工具那么多，为啥还要折腾本地部署？

说几个真实的好处：

数据完全私有：你的聊天记录、上传的文档，永远不会离开这台电脑。对于处理公司内部资料、个人隐私信息，这是刚需。
永久免费：不需要付API调用费，电费就是你唯一的成本。
不受限：没有频率限制、没有内容审查（当然请合法使用）、不需要排队等响应。
可深度定制：想让它扮演什么角色、记忆多长的对话、输出什么风格，全部可调。

我自己的场景是：工作日用它辅助写代码、分析日志，周末让它帮忙润色孩子的作文，老婆拿它当私人法律顾问查合同条款——一台机器，全家人用。

二、你的电脑能跑哪个模型？（附配置对照表）

DeepSeek 在 Ollama 上提供了多个规格的模型，选哪个取决于你的硬件。以下是我实测过的配置对照：

模型版本	参数量	所需内存/显存	推荐硬件	适合场景
deepseek-r1:1.5b	15亿	~1.1GB	8G内存老电脑	快速测试，轻量对话
deepseek-r1:7b	70亿	~4.7GB	16G内存/6G显存	新手首选，效果与资源的最佳平衡
deepseek-r1:8b	80亿	~5GB	同上	蒸馏版，某些场景表现更好
deepseek-r1:14b	140亿	~9GB	32G内存/12G显存	长文档处理，专业问答
deepseek-r1:32b	320亿	~20GB	RTX 3090/4090	高精度推理
deepseek-r1:70b	700亿	~43GB	多卡/A100	企业级应用

怎么查自己的配置？

Windows：右键“此电脑” → 属性，看内存；任务管理器 → 性能，看GPU。
Mac：左上角苹果图标 → 关于本机。
Linux：终端输入 free -h 看内存，nvidia-smi 看显卡。

建议：第一次玩，直接选 deepseek-r1:7b。我帮五个朋友装过，四台笔记本一台台式机，全部能跑。

三、环境准备：安装Ollama

Ollama 是运行模型的基础平台，把下载、管理、推理全部封装好了，对新手极其友好。

Windows 安装

打开浏览器，访问 https://ollama.com/download
点击 Windows 版本下载（OllamaSetup.exe，约 300MB）
双击安装包，一路点击“下一步”，默认装在C盘即可
安装完成后，右下角任务栏会出现一个羊驼图标，说明服务已启动

验证安装：按 Win + R，输入 cmd 回车，输入：

ollama -v

看到版本号就说明装好了。

macOS 安装

方法一：从 https://ollama.com/download 下载 .dmg 文件，双击拖入 Applications。

方法二（推荐）：打开终端，输入：

brew install ollama

安装后运行：

ollama serve

菜单栏会出现羊驼图标。

Linux 安装（以 Ubuntu 为例）

curl -fsSL https://ollama.com/install.sh | sh

等待脚本执行完毕，输入 ollama -v 验证。

四、下载并运行你的第一个DeepSeek模型

拉取模型

打开终端，输入：

ollama pull deepseek-r1:7b

你会看到类似这样的进度：

pulling manifest 
pulling 3a8f7c9b... 100% ▕████████████████▏ 4.7 GB
verifying sha256 digest 
writing manifest 
success

如果下载很慢怎么办？
这是最常见的卡点。因为模型文件托管在国外服务器，国内直连有时只有几十KB/s。

解决思路：

切换网络环境：用手机热点试试，有时候移动4G/5G比宽带快。
设置终端代理：如果你电脑上开了代理软件（Clash、V2Ray等），在终端设置对应环境变量后重试。
错峰下载：凌晨或上午时段通常更快。

开始对话

下载完成后，直接在终端输入：

ollama run deepseek-r1:7b

几秒后出现 >>> 提示符，就可以对话了。试一个经典问题：

用Python写一个冒泡排序，并解释每一步

模型会逐行输出代码和解释。按 Ctrl + D 或输入 /bye 退出。

此时，你已经拥有了一个完全运行在本地的AI助手。断网也能用，重启也不会丢。

常用管理命令

ollama list           # 查看已下载的模型
ollama ps             # 查看正在运行的模型
ollama stop 模型名     # 停止运行，释放内存
ollama rm 模型名       # 删除模型，释放硬盘

五、进阶配置：让模型更懂你

默认的 deepseek-r1:7b 上下文只有 2048 token，记不住长对话，也发挥不出DeepSeek真正的实力。我们要通过 Modelfile 自定义一个增强版。

创建自定义模型

在任意目录（比如桌面）新建一个文件，命名为 Modelfile（注意：没有后缀名，不是 .txt）。

用记事本打开，写入：

FROM deepseek-r1:7b
PARAMETER num_ctx 16384
PARAMETER temperature 0.7
PARAMETER top_p 0.9

参数说明：

num_ctx：上下文长度（必须是32的倍数）。16384 意味着模型能记住约一万多字的对话历史。显存充裕可设 32768。
temperature：创造性控制。0.1 严谨（适合编程），0.7 平衡，1.5 脑洞大开。
top_p：核采样概率，一般 0.9 不用动。

保存文件后，在终端进入该目录，执行：

ollama create my-deepseek -f Modelfile

等待几秒，新模型就创建好了。以后用 ollama run my-deepseek 启动即可。

定制专属角色

想让模型扮演特定角色？在 Modelfile 里加 SYSTEM 指令。比如打造一个代码审查助手：

FROM deepseek-r1:7b
SYSTEM """
你是一位资深Python代码审查专家。分析代码时按以下结构输出：
1. 整体评价（一句话）
2. 潜在问题（逐条列出，标注严重程度）
3. 优化建议（给出修改后的代码）
如果代码没有明显问题，直接说"这段代码写得不错"。
"""
PARAMETER num_ctx 16384
PARAMETER temperature 0.2

重新 ollama create 后，它就变成了严格的代码审查员。

不同量化版本的选择

拉取模型时可以指定量化精度标签，影响模型大小和推理速度：

ollama pull deepseek-r1:7b-q4_K_M    # 默认推荐，4.7GB
ollama pull deepseek-r1:7b-q5_K_M    # 稍大，质量更高，约5.5GB
ollama pull deepseek-r1:7b-q8_0      # 8-bit量化，约7GB

一般用默认的 q4_K_M 就够了，显存富裕追求极致质量的可以上 q8_0。

六、接入你的程序：API调用实战

Ollama 启动后会自动在本地 11434 端口提供 REST API，并且兼容 OpenAI 的接口格式。这意味着任何支持自定义 API 地址的 OpenAI 客户端，都能直接对接。

用 curl 测试

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "用一句话解释什么是递归",
  "stream": false
}'

返回 JSON，response 字段就是答案。

Python 调用（与 OpenAI 完全一致）

安装库：

pip install openai

写一个脚本 local_ai.py：

from openai import OpenAI

# 指向本地 Ollama 服务
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # Ollama 不需要真实 key，但不能为空
)

# 对话
response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[
        {"role": "system", "content": "你是一个擅长用比喻解释概念的老师。"},
        {"role": "user", "content": "请用生活中的例子解释什么是面向对象编程"}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

运行 python local_ai.py，就能在终端看到回答。

进阶：接入 LangChain

pip install langchain langchain-ollama

from langchain_ollama import ChatOllama

llm = ChatOllama(model="my-deepseek", temperature=0.3)
response = llm.invoke("总结一下RESTful API的设计原则")
print(response.content)

这意味着你可以把本地 DeepSeek 作为引擎，开发自己的应用：自动生成周报、分析Excel、搭建知识库问答系统，空间非常大。

七、搭建Web聊天界面（类似ChatGPT）

命令行不够友好？推荐用 Open WebUI，一个功能完善的自托管聊天界面，支持多模型切换、对话历史、文件上传。

环境要求

安装 Docker Desktop：访问 https://www.docker.com/products/docker-desktop 下载，一路默认安装即可。

部署步骤

打开终端，执行（Windows 用 PowerShell）：

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

首次运行会自动拉取镜像，等待几分钟。

使用

浏览器访问 http://localhost:3000
首次访问需注册一个账号（数据存在你本地）
登录后在左上角选择模型 deepseek-r1:7b
开始聊天！界面和 ChatGPT 几乎一样

Open WebUI 还支持：

上传 PDF、Word 等文件进行对话
多个模型同时加载，随时切换
对话记录自动保存和搜索
插件市场（可扩展联网搜索等功能）

八、常见问题排查（我踩过的坑）

真实部署不可能一帆风顺，以下是我和朋友遇到过的问题及解决方案。

问题一：下载模型到一半卡住

现象：ollama pull 一直显示 pulling manifest，或者下载速度归零。

排查：

按 Ctrl+C 中断，重新执行 ollama pull
切换网络：手机USB共享网络、换个WiFi
设置代理后重试

问题二：提示 CUDA error / 显存不足

现象：运行模型时报 CUDA out of memory 或 CUDA error: no CUDA-capable device。

解决：

NVIDIA 显卡用户：更新驱动到最新版（去NVIDIA官网搜索你的显卡型号，下载 Game Ready 驱动）
检查驱动是否正常：终端输入 nvidia-smi，看看能否显示显卡信息
如果驱动正常仍报错，换小模型：ollama pull deepseek-r1:1.5b
纯 CPU 用户：确认内存够用，16GB跑7B没问题，只是速度慢

问题三：回复很慢，逐字输出

现象：模型能运行，但每秒只蹦几个字。

原因：大概率在用 CPU 推理，没有调用 GPU。

检查：

ollama ps

查看模型状态，如果显示 100% CPU 就确认了。NVIDIA 用户检查驱动；AMD 用户确认 ROCm 安装（Linux下）。

问题四：Windows 终端找不到 ollama 命令

现象：安装完后输入 ollama 提示命令不存在。

解决：

重启电脑（最简单有效）
或手动添加环境变量：Ollama 默认装到 C:\Users\你的用户名\AppData\Local\Programs\Ollama，把该路径加到系统 PATH

问题五：Open WebUI 连接不上 Ollama

现象：Open WebUI 界面显示“无法连接”。

解决：

确认 Ollama 在运行：任务栏有羊驼图标
在 Open WebUI 设置中，Ollama 地址填写 http://host.docker.internal:11434
Windows 如果用 Docker Desktop，确保 Docker 运行中

问题六：长对话后模型开始乱输出

现象：聊天到后面，模型开始胡说八道或突然中断。

原因：上下文长度超过显存限制。

解决：减小 Modelfile 中的 num_ctx，比如从 32768 改为 16384 或 8192。

九、写在最后

从环境搭建到自己调优的专属模型，这篇教程基本覆盖了本地部署 DeepSeek 的全过程。从零基础到能用，大概需要半小时；想玩得更深，可以研究 API 集成、RAG 知识库、或者尝试更大的模型。

我到现在还记得第一次在自己电脑上和 AI 聊天时的感觉——那是一种“这东西真的是我的”的踏实感。数据在自己的硬盘上，想怎么用就怎么用，不用看任何平台的脸色。

在折腾本地大模型的这两年，我最大的感受是：遇到一个莫名其妙的报错，Google 搜半天找不到答案，真的很消磨热情。后来我和几个有同样爱好的朋友拉了个小群，大家谁踩了坑就分享出来，慢慢攒了不少经验。

如果你在部署过程中遇到问题，或者把本地模型玩出了新花样，欢迎来 “AI技术ollama本地部署deepseek大模型交流群” 一起交流。没有广告，只聊技术和实战，还沉淀了不少排查脚本和优化模板。

一个人可以走得很快，但一群人可以走得很远。期待在群里见到你，一起把本地AI玩到极致。

如果这篇教程对你有帮助，请点赞、收藏、转发，让更多想折腾本地模型的朋友少走弯路。评论区也欢迎留下你的部署故事或问题，我会尽量回复每一条。

2026年6月于深夜折腾完第N次环境重装后

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

周末速报：AI圈大事盘点

DeepSeek技术社区

我写了 200 行 CLAUDE.md，Claude 全忽略了——Karpathy 只用了四条

问题在于，你不可能穷举所有的 X，而且「不要做 X」「不要做 Y」「不要做 Z」堆在一起，Claude 要在这个「禁令列表」里工作，认知负担很高，反而可能导致它在「有没有违反某条禁令」这件事上花太多注意力，而不是在「把这个任务做好」这件事上。让它修一个 Bug，它在修 Bug 的同时，顺手把旁边的函数重构了，把一个变量名「改得更规范了」，把一段死代码删了。生产环境里最难维护的代码，往往不是逻辑复杂

DeepSeek技术社区

SpaceX 收购 Cursor、支付宝进入 AI 时代、DeepSeek 完成 500 亿元融资

官方数据显示，它已经进入一线推理模型的性能区间。相比单个机器人 Demo，这次更值得关注的是，通义千问正在尝试构建一套可复用的底层能力，让未来的 Agent 不只是“看懂世界”，还能真正进入物理世界并完成行动。有意思的是，Hackaday 报道称，开发者通过重新设计驱动方案，让电子墨水屏实现了接近 60Hz 的刷新体验，试图摆脱传统阅读器刷新慢、只能看书的刻板印象。最近，一台运行 Claude C