从零开始,手把手教你用Ollama部署DeepSeek大模型(附全套避坑指南)

前言:最近很多朋友问我,怎么把DeepSeek部署到自己的电脑上?官方API虽然方便,但数据要上云,调用还有频率限制。作为一名折腾了三年本地模型的开发者,我花了两个周末把完整的部署流程、踩过的坑和优化技巧整理成这篇教程,希望能帮到你。全程实操,跟着做就能跑通。


目录


一、为什么要把DeepSeek装到本地?

很多人问我:网上免费的AI工具那么多,为啥还要折腾本地部署?

说几个真实的好处:

  • 数据完全私有:你的聊天记录、上传的文档,永远不会离开这台电脑。对于处理公司内部资料、个人隐私信息,这是刚需。
  • 永久免费:不需要付API调用费,电费就是你唯一的成本。
  • 不受限:没有频率限制、没有内容审查(当然请合法使用)、不需要排队等响应。
  • 可深度定制:想让它扮演什么角色、记忆多长的对话、输出什么风格,全部可调。

我自己的场景是:工作日用它辅助写代码、分析日志,周末让它帮忙润色孩子的作文,老婆拿它当私人法律顾问查合同条款——一台机器,全家人用。


二、你的电脑能跑哪个模型?(附配置对照表)

DeepSeek 在 Ollama 上提供了多个规格的模型,选哪个取决于你的硬件。以下是我实测过的配置对照:

模型版本 参数量 所需内存/显存 推荐硬件 适合场景
deepseek-r1:1.5b 15亿 ~1.1GB 8G内存老电脑 快速测试,轻量对话
deepseek-r1:7b 70亿 ~4.7GB 16G内存/6G显存 新手首选,效果与资源的最佳平衡
deepseek-r1:8b 80亿 ~5GB 同上 蒸馏版,某些场景表现更好
deepseek-r1:14b 140亿 ~9GB 32G内存/12G显存 长文档处理,专业问答
deepseek-r1:32b 320亿 ~20GB RTX 3090/4090 高精度推理
deepseek-r1:70b 700亿 ~43GB 多卡/A100 企业级应用

怎么查自己的配置?

  • Windows:右键“此电脑” → 属性,看内存;任务管理器 → 性能,看GPU。
  • Mac:左上角苹果图标 → 关于本机。
  • Linux:终端输入 free -h 看内存,nvidia-smi 看显卡。

建议:第一次玩,直接选 deepseek-r1:7b。我帮五个朋友装过,四台笔记本一台台式机,全部能跑。


三、环境准备:安装Ollama

Ollama 是运行模型的基础平台,把下载、管理、推理全部封装好了,对新手极其友好。

Windows 安装

  1. 打开浏览器,访问 https://ollama.com/download
  2. 点击 Windows 版本下载(OllamaSetup.exe,约 300MB)
  3. 双击安装包,一路点击“下一步”,默认装在C盘即可
  4. 安装完成后,右下角任务栏会出现一个羊驼图标,说明服务已启动

验证安装:按 Win + R,输入 cmd 回车,输入:

ollama -v

看到版本号就说明装好了。

macOS 安装

方法一:从 https://ollama.com/download 下载 .dmg 文件,双击拖入 Applications。

方法二(推荐):打开终端,输入:

brew install ollama

安装后运行:

ollama serve

菜单栏会出现羊驼图标。

Linux 安装(以 Ubuntu 为例)

curl -fsSL https://ollama.com/install.sh | sh

等待脚本执行完毕,输入 ollama -v 验证。


四、下载并运行你的第一个DeepSeek模型

拉取模型

打开终端,输入:

ollama pull deepseek-r1:7b

你会看到类似这样的进度:

pulling manifest 
pulling 3a8f7c9b... 100% ▕████████████████▏ 4.7 GB
verifying sha256 digest 
writing manifest 
success 

如果下载很慢怎么办?
这是最常见的卡点。因为模型文件托管在国外服务器,国内直连有时只有几十KB/s。

解决思路:

  • 切换网络环境:用手机热点试试,有时候移动4G/5G比宽带快。
  • 设置终端代理:如果你电脑上开了代理软件(Clash、V2Ray等),在终端设置对应环境变量后重试。
  • 错峰下载:凌晨或上午时段通常更快。

开始对话

下载完成后,直接在终端输入:

ollama run deepseek-r1:7b

几秒后出现 >>> 提示符,就可以对话了。试一个经典问题:

用Python写一个冒泡排序,并解释每一步

模型会逐行输出代码和解释。按 Ctrl + D 或输入 /bye 退出。

此时,你已经拥有了一个完全运行在本地的AI助手。断网也能用,重启也不会丢。

常用管理命令

ollama list           # 查看已下载的模型
ollama ps             # 查看正在运行的模型
ollama stop 模型名     # 停止运行,释放内存
ollama rm 模型名       # 删除模型,释放硬盘

五、进阶配置:让模型更懂你

默认的 deepseek-r1:7b 上下文只有 2048 token,记不住长对话,也发挥不出DeepSeek真正的实力。我们要通过 Modelfile 自定义一个增强版。

创建自定义模型

在任意目录(比如桌面)新建一个文件,命名为 Modelfile注意:没有后缀名,不是 .txt)。

用记事本打开,写入:

FROM deepseek-r1:7b
PARAMETER num_ctx 16384
PARAMETER temperature 0.7
PARAMETER top_p 0.9

参数说明

  • num_ctx:上下文长度(必须是32的倍数)。16384 意味着模型能记住约一万多字的对话历史。显存充裕可设 32768。
  • temperature:创造性控制。0.1 严谨(适合编程),0.7 平衡,1.5 脑洞大开。
  • top_p:核采样概率,一般 0.9 不用动。

保存文件后,在终端进入该目录,执行:

ollama create my-deepseek -f Modelfile

等待几秒,新模型就创建好了。以后用 ollama run my-deepseek 启动即可。

定制专属角色

想让模型扮演特定角色?在 Modelfile 里加 SYSTEM 指令。比如打造一个代码审查助手:

FROM deepseek-r1:7b
SYSTEM """
你是一位资深Python代码审查专家。分析代码时按以下结构输出:
1. 整体评价(一句话)
2. 潜在问题(逐条列出,标注严重程度)
3. 优化建议(给出修改后的代码)
如果代码没有明显问题,直接说"这段代码写得不错"。
"""
PARAMETER num_ctx 16384
PARAMETER temperature 0.2

重新 ollama create 后,它就变成了严格的代码审查员。

不同量化版本的选择

拉取模型时可以指定量化精度标签,影响模型大小和推理速度:

ollama pull deepseek-r1:7b-q4_K_M    # 默认推荐,4.7GB
ollama pull deepseek-r1:7b-q5_K_M    # 稍大,质量更高,约5.5GB
ollama pull deepseek-r1:7b-q8_0      # 8-bit量化,约7GB

一般用默认的 q4_K_M 就够了,显存富裕追求极致质量的可以上 q8_0


六、接入你的程序:API调用实战

Ollama 启动后会自动在本地 11434 端口提供 REST API,并且兼容 OpenAI 的接口格式。这意味着任何支持自定义 API 地址的 OpenAI 客户端,都能直接对接。

用 curl 测试

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "用一句话解释什么是递归",
  "stream": false
}'

返回 JSON,response 字段就是答案。

Python 调用(与 OpenAI 完全一致)

安装库:

pip install openai

写一个脚本 local_ai.py

from openai import OpenAI

# 指向本地 Ollama 服务
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="local"  # Ollama 不需要真实 key,但不能为空
)

# 对话
response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[
        {"role": "system", "content": "你是一个擅长用比喻解释概念的老师。"},
        {"role": "user", "content": "请用生活中的例子解释什么是面向对象编程"}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

运行 python local_ai.py,就能在终端看到回答。

进阶:接入 LangChain

pip install langchain langchain-ollama
from langchain_ollama import ChatOllama

llm = ChatOllama(model="my-deepseek", temperature=0.3)
response = llm.invoke("总结一下RESTful API的设计原则")
print(response.content)

这意味着你可以把本地 DeepSeek 作为引擎,开发自己的应用:自动生成周报、分析Excel、搭建知识库问答系统,空间非常大。


七、搭建Web聊天界面(类似ChatGPT)

命令行不够友好?推荐用 Open WebUI,一个功能完善的自托管聊天界面,支持多模型切换、对话历史、文件上传。

环境要求

  • 安装 Docker Desktop:访问 https://www.docker.com/products/docker-desktop 下载,一路默认安装即可。

部署步骤

打开终端,执行(Windows 用 PowerShell):

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

首次运行会自动拉取镜像,等待几分钟。

使用

  1. 浏览器访问 http://localhost:3000
  2. 首次访问需注册一个账号(数据存在你本地)
  3. 登录后在左上角选择模型 deepseek-r1:7b
  4. 开始聊天!界面和 ChatGPT 几乎一样

Open WebUI 还支持:

  • 上传 PDF、Word 等文件进行对话
  • 多个模型同时加载,随时切换
  • 对话记录自动保存和搜索
  • 插件市场(可扩展联网搜索等功能)

八、常见问题排查(我踩过的坑)

真实部署不可能一帆风顺,以下是我和朋友遇到过的问题及解决方案。

问题一:下载模型到一半卡住

现象ollama pull 一直显示 pulling manifest,或者下载速度归零。

排查

  1. Ctrl+C 中断,重新执行 ollama pull
  2. 切换网络:手机USB共享网络、换个WiFi
  3. 设置代理后重试

问题二:提示 CUDA error / 显存不足

现象:运行模型时报 CUDA out of memoryCUDA error: no CUDA-capable device

解决

  • NVIDIA 显卡用户:更新驱动到最新版(去NVIDIA官网搜索你的显卡型号,下载 Game Ready 驱动)
  • 检查驱动是否正常:终端输入 nvidia-smi,看看能否显示显卡信息
  • 如果驱动正常仍报错,换小模型:ollama pull deepseek-r1:1.5b
  • 纯 CPU 用户:确认内存够用,16GB跑7B没问题,只是速度慢

问题三:回复很慢,逐字输出

现象:模型能运行,但每秒只蹦几个字。

原因:大概率在用 CPU 推理,没有调用 GPU。

检查

ollama ps

查看模型状态,如果显示 100% CPU 就确认了。NVIDIA 用户检查驱动;AMD 用户确认 ROCm 安装(Linux下)。

问题四:Windows 终端找不到 ollama 命令

现象:安装完后输入 ollama 提示命令不存在。

解决

  1. 重启电脑(最简单有效)
  2. 或手动添加环境变量:Ollama 默认装到 C:\Users\你的用户名\AppData\Local\Programs\Ollama,把该路径加到系统 PATH

问题五:Open WebUI 连接不上 Ollama

现象:Open WebUI 界面显示“无法连接”。

解决

  • 确认 Ollama 在运行:任务栏有羊驼图标
  • 在 Open WebUI 设置中,Ollama 地址填写 http://host.docker.internal:11434
  • Windows 如果用 Docker Desktop,确保 Docker 运行中

问题六:长对话后模型开始乱输出

现象:聊天到后面,模型开始胡说八道或突然中断。

原因:上下文长度超过显存限制。

解决:减小 Modelfile 中的 num_ctx,比如从 32768 改为 16384 或 8192。


九、写在最后

从环境搭建到自己调优的专属模型,这篇教程基本覆盖了本地部署 DeepSeek 的全过程。从零基础到能用,大概需要半小时;想玩得更深,可以研究 API 集成、RAG 知识库、或者尝试更大的模型。

我到现在还记得第一次在自己电脑上和 AI 聊天时的感觉——那是一种“这东西真的是我的”的踏实感。数据在自己的硬盘上,想怎么用就怎么用,不用看任何平台的脸色。

在折腾本地大模型的这两年,我最大的感受是:遇到一个莫名其妙的报错,Google 搜半天找不到答案,真的很消磨热情。后来我和几个有同样爱好的朋友拉了个小群,大家谁踩了坑就分享出来,慢慢攒了不少经验。

如果你在部署过程中遇到问题,或者把本地模型玩出了新花样,欢迎来 “AI技术ollama本地部署deepseek大模型交流群” 一起交流。没有广告,只聊技术和实战,还沉淀了不少排查脚本和优化模板。

一个人可以走得很快,但一群人可以走得很远。期待在群里见到你,一起把本地AI玩到极致。


如果这篇教程对你有帮助,请点赞、收藏、转发,让更多想折腾本地模型的朋友少走弯路。评论区也欢迎留下你的部署故事或问题,我会尽量回复每一条。

2026年6月 于深夜折腾完第N次环境重装后

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐