【纯干货】Ollama + DeepSeek 本地部署全攻略,零基础也能拥有私人 AI 助手

全程手操,按步就班就能跑通。文末有同好交流圈,部署踩坑不用一个人扛。

最近 DeepSeek 的风越刮越猛,API 时不时拥堵,数据还得上云。有没有办法把这只“鲸鱼”养在自己电脑里?当然有。只要你的内存不少于 16 GB,十分钟左右,你就能拥有一个断网可用的私人 DeepSeek。

本文会把每一个操作都拆碎,从环境检查、Ollama 安装,到模型调参、API 调用、Web 界面搭建,甚至我会把自己踩过的坑和排查思路全部写出来,帮你一步到位。


一、为什么你需要一套本地环境?

  • 隐私零泄漏:聊天记录全在本地,不经过任何服务器。
  • 零成本:不花一分钱 API 费用,电费就是你唯一的支出。
  • 响应可控:速度取决于你的显卡,网络波动再也与你无关。
  • 高度可定制:上下文长度、角色设定、量化方式……一切你说了算。

二、选哪个模型?你的机器能不能跑?

我们选择 deepseek-r1:7b,这是大多数消费级设备都能驾驭的性能与资源平衡点。

配置项 最低要求 推荐
内存 16 GB 32 GB
NVIDIA 显卡 GTX 1060 6G RTX 3060 12G+
硬盘空间 5 GB 20 GB+
Apple Silicon M1 16G M2/M3 16G+

没有独显也没关系,CPU 一样能跑,只是回答稍慢。如果完全新手,从 7B 开始准没错。


三、第一步:安装 Ollama

Ollama 是本地模型的运行平台,类似于游戏启动器,后面下载、管理模型全靠它。

Windows

打开 https://ollama.com/download/OllamaSetup.exe,下载后双击安装,一路“下一步”。完成后任务栏右下角会出现一个羊驼图标,服务已自动启动。

macOS

终端输入:

brew install ollama

安装后手动运行一次 ollama serve,菜单栏会出现小羊驼。

Linux

curl -fsSL https://ollama.com/install.sh | sh

完成后执行 ollama -v,能看到版本号即告成功。


四、第二步:拉取模型并开始聊天

打开终端(Windows 用 cmdPowerShell,Mac/Linux 直接打开终端),执行:

ollama pull deepseek-r1:7b

你会看到一个进度条在跑,约 4.7 GB。如果速度慢,可挂代理或切换手机热点试试。

下载完成后直接对话:

ollama run deepseek-r1:7b

看到 >>> 符号后就能输入问题了,试试:

用 Python 写一个快速排序

Ctrl + D 或输入 /bye 退出。恭喜,你的电脑里已经住进了一个 AI。


五、第三步:调教出你专属的模型

默认模型记忆太短(只有 2K token),我们要给它“开开脑洞”。

在任意目录新建一个文件叫 Modelfile(注意不要后缀),内容如下:

FROM deepseek-r1:7b
PARAMETER num_ctx 16384
PARAMETER temperature 0.7

保存后在同目录下执行:

ollama create my-deepseek -f Modelfile

之后用 ollama run my-deepseek 启动,它就能记住约 16000 个 token 的对话,长文档问答不在话下。

想让它扮演特定角色?加一段 SYSTEM 指令:

SYSTEM "你是一位精通中医理论的健康顾问,先分析再给建议,不知道就直说。"

这样你就拥有了一位健康助手。其他参数含义:

  • temperature:0.1 严谨,0.8 创意,1.5 放飞。
  • top_ptop_k:一般默认即可,进阶调优时可动。

六、第四步:用 API 把你的程序变聪明

Ollama 提供了与 OpenAI 兼容的接口,可接入任何支持自定义 API 地址的工具。

首先安装库:

pip install openai

新建 chat.py

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"   # 这里随意填,但不能为空
)

response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[
        {"role": "system", "content": "你是一个幽默的段子手"},
        {"role": "user", "content": "讲一个程序员笑话"}
    ],
    temperature=0.8,
    max_tokens=150
)
print(response.choices[0].message.content)

运行 python chat.py,立即收获一个笑话。这套接口可以无缝接入你的自动化脚本、飞书机器人、个人小项目。


七、第五步:装个 ChatGPT 一样的聊天界面

命令行不过瘾?用 Open WebUI 部署一个漂亮的网页客户端。

前提是安装 Docker Desktop,去 https://www.docker.com/products/docker-desktop 下载安装。

然后执行:

docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

容器启动后,打开浏览器访问 http://localhost:3000,注册一个本地账号(数据纯本地),左上角选择 deepseek-r1:7b,就能像用网页版 ChatGPT 一样聊天,还支持文件上传。


八、我踩过的坑,帮你提前绕开

  1. 模型下载卡在 pulling manifest

    • 网络问题,尝试挂代理或换手机热点。
  2. 运行报 CUDA error

    • 显卡驱动太旧,去 NVIDIA 官网下载最新驱动,清洁安装。
  3. 回复慢、逐个蹦字

    • 可能在用 CPU 硬扛。N 卡用户终端运行 nvidia-smi 看看是否正常。无独显可换 deepseek-r1:1.5b 体验飞起。
  4. 长上下文后报错或乱码

    • 显存爆了。把 num_ctx 调小到 8192,或使用更低的量化标签如 deepseek-r1:7b-q4_0
  5. Windows 下命令不存在

    • 重启电脑,或者手动把 Ollama 安装目录加入系统环境变量。

九、一个人踩坑不如一群人一起折腾

说实话,部署过程中很多小问题谷歌也难搜到,比如特定显卡驱动的兼容性、MoE 模型的显存分配策略、Open WebUI 的文件上传配置……我就是因为这些琐事两三天没睡好。

后来我把几个同样在折腾本地大模型的朋友拉到一起,建了个纯粹的实战交流群。群文件里沉淀了我们验证过的故障排查脚本、适配不同硬件的 Modelfile 模板,还有兄弟们魔改的私人助理、周报生成器等小项目源码。没有任何广告,只聊 Ollama 和 DeepSeek 的落地玩法。

如果你按教程操作卡住了,或者想让你的本地 AI 变得更出彩,欢迎进来坐坐。扣扣群名叫“AI技术ollama本地部署deepseek大模型交流群”。

群里问题随便填,主要是防广告机器人。我们希望聚集真正喜欢动手、乐于分享的同好,一起把本地大模型用到极致。


十、写在最后

本地部署大模型并不神秘,你只需要一块普通的硬盘、一根网线,再加上这篇指南,半小时就能拥有一个完全属于你自己的 AI。那种“我的电脑里住着一个聪明大脑”的感觉,试过的都懂。

如果这篇文章对你有帮助,欢迎点赞、收藏、转发,有什么疑问或你自己的部署趣事,也可以在评论区告诉我,我会尽量回复。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐