Windows系统本地部署DeepSeek详细教程

最近DeepSeek非常火爆，因其卓越的推理能力和低成本特性而广受欢迎，DeepSeek开源了部分模型，通过蒸馏技术可以将大模型参数压缩为更小的版本（如1.5B、7B等），显著降低对显存和计算资源的需求，这使得普通家用电脑也能部署，无需依赖高端硬件。本地部署不仅能规避网络延迟和隐私风险，还能根据需求定制模型功能，成为高效办公、学习研究的利器。此外，本地部署使数据完全存储于自有服务器或私有云，避免第

咔咔学姐kk

1058人浏览 · 2025-03-27 10:16:52

咔咔学姐kk · 2025-03-27 10:16:52 发布

最近DeepSeek非常火爆，因其卓越的推理能力和低成本特性而广受欢迎，DeepSeek开源了部分模型，通过蒸馏技术可以将大模型参数压缩为更小的版本（如1.5B、7B等），显著降低对显存和计算资源的需求，这使得普通家用电脑也能部署，无需依赖高端硬件。

本地部署不仅能规避网络延迟和隐私风险，还能根据需求定制模型功能，成为高效办公、学习研究的利器。此外，本地部署使数据完全存储于自有服务器或私有云，避免第三方平台的数据泄露风险，尤其适用于医疗、金融等涉及敏感信息的行业。本文介绍如何在自己的电脑上本地部署 DeepSeek-R1-8B 模型。

1、硬件配置要求

DeepSeek推出了多款开源模型，覆盖从推理到创作的多元场景。特别是DeepSeek-R1系列，具有低成本、高效推理的优势，可在本地部署。此外还有将R1的推理能力迁移至小型模型的知识蒸馏模型，不同版本的DeepSeek模型的硬件需求根据参数规模和应用场景具有显著差异，下面是DeepSeek R1 不同版本模型的硬件要求：

模型版本	RAM需求	推荐 GPU（单卡）	适用场景
DeepSeek-R1-671B	512GB+	8x A100/H100（服务器集群）	国家级/超大规模 AI 训练，超高性能计算
DeepSeek-R1-70B	128GB+	2x A100 80GB/4x RTX 4090（多卡并行）	科研机构/大型企业，大规模数据分析处理
DeepSeek-R1-32B	64GB+	2x A100 40GB（24GB显存）	高精度专业领域任务、多模态数据分析
DeepSeek-R1-14B	32GB+	RTX 4090（24GB）/A5000（16GB显存）	中型企业/科研团队/专业服务机构，企业级复杂任务（合同分析、报告生成）、长文本理解与生成
DeepSeek-R1-8B	16GB+	RTX 4070/3060/3070（12GB显存）	需更高精度的轻量级任务（代码生成、逻辑推理）
DeepSeek-R1-7B	16GB+	RTX 3060/3070/4060（8GB显存）	中等复杂度的逻辑推理和生成任务、轻量级多轮对话系统
DeepSeek-R1-1.5B	8GB+	GTX 1650（4GB显存）	低资源设备的基础推理任务，如简单问答、文本摘要、轻量级数据分析

模型参数越大，对显存和内存需求越高，我的电脑系统为Windows11，内存为32GB，显卡为英伟达RTX 4060，本文部署DeepSeek-R1-8B模型。

2、部署DeepSeek

2.1安装Ollama

Ollama是运行本地AI模型的核心工具，支持一键部署，支持Windows/macOS/Linux，本文在Windows下部署：

a. 访问官网（https://ollama.com/），下载Windows版安装包OllamaSetup.exe；

b. 双击OllamaSetup.exe安装会默认安装到C盘，建议使用如下命令安装到其它盘：

$ cd D:\devWorkspace\AI_tools
$ OllamaSetup.exe  /DIR="D:\devWorkspace\AI_tools\Ollama"

c. 安装完成后打开终端输入 ollama -v 验证是否成功。

$ ollama -v
ollama version is 0.5.12

2.2 将Ollama模型保存路径设置到D盘

添加环境变量OLLAMA_MODELS ，值为：D:\devWorkspace\AI_tools\Ollama\models

2.3 让Ollama使用GPU

为了让推理跑在GPU上，可设置环境变量OLLAMA_GPU_LAYER, 值为：cuda，如果需要指定特定的 GPU，可以添加以下环境变量

变量名：CUDA_VISIBLE_DEVICES
变量值：GPU的UUID：

可在控制台窗口输入 nvidia-smi -L 命令查看GPU的UUID：

$ nvidia-smi -L
GPU 0: NVIDIA GeForce RTX 4060 Laptop GPU (UUID: GPU-1ff78f94-b4af-2a60-cedf-cbaaa65beb38)

环境变量配置完成后需要重启一下电脑，让配置生效。

2.4下载DeepSeek模型

2.4.1 下载deepseek-r1:8b

deepseek-r1各版本可在这里查看：https://ollama.com/library/deepseek-r1，使用Ollama命令行下载模型：

$ ollama pull deepseek-r1:8b
pulling manifest
pulling 6340dc3229b0... 100% ▕████████████████████████████████████████████████████████▏ 4.9 GB
pulling 369ca498f347... 100% ▕████████████████████████████████████████████████████████▏  387 B
pulling 6e4c38e1172f... 100% ▕████████████████████████████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕████████████████████████████████████████████████████████▏  148 B
pulling 0cb05c6e4e02... 100% ▕████████████████████████████████████████████████████████▏  487 B
verifying sha256 digest
writing manifest
success

模型会下载到前面配置的目录下：D:\devWorkspace\AI_tools\Ollama\models

2.4.2 运行模型并对话

输入ollama run deepseek-r1:8b命令，然后输入问题与DeepSeek进行对话：

$ ollama run deepseek-r1:8b
>>> 请用Java语言写一个快速排序
<think>
嗯，我现在得想办法用Java来实现快速排序。首先，快速排序是什么呢？我记得它是基于分治策略的一种高效排序算法，平均时间复杂度大概是O(n log n)对吧。那它的基本思想应该是，每次把数组分成两部分，一半较小，一半较大，然后递归地排序这两部分，对吧。那我得先想想怎么实现这个过程。快速排序通常有几个步骤：选择枢轴元素，partition，递归排序左右子数组。那在Java中，可能需要写一个方法来处理这些步骤。首先，选择枢轴是什么呢？常见的选择是中位数或者前导元素。比如，我可以选数组中的第一个元素作为枢轴，这样实现起来简单些。那如何找到中位数呢？或许不一定需要精确找中位数，只要能保证枢轴位置正确就行。然后，partition步骤，也就是将数组分成小于等于枢轴和大于枢轴的两部分。这个过程可以用双指针来实现：一个指针从左边开始扫描找到第一个比枢轴大的元素，另一个指针从右边开始扫描找到第一个比枢轴小的元素，然后交换它们的位置。这样整个数组就被分成了两部分。接下来是递归排序左右子数组。我需要考虑如何处理这些子数组，比如确定起始和结束的索引，避免重复计算或者越界。那我得想想怎么编写这个快速排序的方法。可能是一个静态的方法，接受数组和左、右索引作为参数。然后基线情况是什么呢？比如，当左 >= 右的时候，说明子数组只包含一个或没有元素，此时不需要再进行分割了。

那我可能会写出以下结构：
.....

可使用 Ctrl + d 或者 /bye 退出会话。

3、安装图形化界面

使用命令行的方式不是很友好，可以安装一个WebUI，可用的交互界面有很多：

a. Page Assist浏览器插件：https://github.com/n4ze3m/page-assist

b. chatbox：https://github.com/Bin-Huang/chatbox

c. AnythingLLM：https://anythingllm.com/desktop

d. Open WebUI：https://openwebui-doc-zh.pages.dev/，需要使用docker运行

3.1 Page Assist浏览器插件

到这里下载https://github.com/n4ze3m/page-assist/releases，以Chrome插件为例，下载pageassist-1.5.3-chrome.zip，下载完成后，拖入Chrome浏览器扩展程序中。

3.2 Chatbox

到官网下载安装即可：https://chatboxai.app/zh#download

在设置中选择“Ollama API”，绑定本地模型。

3.3 AnythingLLM

AnythingLLM可用来构建私有知识库和智能问答系统，支持导入分析多种类型的文档，可以根据自己的需求创建不同的AI代理，实现高度定制化功能。

下载Windows桌面版双击安装即可：https://anythingllm.com/desktop

安装完成后选择Ollama:

配置完成后就可以进行聊天了。

可使用AnythingLLM来创建个人知识库，比如上传一个本地文档，添加到工作区，并嵌入到模型中。

我的DeepSeek部署资料已打包好（自取↓）
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码甚至预测市场趋势——答案就藏在大模型技术里！

❗️为什么你必须了解大模型？

1️⃣ 薪资爆炸：应届大模型工程师年薪40万起步，懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构：金融、医疗、教育正在被AI重塑，不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车：90%的进阶技巧不需写代码！会说话就能指挥AI

（附深度求索BOSS招聘信息）
在这里插入图片描述

⚠️警惕：当同事用DeepSeek 3小时干完你3天的工作时，淘汰倒计时就开始了。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？老师啊，我自学没有方向怎么办？老师，这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！当然这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！