如何在本地运行“满血版”DeepSeek-R1？

春节假期刚过，相信不少小伙伴已经收到了全面拥抱 DeepSeek 的指令。然而，具体要部署哪个模型？默认自然是 DeepSeek-R1。如果只是运行蒸馏版本的 R1，操作并不复杂，只要显存足够，一般不会有太大问题。但如果要运行全参数版本的 R1，所需的硬件配置可就不容小觑了。。⚠️ 本文只讨论，不涉及部署步骤和并发优化。从以上表格可以看出，想要本地跑，最便捷的方案是，而更大规模的分布式部署则需要甚

爱编程的小辞

3026人浏览 · 2025-04-11 09:23:45

爱编程的小辞 · 2025-04-11 09:23:45 发布

春节假期刚过，相信不少小伙伴已经收到了全面拥抱 DeepSeek 的指令。然而，具体要部署哪个模型？默认自然是 DeepSeek-R1。

如果只是运行蒸馏版本的 R1，操作并不复杂，只要显存足够，一般不会有太大问题。
但如果要运行全参数版本的 R1，所需的硬件配置可就不容小觑了。
本文就来告诉你，如何在本地跑起来 DeepSeek-R1 所需的最小硬件配置。

⚠️ 本文只讨论运行的最低硬件需求，不涉及部署步骤和并发优化。

TL;DR - 结论速览

如果你想在本地运行 DeepSeek-R1，全参数版本的最低 GPU 配置如下：

推理框架	兼容显卡	最小资源需求
SGLang	H200	8×H200
LMDeploy	H200	8×H200
TensorRT-LLM	H100 / H800 / H200	16×H800 / 16×H100 / 8×H200
vLLM	H100 / H800 / H200 / RTX 40/60	16×H800 / 16×H100 / 8×H200
MindIE	910B	32×910B

从以上表格可以看出，想要本地跑 “满血版” DeepSeek-R1，最便捷的方案是 8×H200，而更大规模的分布式部署则需要 16×H800 甚至更多 GPU 资源。

目前有哪些框架可以运行 DeepSeek-R1？

DeepSeek-R1 的模型架构与 DeepSeek-V3 一致，因此官方 GitHub 将本地部署的相关信息链接到了 DeepSeek-V3 仓库[1]。

目前，DeepSeek-V3（即 DeepSeek-R1）支持以下 7 种本地运行方式：

DeepSeek-Infer Demo：官方提供的 FP8 和 BF16 轻量级推理 Demo。
SGLang：支持 FP8 和 BF16 推理（多 Token 预测功能即将上线）。
LMDeploy：支持 FP8 和 BF16 的高效推理，可用于本地和云端部署。
TensorRT-LLM：支持 BF16 推理及 INT4/8 量化，FP8 支持即将推出。
vLLM：支持 FP8、BF16，并兼容张量并行和流水线并行。
AMD GPU：通过 SGLang 在 AMD 显卡上运行 FP8 和 BF16 模型。
Huawei Ascend NPU：支持在华为 Ascend 设备上运行 DeepSeek-V3。

其中，DeepSeek-Infer Demo 适用于快速测试，而其他方案则更适用于高并发场景。接下来，我们逐一解析它们的最低运行硬件需求。

SGLang

支持 FP8 和 FP16，最低 671GB 显存可运行，若需长上下文则需更高显存。
不支持流水线并行，仅支持单机部署，因此 8 卡配置下，每张卡至少需要 671/8=84GB 显存。
推荐配置：单机 8 卡 H200（目前唯一单卡 80GB 以上的 GPU）。

LMDeploy

不支持流水线并行，因此最低配置与 SGLang 相同。
推荐配置：单机 8 卡 H200。

TensorRT-LLM

支持张量并行（TP）、专家并行（EP）、多批次推理（IB），适用于更大规模的部署。
目前仅支持 Hopper 架构（H100、H200、H800），Ampere 架构（A100）支持计划中。
最低配置：16×H800 / 16×H100 / 8×H200。

vLLM

支持流水线并行，允许多机部署。
支持 FP8 和 BF16，但需 FP8 兼容显卡（H 系列、L 系列、RTX 40/60 系列）。
若使用不支持 FP8 的 GPU（如 A100），则至少需要双倍显存（671×2 GB）。
最低配置：16×H800 / 16×H100 / 8×H200。

MindIE（华为 Ascend NPU）

最低配置：

BF16 权重 推理需 4 台 Atlas 800I A2（8×64GB）。
W8A8 量化 权重推理需 2 台 Atlas 800I A2（8×64GB）。
量化工具 MindIE 2.0.T3 版本正在制作中，敬请期待。

如果你正考虑在本地运行 DeepSeek-R1，不妨结合自己的硬件条件，选择最适合的框架进行部署！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】