DeepSeek-R1满血版私有化部署整体方案

姚敦林博客

3011人浏览 · 2025-02-22 17:31:13

姚敦林博客 · 2025-02-22 17:31:13 发布

一、硬件配置方案

‌单节点基础配置‌
- ‌服务器型号‌：戴尔PowerEdge R760xa GPU服务器
- ‌CPU‌：双路AMD EPYC 9654 (96核/192线程，支持PCIe 5.0)‌34
- ‌内存‌：1TB DDR5 ECC (32×32GB，满足大规模模型参数加载)‌34
- ‌存储‌：
  - 系统盘：2×1.92TB NVMe SSD (RAID 1)
  - 数据盘：8×7.68TB NVMe SSD (RAID 10，总容量约30TB)‌3
- ‌GPU配置‌：
  - ‌选项1‌：8×NVIDIA A100 80GB PCIe (单卡显存80GB，支持NVLink互联)‌34
  - ‌选项2‌：8×NVIDIA H20 96GB PCIe (国产替代方案，显存更大但计算性能略低)‌1
- ‌网络‌：双端口100GbE网卡 + Mellanox ConnectX-7 InfiniBand HDR (200Gbps节点互联)‌23
- ‌电源‌：双冗余3200W钛金电源‌3
‌双节点集群扩展‌
- ‌节点数量‌：2台上述配置服务器
- ‌高可用架构‌：
  - ‌存储同步‌：通过Ceph分布式存储实现跨节点数据冗余‌2
  - ‌负载均衡‌：NVIDIA Magnum IO实现GPU资源池化及任务调度‌2
  - ‌故障切换‌：Keepalived + HAProxy实现服务无缝迁移‌5

二、硬件成本估算（2025年Q1价格）

组件	A100方案单价	H20方案单价	数量	总价范围
戴尔R760xa服务器裸机	约35万元	约40万元	2台	70万～80万
A100 80GB显卡	12万元/卡	-	16卡	192万元
H20 96GB显卡	-	18万元/卡	16卡	288万元
InfiniBand网络设备	约25万元	同左	1套	25万元
存储及配件	约20万元	同左	-	20万元
‌合计‌	‌A100方案‌	‌H20方案‌	-	‌307万～413万‌

三、部署实施流程

‌硬件安装‌
- 每台服务器安装8块GPU，通过PCIe 5.0×16全速连接‌3
- 配置InfiniBand交换机实现节点间高速RDMA通信‌2
‌软件环境搭建‌
- ‌操作系统‌：Ubuntu Server 24.04 LTS (预装NVIDIA驱动及CUDA 12.5)‌5
- ‌容器化部署‌：
  - 使用NVIDIA NGC容器镜像部署DeepSeek-R1满血版‌2
  - 通过Kubernetes实现双节点GPU资源调度‌5
‌高可用配置‌
- 部署NVIDIA Triton推理服务器，配置模型副本跨节点分布‌2
- 使用Prometheus + Grafana监控GPU利用率及服务健康状态‌5

四、性能与优化建议

‌吞吐量‌：双节点16卡A100预计可达4500+ tokens/s，H20方案约3800 tokens/s‌13
‌能效比‌：A100方案功耗约12kW/节点，H20方案约10kW/节点‌3
‌调优重点‌：
- 启用FP8量化技术降低显存占用（昆仑芯方案已验证精度无损）‌1
- 使用NVIDIA TensorRT优化推理流水线‌

DeepSeek 满血版（671B 参数）CentOS/Ubuntu 安装步骤对比

一、系统环境准备

步骤	CentOS 7+/RHEL	Ubuntu 22.04+	引用来源
‌1. 基础软件安装‌	`sudo yum install -y git wget curl python3 python3-pip epel-release`	`sudo apt update && sudo apt install -y git wget curl python3 python3-pip`	‌24
‌2. GPU 驱动安装‌	`sudo yum install -y kernel-devel<br>sudo bash NVIDIA-Linux-*.run`	`sudo apt install -y nvidia-driver-535<br>sudo reboot`	‌24
‌3. CUDA 环境配置‌	`wget https://developer.download.nvidia.com/compute/cuda/12.5.0...<br>sudo rpm -i cuda-repo-*.rpm`	`sudo apt install -y cuda-12-5`	‌24

4. 容器化部署（Kubernetes + Docker）

# 安装 Kubernetes 集群（使用 kubeadm）
sudo apt install -y kubeadm kubelet kubectl
kubeadm init --pod-network-cidr=192.168.0.0/16

# 部署 NVIDIA GPU 插件
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.1/nvidia-device-plugin.yml

# 部署 DeepSeek-R1 推理服务
apiVersion: apps/v1
kind: Deployment
metadata:
name: deepseek-inference
spec:
replicas: 2
selector:
matchLabels:
app: deepseek
template:
metadata:
labels:
app: deepseek
spec:
containers:
- name: deepseek
image: deepseek-r1-inference:latest
resources:
limits:
nvidia.com/gpu: 2 # 每个 Pod 分配 2 GPU

二、Ollama 部署（核心组件）

系统	安装命令	验证方式	引用来源
‌CentOS‌	`curl -fsSL https://ollama.com/install.sh \| sh<br>sudo systemctl start ollama`	`ollama --version`	‌13
‌Ubuntu‌	`curl -fsSL https://ollama.com/install.sh \| sh<br>sudo usermod -aG ollama $USER`	`nvidia-smi`（验证 GPU 识别）	‌45

三、模型部署（671B 满血版）

‌下载模型‌（通用步骤）
bashCopy Code

ollama run deepseek-r1:671b # 需至少 404GB 存储空间‌:ml-citation{ref="4,5" data="citationList"}
- ‌加速建议‌：添加国内镜像源 OLLAMA_MIRROR=https://mirror.1ms.run‌4
‌启动服务‌
- ‌交互模式‌：直接运行 ollama run 命令
- ‌API 模式‌：
  bashCopy Code
  
  ollama serve & # 后台运行服务（默认端口 11434）‌:ml-citation{ref="1,5" data="citationList"}

四、WebUI 配置（可选）

组件	安装命令	访问方式	引用来源
‌Open WebUI‌	`docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama ghcr.io/open-webui/open-webui`	`http://IP:3000`	‌14

五、高可用集群扩展（双节点）

‌节点同步‌
- 使用 rsync 同步模型文件：
  bashCopy Code
  
  rsync -avz /root/.ollama/models/ node2:/root/.ollama/models/ # 需提前配置 SSH 免密登录‌:ml-citation{ref="4" data="citationList"}
‌负载均衡‌
- 部署 HAProxy：
  confCopy Code
  
  解释
  backend deepseek_nodes balance leastconn server node1 192.168.1.101:11434 check server node2 192.168.1.102:11434 check‌:ml-citation{ref="4,5" data="citationList"}

‌关键注意‌：

‌显存要求‌：671B 版本需单卡 ≥80GB 显存（建议使用 NVIDIA A100/H100）‌24

‌存储规划‌：模型文件默认存储在 ~/.ollama/models，建议挂载独立 NVMe SSD‌45

六、交付周期

硬件采购：4~6周（戴尔生产周期 + 国际物流）。
部署实施：2~3天（硬件上架 + 网络配置）。
软件调优：1~2周（Kubernetes集群优化 + 模型压测）。

选择合适的DeepSeek版本不仅要考虑硬件配置，还要根据实际应用场景来决定。建议先从较小的模型开始尝试，逐步升级到更大的模型。这样可以在确保性能的同时，避免资源浪费。

友情链接参考：

一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答：包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B量化版)_ollama run deepseek-r1:671b-CSDN博客

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）_deepseekr1各版本硬件需求-CSDN博客

10分钟搞定！本地安装 DeepSeek-R1，全流程教程-创艺提示符

【3分钟速通】部署本地deepseek-R1模型【图文】【手把手】_deepseek-r1 本地部署-CSDN博客

https://zhuanlan.zhihu.com/p/22545870578 https://zhuanlan.zhihu.com/p/23674827718

DeepSeek R1本地与线上满血版部署：超详细手把手指南_满血deepseek本地部署配置-CSDN博客

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

一文搞懂 Deepseek

DeepSeek技术社区

HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置