一、硬件配置方案

  1. 单节点基础配置

    • 服务器型号‌:戴尔PowerEdge R760xa GPU服务器
    • CPU‌:双路AMD EPYC 9654 (96核/192线程,支持PCIe 5.0)‌34
    • 内存‌:1TB DDR5 ECC (32×32GB,满足大规模模型参数加载)‌34
    • 存储‌:
      • 系统盘:2×1.92TB NVMe SSD (RAID 1)
      • 数据盘:8×7.68TB NVMe SSD (RAID 10,总容量约30TB)‌3
    • GPU配置‌:
      • 选项1‌:8×NVIDIA A100 80GB PCIe (单卡显存80GB,支持NVLink互联)‌34
      • 选项2‌:8×NVIDIA H20 96GB PCIe (国产替代方案,显存更大但计算性能略低)‌1
    • 网络‌:双端口100GbE网卡 + Mellanox ConnectX-7 InfiniBand HDR (200Gbps节点互联)‌23
    • 电源‌:双冗余3200W钛金电源‌3
  2. 双节点集群扩展

    • 节点数量‌:2台上述配置服务器
    • 高可用架构‌:
      • 存储同步‌:通过Ceph分布式存储实现跨节点数据冗余‌2
      • 负载均衡‌:NVIDIA Magnum IO实现GPU资源池化及任务调度‌2
      • 故障切换‌:Keepalived + HAProxy实现服务无缝迁移‌5

二、硬件成本估算(2025年Q1价格)

组件 A100方案单价 H20方案单价 数量 总价范围
戴尔R760xa服务器裸机 约35万元 约40万元 2台 70万~80万
A100 80GB显卡 12万元/卡 - 16卡 192万元
H20 96GB显卡 - 18万元/卡 16卡 288万元
InfiniBand网络设备 约25万元 同左 1套 25万元
存储及配件 约20万元 同左 - 20万元
合计 A100方案 H20方案 - 307万~413万

三、部署实施流程

  1. 硬件安装

    • 每台服务器安装8块GPU,通过PCIe 5.0×16全速连接‌3
    • 配置InfiniBand交换机实现节点间高速RDMA通信‌2
  2. 软件环境搭建

    • 操作系统‌:Ubuntu Server 24.04 LTS (预装NVIDIA驱动及CUDA 12.5)‌5
    • 容器化部署‌:
      • 使用NVIDIA NGC容器镜像部署DeepSeek-R1满血版‌2
      • 通过Kubernetes实现双节点GPU资源调度‌5
  3. 高可用配置

    • 部署NVIDIA Triton推理服务器,配置模型副本跨节点分布‌2
    • 使用Prometheus + Grafana监控GPU利用率及服务健康状态‌5

四、性能与优化建议

  • 吞吐量‌:双节点16卡A100预计可达4500+ tokens/s,H20方案约3800 tokens/s‌13
  • 能效比‌:A100方案功耗约12kW/节点,H20方案约10kW/节点‌3
  • 调优重点‌:
    • 启用FP8量化技术降低显存占用(昆仑芯方案已验证精度无损)‌1
    • 使用NVIDIA TensorRT优化推理流水线‌

DeepSeek 满血版(671B 参数)CentOS/Ubuntu 安装步骤对比


一、系统环境准备
步骤 CentOS 7+/RHEL Ubuntu 22.04+ 引用来源
1. 基础软件安装 sudo yum install -y git wget curl python3 python3-pip epel-release sudo apt update && sudo apt install -y git wget curl python3 python3-pip ‌24
2. GPU 驱动安装 sudo yum install -y kernel-devel<br>sudo bash NVIDIA-Linux-*.run sudo apt install -y nvidia-driver-535<br>sudo reboot ‌24
3. CUDA 环境配置 wget https://developer.download.nvidia.com/compute/cuda/12.5.0...<br>sudo rpm -i cuda-repo-*.rpm sudo apt install -y cuda-12-5 ‌24

4. 容器化部署(Kubernetes + Docker)

# 安装 Kubernetes 集群(使用 kubeadm)
sudo apt install -y kubeadm kubelet kubectl
kubeadm init --pod-network-cidr=192.168.0.0/16

# 部署 NVIDIA GPU 插件
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.1/nvidia-device-plugin.yml

# 部署 DeepSeek-R1 推理服务
apiVersion: apps/v1
kind: Deployment
metadata:
  name: deepseek-inference
spec:
  replicas: 2
  selector:
    matchLabels:
      app: deepseek
  template:
    metadata:
      labels:
        app: deepseek
    spec:
      containers:
      - name: deepseek
        image: deepseek-r1-inference:latest
        resources:
          limits:
            nvidia.com/gpu: 2  # 每个 Pod 分配 2 GPU
 

二、Ollama 部署(核心组件)
系统 安装命令 验证方式 引用来源
CentOS curl -fsSL https://ollama.com/install.sh | sh<br>sudo systemctl start ollama ollama --version ‌13
Ubuntu curl -fsSL https://ollama.com/install.sh | sh<br>sudo usermod -aG ollama $USER nvidia-smi(验证 GPU 识别) ‌45

三、模型部署(671B 满血版)
  1. 下载模型‌(通用步骤)

    
      

    bashCopy Code

    ollama run deepseek-r1:671b # 需至少 404GB 存储空间‌:ml-citation{ref="4,5" data="citationList"}

    • 加速建议‌:添加国内镜像源 OLLAMA_MIRROR=https://mirror.1ms.run‌4
  2. 启动服务

    • 交互模式‌:直接运行 ollama run 命令
    • API 模式‌:
      
          

      bashCopy Code

      ollama serve & # 后台运行服务(默认端口 11434)‌:ml-citation{ref="1,5" data="citationList"}


四、WebUI 配置(可选)
组件 安装命令 访问方式 引用来源
Open WebUI docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama ghcr.io/open-webui/open-webui http://IP:3000 ‌14

五、高可用集群扩展(双节点)
  1. 节点同步

    • 使用 rsync 同步模型文件:
      
          

      bashCopy Code

      rsync -avz /root/.ollama/models/ node2:/root/.ollama/models/ # 需提前配置 SSH 免密登录‌:ml-citation{ref="4" data="citationList"}

  2. 负载均衡

    • 部署 HAProxy:
      
          

      confCopy Code

      解释

      backend deepseek_nodes balance leastconn server node1 192.168.1.101:11434 check server node2 192.168.1.102:11434 check‌:ml-citation{ref="4,5" data="citationList"}

关键注意‌:

  • 显存要求‌:671B 版本需单卡 ≥80GB 显存(建议使用 NVIDIA A100/H100)‌24
  • 存储规划‌:模型文件默认存储在 ~/.ollama/models,建议挂载独立 NVMe SSD‌45

六、交付周期

  1. 硬件采购:4~6周(戴尔生产周期 + 国际物流)。
  2. 部署实施:2~3天(硬件上架 + 网络配置)。
  3. 软件调优:1~2周(Kubernetes集群优化 + 模型压测)。

选择合适的DeepSeek版本不仅要考虑硬件配置,还要根据实际应用场景来决定。建议先从较小的模型开始尝试,逐步升级到更大的模型。这样可以在确保性能的同时,避免资源浪费。

友情链接参考:

一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答:包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B量化版)_ollama run deepseek-r1:671b-CSDN博客

一文读懂DeepSeek-R1本地部署配置要求(建议收藏)_deepseekr1各版本硬件需求-CSDN博客

10分钟搞定!本地安装 DeepSeek-R1,全流程教程-创艺提示符

【3分钟速通】部署本地deepseek-R1模型【图文】【手把手】_deepseek-r1 本地部署-CSDN博客

https://zhuanlan.zhihu.com/p/22545870578        https://zhuanlan.zhihu.com/p/23674827718

DeepSeek R1本地与线上满血版部署:超详细手把手指南_满血deepseek本地部署配置-CSDN博客

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐