
deepseek 671B 版本推理究竟需要什么样的GPU H100, H20, A6000,TRX 4090
或者 8卡 80G显存的H800. 可以考虑2.51-bit量化版本预测速度预估20~30TPS(待验证)或者 8卡 40G显存的A6000. 可以考虑2.51-bit量化版本预测速度预估3~10TPS (待验证)基于8卡 24G 显存的4090全可以考虑1.58-bit版本,预测速度预估3~10TPS(待验证)基于4/ 8卡96G 显存H20 ,预测速度22tps8张卡每张卡显存占用30。跟进D
结论
根据较可信任的资料,deepseek 671B(满血版) 有多个量化版本可以基于8卡GPU服务器进行部署。
Below is the breakdown of VRAM requirements for the 4-bit quantization of DeepSeek-R1 models:
Model | Parameters (B) | VRAM (4-bit Quantization) | Recommended GPU |
---|---|---|---|
DeepSeek-R1-Zero | 671B | ~436 GB | Multi-GPU setup (e.g., NVIDIA A100 80GB x6) |
DeepSeek-R1 | 671B | ~436 GB | Multi-GPU setup (e.g., NVIDIA A100 80GB x6) |
DeepSeek-R1-Distill-Llama-70B | 70B | ~181 GB | Multi-GPU setup (e.g., NVIDIA A100 80GB x3) |
…
671B 量化版本
基于4/ 8卡96G 显存H20 , 预测速度22tps 8张卡每张卡显存占用3038G,4张H20每卡显存约60 70G
据此推断:
基于8卡 24G 显存的4090 全可以考虑1.58-bit版本,预测速度预估3~10TPS (待验证)
或者 8卡 48G显存的A6000. 可以考虑2.51-bit量化版本 预测速度预估3~10TPS (待验证)
或者 8卡 80G显存的H800. 可以考虑2.51-bit量化版本 预测速度预估20~30TPS (待验证)
MoE | Bits | Type | Disk Size Accuracy |
---|---|---|---|
1.58bit | IQ1_S | 131GB | 正常 |
1.73bit | IQ1_M | 158GB | 好 |
2.22bit | IQ2_XXS | 183GB | 更好 |
2.51bit | Q2_K_XL | 212GB | 最好 |
相关硬件参数规格数据参考(待检查)
以下是NVIDIA H100、A100、A6000、A4000、V100、P6000、RTX 4000、L40s、L4的主要性能指标参数表:
GPU型号 | 架构 FP16性能 | FP32性能 | 显存 | 显存类型 | 带宽 |
---|---|---|---|---|---|
H100 | Hopper | 1,671 TFLOPS | 60 TFLOPS | 80GB HBM3 | 3.9 TB/s |
A100 | Ampere | 312 TFLOPS | 19.5 TFLOPS | 40GB / 80GB HBM2 | 2,039 GB/s |
A6000 | Ampere | 77.4 TFLOPS | 38.7 TFLOPS | 48GB GDDR6 | 768 GB/s |
A4000 | Ampere | 19.17 TFLOPS | 19.17 TFLOPS | 16GB GDDR6 | 448 GB/s |
V100 | Volta | 125 TFLOPS | 15.7 TFLOPS | 32GB HBM2 | 900 GB/s |
P6000 | Pascal | 12 TFLOPS | 12 TFLOPS | 24GB GDDR5X | 432 GB/s |
RTX 4000 | Turing | 14.2 TFLOPS | 7.1 TFLOPS | 8GB GDDR6 | 416 GB/s |
RTX 4090 | Ada Lovelace | 40 TFLOPS | 20 TFLOPS | 24GB GDDR6X | 1008 GB/s |
RTX 4090D | Ada Lovelace | 80 TFLOPS | 40 TFLOPS | 24GB GDDR6X | 1008 GB/s |
L40s | Ada Lovelace | 731 TFLOPS | 91.6 TFLOPS | 48GB GDDR6 | 864GB/s |
L4 | Ada Lovelace | 242 TFLOPS (Tensor Core) | 30 TFLOPS | 24GB GDDR6 | 300GB/s |
参考链接
H20 *3~4 96G显存
https://zhuanlan.zhihu.com/p/21274285958
DeepSeek-R1 671B本地运行指南
http://www.hubwiz.com/blog/deepseek-r1-671b-local-run-guide/
跟进DeepSeek-R1:动手部署671B模型推理(2.51-bit量化)
https://zhuanlan.zhihu.com/p/21274285958
A100 80G显存
https://apxml.com/posts/gpu-requirements-deepseek-r1
Run DeepSeek R1 Dynamic 1.58-bit
https://unsloth.ai/blog/deepseekr1-dynamic
更多推荐
所有评论(0)