英伟达Blackwell GPU 创下 DeepSeek-R1 推理性能世界纪录推理提升 36 倍

NVIDIA 在 GTC 2025 宣布，其实现了的世界纪录推理性能。

埼玉君

826人浏览 · 2025-03-19 18:03:30

埼玉君 · 2025-03-19 18:03:30 发布

英伟达Blackwell GPU 创下 DeepSeek-R1 推理性能世界纪录推理提升 36 倍成本下降 32 倍

NVIDIA 在 GTC 2025 宣布 Blackwell 架构实现 DeepSeek-R1 世界纪录推理性能

NVIDIA 在 GTC 2025 宣布，其 Blackwell 架构 实现了 DeepSeek-R1 (6710 亿参数模型) 的世界纪录推理性能。

单个 NVIDIA DGX 系统（8×Blackwell GPU）

单用户推理速度：超过 250 tokens/秒
最大吞吐量：超过 30,000 tokens/秒
推理性能提升：相比 2025 年 1 月提升 36 倍，推理成本下降 32 倍

一台配备 8 个 NVIDIA Blackwell GPU 的单台 DGX 系统，在处理 6710 亿参数的 DeepSeek-R1 模型时，能够实现每用户超过 250 个令牌每秒 的推理速度，或最高超过 3 万个令牌每秒 的总吞吐量。这一性能在用户体验和效率方面均达到了新的高度。

Blackwell GPU 关键升级

这些性能提升得益于 NVIDIA 开放生态系统中推理开发工具的优化，特别是针对 Blackwell 架构的改进。Blackwell 架构的硬件和软件协同优化，使得推理性能在短短时间内实现了显著飞跃。

(1) 硬件架构改进

第五代 Tensor Core
- 支持 FP4 精度计算，计算能力提升 5 倍
第五代 NVLink & NVLink Switch
- 带宽翻倍（相比上一代 Hopper GPU）
- 支持更大规模 NVLink 互联，增强多 GPU 协同计算能力
计算性能 & 存储优化
- Blackwell FP4 计算比 H100 的 FP8 模式提高 3 倍推理吞吐量
- 在 DeepSeek-R1、Llama 3.1 (405B)、Llama 3.3 (70B) 等模型上表现卓越

(2) TensorRT-LLM 推理优化

TensorRT Model Optimizer 0.25
- 支持 FP4 量化（Post-Training Quantization, PTQ），降低计算开销，提高吞吐量
- 支持 量化感知训练（QAT），可在低精度计算下保持高准确率
TensorRT-LLM 0.17
- 针对 Blackwell 指令集进行了专门优化
- KV Cache 管理、推测解码 等高级优化提高运行效率

(3) AI 图像生成优化

Blackwell GPU 还针对 AI 图像生成进行了优化：

相比 FP16，推理吞吐量提升 3 倍
显存占用优化，VRAM 需求降低 5.2 倍，适用于 RTX 5090 及 AI PC 设备

支持的模型：

Flux.1 系列（Black Forest Labs）：领先的文本-图像生成模型，可在 TensorRT 生态系统中直接部署

(4) 生态系统与软件优化

cuDNN 9.7 优化
- 提供 Flash Attention 算法：
  - FP8 前向传播加速 50%
  - FP8 反向传播加速 84%
- GEMM 计算优化，减少 LLM 计算内存占用

CUTLASS 3.8 优化
- 支持 FP4 计算，优化 MoE 模型计算，降低 LLM 权重存储需求
- 支持 OpenAI Triton，Python 级编译器优化 AI 计算

关键推理性能数据

(1) 在 LLM 模型上的吞吐量提升

(2) FP4 量化推理的精度评估

DeepSeek-R1 在 FP4 量化后仅损失 0.1-0.5% 精度：
- 在 MMLU、GSM8K、AIME 2024、GPQA、MATH-500 等多个数据集测试表现优异
Nemotron 4 (15B & 340B) 采用 FP4 QAT 量化后，几乎无损精度

官方博客

更多详情请参阅：NVIDIA Blackwell Delivers World-Record DeepSeek-R1 Inference Performance

我们的技术博客：DogAPI-人工智能接口商城

DogAPI 成立于 2022 年 12 月，源于全球人工智能浪潮的兴起，尤其是 OpenAI 发布 ChatGPT 后，推动了AI技术在各行业的广泛应用。我们是这一发展浪潮中最早诞生的人工智能衍生产品服务商之一，致力于为开发者和用户提供高效、创新的 AI 解决方案。

2023 年 1 月，我们在新加坡成立了 DogAPI，一个专注于为全球开发者和用户提供AI衍生服务的专业平台。我们的业务涵盖了多项AI产品和服务，通过我们的平台，企业与个人用户能够轻松访问、集成并应用最前沿的人工智能技术，提升业务效率，推动创新发展。

我们的服务类型

AI代充服务：我们深知地域限制可能为某些用户带来的不便，因此为在受限区域的企业和个体提供便捷的、稳定的、无障碍的、一站式的AI工具升级服务。

AI接口供应：DogAPI已为多家全球顶级企业和数千家AI企业提供API服务，为大模型训练厂商们提供了最刚需的API接口和Claude接口供应，包括为AI创业者们提供了超数百万美元的中转API供应。我们的API解决方案旨在为企业与创业者们提供高效的、稳定的、便捷的、一站式的API消耗供应，助力AI技术更好地服务于实际应用。

AI芯片中心：致力于为AI大模型训练的企业提供GPU导购和支持服务。我们与谷歌云代理商合作，提供H100、A100等各类AI算力显卡，并为客户提供8折优惠。我们的专业团队拥有丰富经验，旨在帮助AI企业解决算力挑战，推动AI发展，促进人类社会进步。