在人工智能领域,硬件与算法的协同优化一直是推动技术进步的关键力量。当先进的 FP4(4 位浮点型)量化技术的神奇魔力,与拥有强大算力的 Blackwell 架构相遇时,会碰撞出怎样令人惊叹的火花呢?答案是:推理性能实现暴涨 25 倍的飞跃,成本更是狂降 20 倍,这无疑为 AI 产业带来了重大变革!
近年来,随着人工智能应用场景的不断拓展,对大语言模型的推理性能和成本控制提出了更高要求。DeepSeek-R1 作为一款备受瞩目的模型,其本地化部署呈现出爆火的态势。在这样的背景下,行业巨头英伟达也亲自下场,开源了首个基于 Blackwell 架构针对 DeepSeek-R1 的优化方案 ——DeepSeek-R1-FP4,这一举措迅速成为行业焦点。
在这里插入图片描述

在 DeepSeek-R1-FP4 新模型的有力加持下,采用 Blackwell 架构的 B200 GPU 展现出了惊人的实力。它实现了高达 21,088 token 每秒的推理吞吐量,这一数据相较于 H100 的 844 token 每秒,提升幅度高达 25 倍。如此显著的性能提升,意味着在相同时间内,B200 能够处理更多的任务,大大提高了工作效率。例如,在智能客服场景中,B200 可以更快地响应用户的咨询,提供更流畅的交互体验;在内容生成领域,能够更迅速地创作文章、故事等文本内容。
与此同时,每 token 的成本也实现了 20 倍的降低。这对于大规模应用大语言模型的企业来说,无疑是一个重大利好消息。以云服务提供商为例,更低的成本意味着可以为客户提供更具性价比的服务,或者在相同成本下承接更多的业务,进而提升市场竞争力。
英伟达的技术团队通过在 Blackwell 架构上应用 TensorRT DeepSeek 优化技术,成功让具有 FP4 生产级精度的模型在 MMLU(Massive Multitask Language Understanding)通用智能基准测试中达到了 FP8 模型性能的 99.8%。这一成果表明,FP4 量化技术不仅大幅降低了计算资源的需求,还在模型精度上表现出色,使得模型在实际应用中能够兼顾高效与准确。
DeepSeek-R1 首次基于 Blackwell GPU 优化
目前,英伟达基于 FP4 优化的 DeepSeek-R1 检查点已在 Hugging Face 上开源,这为广大开发者和研究人员提供了极大的便利。他们可以基于此进行更深入的研究和开发,进一步推动人工智能技术的创新和应用。

后训练量化

在此次优化中,模型采用了后训练量化技术,将 Transformer 模块内的线性算子的权重和激活量化到了 FP4。这种量化方式适用于 TensorRT-LLM 推理,具有重要意义。通过将每个参数从 8 位减少到 4 位,磁盘空间和 GPU 显存的需求减少了约 1.6 倍。这意味着在存储和计算过程中,所需的硬件资源大幅降低,使得在一些硬件资源有限的场景下,也能够顺利部署和运行大型模型。

使用 TensorRT-LLM 部署

若要使用 TensorRT-LLM LLM API 部署量化后的 FP4 权重文件,并为给定的提示生成文本响应,需要注意以下要点:
硬件要求:需要支持 TensorRT-LLM 的英伟达 GPU,例如 B200。并且,为了实现 tensor_parallel_size=8 的张量并行,需要 8 个 GPU 协同工作。这是因为张量并行技术可以将大的张量分割到多个 GPU 上进行并行计算,从而提高计算效率。
性能优化:相关代码充分利用了 FP4 量化、TensorRT 引擎和并行计算等技术,旨在实现高效、低成本的推理。这种优化后的部署方式非常适合生产环境或高吞吐量应用,能够满足企业在实际业务中的大规模推理需求。

微信关注公众号【万物AI观】获取更多最新AI资讯

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐