本文以 DeepSeek V3 671B 为例,进行说明

一、数据单位基础

理解大模型参数,先掌握基本数据单位换算。硬件行业常用规则如下:

  1. 1Kb = 1000 byte:千字节与字节是 1000 倍换算关系。
  1. 1Mb = 1000Kb:兆字节比千字节更大,同样是 1000 倍换算。
  1. 1G = 1000Mb:吉字节用于表示更大数据量,遵循 1000 倍换算。
  1. 1GB = 10 亿 byte:1GB = 1000×1000×1000 byte,也可写成 1B byte。

二、大模型参数格式

大模型参数常见格式为 flat32,其中 1float32 = 4byte = 32bit(4×8bit),即每个 float32 类型参数占用 4 字节存储空间,1 字节等于 8 比特位。

三、DeepSeek V3 671B 解析

DeepSeek V3 671B,671B 代表 6710 亿个浮点型(float32)参数。

四、大模型发展趋势

近年来,大模型参数规模呈指数级增长。从最初的几百万参数到如今的万亿级,性能大幅提升。以拥有 671B 参数的模型为例,在推理时所需的显存数量是一个关键指标。基于 float32 格式下每个参数占用 4 字节,671B 参数占用的显存空间为 6710 亿 ×4 字节,换算成 GB,约为 2684GB。但实际推理过程中,考虑到中间计算结果存储、优化器状态等因素,所需显存往往会远大于这个理论值,通常至少需要数千 GB 的显存支持 。随着技术进步,未来模型参数将更庞大,性能更强大,这也对硬件显存提出了更高的挑战与要求。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐