大模型参数：DeepSeek V3 671B

本文以 DeepSeek V3 671B 为例，进行说明。

dingcb168

2692人浏览 · 2025-02-07 17:03:28

dingcb168 · 2025-02-07 17:03:28 发布

本文以 DeepSeek V3 671B 为例，进行说明

一、数据单位基础

理解大模型参数，先掌握基本数据单位换算。硬件行业常用规则如下：

1Kb = 1000 byte：千字节与字节是 1000 倍换算关系。

1Mb = 1000Kb：兆字节比千字节更大，同样是 1000 倍换算。

1G = 1000Mb：吉字节用于表示更大数据量，遵循 1000 倍换算。

1GB = 10 亿 byte：1GB = 1000×1000×1000 byte，也可写成 1B byte。

二、大模型参数格式

大模型参数常见格式为 flat32，其中 1float32 = 4byte = 32bit（4×8bit），即每个 float32 类型参数占用 4 字节存储空间，1 字节等于 8 比特位。

三、DeepSeek V3 671B 解析

DeepSeek V3 671B，671B 代表 6710 亿个浮点型（float32）参数。

四、大模型发展趋势

近年来，大模型参数规模呈指数级增长。从最初的几百万参数到如今的万亿级，性能大幅提升。以拥有 671B 参数的模型为例，在推理时所需的显存数量是一个关键指标。基于 float32 格式下每个参数占用 4 字节，671B 参数占用的显存空间为 6710 亿 ×4 字节，换算成 GB，约为 2684GB。但实际推理过程中，考虑到中间计算结果存储、优化器状态等因素，所需显存往往会远大于这个理论值，通常至少需要数千 GB 的显存支持。随着技术进步，未来模型参数将更庞大，性能更强大，这也对硬件显存提出了更高的挑战与要求。