Deepseek项目如何落地？落地中有哪些需要考量?落地后维护怎么办？【大模型学习笔记】大模型小知识-汇总。

32B就是320亿参数，现在有1.5B，7B，8B，14B，32B，70B，671B的模型，除671B以外都是蒸馏出来的。对于使用者的体验，输出8-10的Token是最低人类可以接受的底线（类似于每秒24帧的视频），比较舒服的的体验是输出15Token往上（类似于每秒30帧的视频），也就是个正常水平。我身边的小伙伴自己写了个脚本，做并发测试，如果绕过管理工具的鉴权和数据（别问我这是啥，我也是初学者

tobelic

1139人浏览 · 2025-02-23 00:02:15

tobelic · 2025-02-23 00:02:15 发布

最近跟风研究大模型及相关开源软件，一边学一边记笔记，以防日后想不起来了。

2025年2月22日笔记

知识点1：

Deepseek大模型的命名规则，例如：DeepSeek-R1-Distill-Qwen-32B-Q4_K_M

deepseek-r1：模型名称

Distill：代表蒸馏过

Qwen：用千问蒸馏的，70B用LLama蒸馏的，只有671B是使用Deepseek2蒸馏的。只有671B具有MOE架构（MOE是Deepseek独有架构，所以说只有671B才能叫做Deepseek），要体验真正的Deepseek，只能使用671B参数量

32B：Billion的缩写，模型的参数量。32B就是320亿参数，现在有1.5B，7B，8B，14B，32B，70B，671B的模型，除671B以外都是蒸馏出来的。671B有蒸馏版和未蒸馏版。如果看到FP16、BF16、BF32等字眼，这是模型的计算精度，代表着这个模型很牛，消耗的资源也很多。

Q4：代表Q4量化版，其他还有Q1-Q8等等，种类繁多。数值越大消耗资源越多，模型越聪明。补充：现在有IQ1、IQ2等，I代表什么不知道。

K、M：不是很清楚，太深奥了，应该跟格式有关。已知的有K、M、L、S、XS、XXS、XL等

知识点2：

模型参数量与显存的初步换算关系，以及量化做了什么。

精度规格	备注	参数大小
FP32	标准训练精度，也是大模型训练的最常用精度	4字节/参数
FP16	半精度浮点：可以减少内存占用和计算成本，但是会损失结果质量	2字节/参数
BF16	全称bfloat16：和FP16类似，但更适合深度学习	2字节/参数
FP8	8位浮点数，进一步压缩模型的精度浮点，适合加速推理	1字节/参数
INT8	8位整数量化，将32位或16位浮点数转换为8位整数，减少存储和计算需求	1字节/参数
INT4	4位整数量化，最常用的量化方案，进一步减少模型大小，但是会随时更多的模型精度	0.5字节/参数

注意，量化过程不是简单的按照比例压缩，与模型原始精度是无关的，而是将参数重新映射到更低的比特数。

例如：

FP32初始情况下，占用4字节，量化后是0.5字节

FP32初始情况下，占用2字节，量化后是0.5字节

从以上可以看出，无论原始模型占用多少字节，在同等量化后占用的空间都是一样的。

模型大小的计算：

模型大小=参数量*每参数占用字节

例如：

1B=10亿参数量，在FP32精度下每参数占用4字节

10亿*4字节/参数=40亿字节≈4GB显存空间

显卡在实际运行中，除了要一次性加载模型到显存，还需要一些空间来额外存储中间结果、梯度等数据。通常情况下，这些数据要占模型本身大小的20%到50%。由此可以推导出：

显存需求=模型大小*1.2~1.5

1B参数量对显存的需求：4GB*1.2=4.8≈5GB

70B的FP32模型对显存的需求：350GB显存

再来说量化，350GB的显存需求太大，如果使用Q4量化，模型参数占用从4字节降低到0.5字节，降低了8倍。也就是说350GB÷8倍=43.75GB，可以使用48GB显存run起来。

注：这里只是阐明模型的计算结果，并不考虑其他因素带来的影响。算是个最小配置吧，实际生产环境中还要考虑能耗、并发等问题。

知识点3：

如何看模型的浮点精度？

可以参考以下两个网站的数据：

1.ollama.com

2.huggingface.co

知识点4：

Q4量化是否就意味着都是Q4？

不尽然，从ollama的网站数据可以看出，每层的量化情况都不一样。可以参考：deepseek-r1:70b/model

知识点5：

框架是非常重要的，对于模型和硬件的性能发挥，起着至关重要的作用。不容忽视，例如：Vllm框架对于输出Token的速度有很大提高，由于Ollama框架和Ollama-Box等其他框架。

框架的管理工具，对并发有着很大影响。我身边的小伙伴自己写了个脚本，做并发测试，如果绕过管理工具的鉴权和数据（别问我这是啥，我也是初学者，没搞明白，你就听结果就行），并发性能有质的飞跃，同时失败请求降为0。

由此，大模型的优化比建设大模型更加重要。大模型不是预制菜，拿过来热一热就能吃。大模型非常考验厨师（信息化团队的技术功底）的厨艺。大模型是食材，同样的食材你做出来就是，别人做出来就是美味菜肴。

知识点6：

现在都想上本地大模型，不知道用什么配置。

1.在考虑硬件配置和架构之前，先看看自己的电力是否够用（租用IDC的除外）。紫光紫鸾1台8卡一体机的功耗大概是5.4KW，办公室内机房大都承载不了（还有很多其他原有设备和空调等）。

2.考虑使用人数与并发

3.考虑上哪个模型，模型不是参数量越大越好，还要可考虑是从哪个模型蒸馏出来，根据业务场景选择。现在网上很多算力租赁的平台，可以先采用租赁算力的方式测算好数据，再开干。

4.选择英伟达显卡时，要看显卡所能支撑Compute Capalibility（计算能力），英伟达网站上有关于计算能力的参数值，可以参考。CUDA GPUs - Compute Capability | NVIDIA Developer

起步3060，上不封顶

5.显存带宽是巨大瓶颈，我2块3090 24GB跑32BQ8模型时，监测GPU使用率时，基本维持在50%左右，估计显存带宽引起的瓶颈。

6.关于并发，这个是个玄学，从我实测数据看，2块3090 24GB只能同时回答4个问题。多出来的就要等着了，等其他问题回答完了，才能回答新的问题。同时我在测试，4卡2080TI 11GB是否会增加并发数。敬请期待

7.模型好不好有很多的维度，例如：对于中文语义的理解、输出Token的速度、上下文长度、思考深度、思考广度等等。然而，很多维度并不具有数字化评测标准，需要依靠人的主观判断。这就给模型、硬件的评测带来了很多不确定性。

8.关于评测：

并发多会降低每秒输出的Token数；

从逻辑推理、数学推理、常识推理、多步推理、批判性思维、创造性思维等方面准备问题，不能依靠单一问题、单一类型对模型惊醒评价；

评价维度：准确性、逻辑连贯性、解题完整性、复杂问题处理、常识合理性、创造性、响应时间等多个维度进行评分，最终得出结论。例如：

维度 | 评分标准（1-5分）
----------------|------------------------------------------------
准确性 | 结果正确性（数学答案精确到小数点后两位）
逻辑连贯性 | 推理链条完整度，是否存在逻辑跳跃
解题完整性 | 是否覆盖所有已知条件和隐含前提
复杂问题处理 | 对多变量问题的分解能力
常识合理性 | 是否符合现实世界的物理/社会规律
创造性 | 解决方案的新颖性和可行性
响应时间* | 生成完整回答所需时间（可选附加指标）

进阶标准：
1. 矛盾检测：能否识别题目中的潜在矛盾（如问题2的年龄悖论）
2. 假设检验：是否主动验证中间结论的正确性
3. 知识迁移：能否跨领域应用相关知识（如将物理原理应用于烹饪问题）

测试建议
1. 交叉验证：每个问题应测试3-5次，观察输出稳定性
2. 难度梯度：按简单→中等→困难分级（示例中问题1-3为初级，4-6为中级，7-12为高级）
3. 领域覆盖：建议补充专业领域推理题（如法律条文解读、医学诊断推理）
4. 异常处理：可加入包含陷阱或矛盾条件的题目，测试模型容错能力

着重观察输出稳定性，每个问题多次提问，会有不一样的结果。

9.关于输出Token的速度

对于使用者的体验，输出8-10的Token是最低人类可以接受的底线（类似于每秒24帧的视频），比较舒服的的体验是输出15Token往上（类似于每秒30帧的视频），也就是个正常水平。输出Token越快越好，这个非常影响体验。

10.模型性能与框架息息相关，这个我没有具体实测，但是从我身边的小伙伴处得知有很大关系。例如：Vllm框架对于输出Token的速度有很大提高，由于Ollama框架和Ollama-Box等其他框架。