DeepSeek R1 在 24GB GPU 上：Unsloth AI 对 6710 亿参数模型进行动态量化

原始的 DeepSeek R1 是一个拥有 6710 亿参数的语言模型，由 Unsloth AI 团队采用动态量化技术处理，实现了 80% 的体积缩减 —— 从 720GB 缩小到最低 131GB —— 同时保持了强劲的性能。当加入模型卸载（offloading）后，该模型可以在 24GB 显存的环境下运行，并实现低 token/s 的推理速度。

小天才学习机打游戏

1651人浏览 · 2025-02-11 14:35:39

小天才学习机打游戏 · 2025-02-11 14:35:39 发布

原始的 DeepSeek R1 是一个拥有 6710 亿参数的语言模型，由 Unsloth AI 团队采用动态量化技术处理，实现了 80% 的体积缩减 —— 从 720GB 缩小到最低 131GB —— 同时保持了强劲的性能。

当加入模型卸载（offloading）后，该模型可以在 24GB 显存的环境下运行，并实现低 token/s 的推理速度。

为什么模型体积对大型语言模型如此重要

大型语言模型天生需要大量存储和计算资源。

为了本地推理，维持所有参数的全精度表示（通常是 FP16 或 FP32）是不现实的，因为这对内存的需求过于庞大。

量化（即降低权重表示的位宽）提供了一种解决方案，能够显著减少模型的体积和内存占用。

然而，对整个网络进行简单、统一的量化可能会导致严重的性能下降，表现为输出不稳定或生成重复的 token。

动态量化：量身定制的方法

Unsloth AI 团队的方法采用了动态量化，根据不同网络组件的敏感性分配不同的位宽。其关键技术点包括：

选择性精度分配: 对于初始的全连接层和下投影矩阵（down_proj），它们对于建立稳定的表示和管理 SwiGLU 激活中的缩放特性至关重要，因此保持较高精度（4 位或 6 位）。而模型大部分参数——主要位于占模型约 88% 的专家混合（Mixture-of-Experts, MoE）层中——则被激进地量化到 1.5 至 2 位。
重要性矩阵校准: 在量化过程中引入重要性矩阵，使得方法能够根据每一层的情况动态调整精度水平。这种校准避免了均匀量化常见的问题，比如无限循环或输出无意义结果。
层级特定敏感性分析: 技术评估表明，虽然 MoE 层可以容忍较低精度，但像注意力机制、嵌入层和最终输出层等组件则需要更多位宽来保留激活分布。这个精细化策略确保了计算图中关键路径的精度得以保留。

量化模型变体与性能

Unsloth AI 已经发布了多个动态量化变体，每个变体在模型体积和输出质量之间做出了平衡：

例如，在一个受控测试中，模型被要求生成一个 Flappy Bird 游戏的 Python 实现，即使是最小的 1.58 位变体也保持了相当的功能。

相比之下，对所有层进行均匀量化则导致输出重复或完全无法生成连贯的代码。

本地部署 DeepSeek R1

这些动态量化模型设计用于运行在常见的推理引擎上，例如支持 Unsloth AI 发布的 GGUF 文件格式的 llama.cpp。以下是部署流程的概述：

1.构建推理引擎

克隆并编译启用了 GPU 支持的 llama.cpp。

git clone https://github.com/ggerganov/llama.cpp   cd llama.cpp   cmake . -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON   cmake --build build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split

2.下载模型

通过 Hugging Face Hub 获取所需的模型变体。

from huggingface_hub import snapshot_download         snapshot_download(       repo_id="unsloth/DeepSeek-R1-GGUF",       local_dir="DeepSeek-R1-GGUF",       allow_patterns=["*UD-IQ1_S*"],  # For the 1.58-bit version   )

3.GPU 卸载注意事项

根据可用的显存，通过如下方式确定需要卸载到 GPU 的层数：

n_offload = floor((GPU_VRAM_GB / Model_FileSize_GB) * (Total_Layers - 4))

4.运行推理

使用类似如下的命令来执行模型：

./build/bin/llama-cli \       --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \       --cache-type-k q4_0 \       --threads 16 \       --prio 2 \       --temp 0.6 \       --ctx-size 8192 \       --seed 3407 \       --n-gpu-layers 7 \       -no-cnv \       --prompt "<|User|>Create a Flappy Bird game in Python.<|Assistant|>"

我的体验

我想亲自尝试一下这种动态量化。为了测试该模型，我在 VastAI 上租用了一个 80GB 显存的 GPU，每小时仅需 2.7 美元。考虑到原始模型的庞大体积，我对量化版本的性能和效率非常满意。以下是我进行的一些示例测试：

Flappy Bird 游戏生成: 该模型成功生成了经典 Flappy Bird 游戏的 Python 实现。尽管存在一些由于激进量化而产生的小问题，但核心功能保持完好，代码在经过极少的修改后即可运行。
运动检测

常见问题与技术注意事项

分词细节：注意特殊 token（例如 <|User|>, <|Assistant|>, <|begin_of_sentence|>, <|end_of_sentence|>）。处理不当可能会导致重复的 BOS token 或错误的 EOS 掩码等问题。
参数敏感性：有时，动态量化可能会在较长的序列中生成一个孤立的不正确 token。通过调整推理参数（例如将 min_p 设置为 0.1 或 0.05）可以帮助缓解这些小偏差。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述