满血版DeepSeek R1 671B本地部署完成，可以快乐的玩耍了

在前面一周通过深度使用DeepSeek之后，简直被其的能力所震撼，在之前所有的AI大模型问答系统中，都是用户给定一个提示词问题，然后AI回复问题，而DeepSeek令我感觉很Nice点在于它可以进行思维链模式的深度思考问题，并把这个问题的思考表达过程展示出来，其实，不知道大家有没有想过一个问题，有时候问题答案已经不重要了，大模型的深度思考本身的内容就值得我们进行学习，我觉得这个是非常能够提升人思考

AGI大模型老王

2273人浏览 · 2025-02-12 11:39:54

AGI大模型老王 · 2025-02-12 11:39:54 发布

无奈在于，由于DeepSeek太过于火热，或者是其他因素，导致官网的地址在问答中经常出现服务器繁忙的情况，非常影响的使用体感，而现在再让我使用其他的模型，还有些不太习惯。

不过我们可以选择自己搭建一套本地的DeepSeek模型，或者选择一些云厂商进行开通部署，对于一个技术人来说毫无疑问，当然是自己搞起了。

关于DeepSeek模型的本地部署网上有很多文章，但是纯部署要考虑硬件环境配置、大模型大小选择、参数量等等，虽然说DeepSeek即便是在本地笔记本普通配置规格也可以运行起来，但是只能选择最小参数的7B模型，它是一个基于QWEN2的蒸馏版本，效果其实比正式的版本要大大的打折扣。

原生态的DeepSeek R1 671B模型的大小是720GB，所占用的内存空间非常大，即便是 H100 * 8 GPU运行起来也会比较麻烦，这里我们可以选择量化版本，所谓量化版本就是选择性的将比较重的层级量化为更高的位置，对于核心的大部分MoE层依然是放在比较低的位，这样来说，模型的大小会大大的缩小，但是使用效果基本没什么大的差别（通过测试不执行超复杂的问题，简单的问答、程序、数学类的与官方问答基本一致，但速度上会慢一些。）。

在这里我们可以选择 Unsloth AI 的动态量化版本,具体可以参阅：deepseekr1-dynamic

DeepSeek-R1-UD-IQ1_M（671B，动态量化 1.73 位，158 GB，HuggingFace）

DeepSeek-R1-Q4_K_M （671B， 4 位标准， 404 GB， HuggingFace）

我所选择的是DeepSeek-R1-UD-IQ1_M 1.73-bit，模型建议以下内存需求：

DeepSeek-R1-UD-IQ1_M: RAM + VRAM ≥ 200 GB
DeepSeek-R1-Q4_K_M: RAM + VRAM ≥ 500 GB

Ollama支持CPU和GPU混合推理，因此可以将RAM和VRAM大致相加作为总内存空间。除了模型权重（158 GB和404 GB）外，还应该为上下文缓存留出一些内存空间。留出的空间越多，可以设置的上下文窗口就越大。

在我的服务器配置是V100 * 8 ，单卡32G内存

第一：从 HuggingFace 下载模型文件（.gguf），然后将分离的文件合并为一个

合并的命令为：

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_M.gguf

如果想下载整个模型，而不是四个再合并，可以选择七牛云的地址进行下载，如下：

wget https://algorithm.qnaigc.com/DeepSeek/DeepSeek-R1-UD-IQ1_M.gguf

第二：安装ollama

可以选择在线安装，或者离线安装

在线安装：

curl -fsSL https://ollama.com/install.sh | sh

离线安装（我这里默认选择GPU安装方式，其他方式参考：https://github.com/ollama/ollama/blob/main/docs/linux.md）：

curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgzsudo tar -C /usr -xzf ollama-linux-amd64-rocm.tgzsudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollamasudo usermod -a -G ollama $(whoami)

创建 /etc/systemd/system/ollama.service:

还要检查是否安装CUDA驱动，如果没有的话，则需要安装CUDA驱动，参考：https://rocm.docs.amd.com/projects/install-on-linux/en/latest/tutorial/quick-start.html

nvidia-smi

curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64-rocm.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

第三：创建Modelfile描述文件

注意：MODEL_PATH 要替换为自己的模型路径。

cat < DeepSeekQ1_Modelfile  
FROM {MODEL_PATH}/DeepSeek-R1-UD-IQ1_M.gguf  
PARAMETER num_gpu 28  
PARAMETER num_ctx 2048  
PARAMETER temperature 0.6  
TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>"  
EOF

创建 ollama 模型，ollama会创建一个新模型，且大小与原始模型一样，如果/usr/路径下空间不足的话（剩余空间要大于模型的大小），可以修改ollama的模型存放路径

vim /etc/systemd/system/ollama.service  
  
Environment="OLLAMA_MODELS=/data/disk0/ollama/model"

配置完成后需要重启ollama

sudo systemctl daemon-reload  
  
sudo systemctl restart ollama

第四：开始使用Ollama创建模型

/usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile  
  
root@localhost:~# ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile  
gathering model components  
copying file sha256:8d0774696673bc32468922d072a7658fd4883ec77f5035329f0626dad6df0340 100%  
parsing GGUF

PS：这里时间会有一点长，主要是要将DeepSeek模型拷贝到Ollama的模型路径下，然后进行初始化加载。

第五：开始运行模型

ollama run DeepSeek-R1-UD-IQ1_M --verbose

到这里，DeepSeek R1 的模型已经运行起来了，我们可以直接在ollama的shell命令中进行交互，也可以通过API方式，也可以安装webui的服务通过本地电脑方式来访问。

ollama直接访问：

root@localhost:~# ollama run DeepSeek-R1-UD-IQ1_M --verbose  
>>> Hi ,你是谁  
<think>  
  
</think>  
  
您好！我是由中国的深度求索（DeepSeek）公司开发的智能助手DeepSeek-R1。如您有任何任何疑问，均可告知与我，我会尽我所能帮助您解决问题。  
  
total duration: 13.531921632s  
load duration: 16.400048ms  
prompt eval count:    6 token(s)  
prompt eval duration: 1.279s  
prompt eval rate: 4.69 tokens/s  
eval count:           46 token(s)  
eval duration: 12.234s  
eval rate: 3.76 tokens/s

通过API来进行访问

curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "Hi ,你是谁"}'

这里我通过本地电脑安装了一个chatboxai ，安装完成之后，在配置中指定ollama的API地址和端口，端口号默认是11434 （如果是远端地址，记得防火墙放开）。

然后，选择DeepSeek-R1-UD-UQ1_M 模型即可。

来看一下最后的实测效果：

但是，从实际的使用效果上来看，对于比较“刁钻”的逻辑思考问题，量化版本还是比R1的全量版本要差一些意思。

后续可以尝试在分布式环境中部署模型来看看效果。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述