满血版DeepSeek R1 671B本地部署完成,可以快乐的玩耍了
在前面一周通过深度使用DeepSeek之后,简直被其的能力所震撼,在之前所有的AI大模型问答系统中,都是用户给定一个提示词问题,然后AI回复问题,而DeepSeek令我感觉很Nice点在于它可以进行思维链模式的深度思考问题,并把这个问题的思考表达过程展示出来,其实,不知道大家有没有想过一个问题,有时候问题答案已经不重要了,大模型的深度思考本身的内容就值得我们进行学习,我觉得这个是非常能够提升人思考
在前面一周通过深度使用DeepSeek之后,简直被其的能力所震撼,在之前所有的AI大模型问答系统中,都是用户给定一个提示词问题,然后AI回复问题,而DeepSeek令我感觉很Nice点在于它可以进行思维链模式的深度思考问题,并把这个问题的思考表达过程展示出来,其实,不知道大家有没有想过一个问题,有时候问题答案已经不重要了,大模型的深度思考本身的内容就值得我们进行学习,我觉得这个是非常能够提升人思考水平和表达能力的一个功能。
无奈在于,由于DeepSeek太过于火热,或者是其他因素,导致官网的地址在问答中经常出现服务器繁忙的情况,非常影响的使用体感,而现在再让我使用其他的模型,还有些不太习惯。

不过我们可以选择自己搭建一套本地的DeepSeek模型,或者选择一些云厂商进行开通部署,对于一个技术人来说毫无疑问,当然是自己搞起了。
关于DeepSeek模型的本地部署网上有很多文章,但是纯部署要考虑硬件环境配置、大模型大小选择、参数量等等,虽然说DeepSeek即便是在本地笔记本普通配置规格也可以运行起来,但是只能选择最小参数的7B模型,它是一个基于QWEN2的蒸馏版本,效果其实比正式的版本要大大的打折扣。
原生态的DeepSeek R1 671B模型的大小是720GB,所占用的内存空间非常大,即便是 H100 * 8 GPU运行起来也会比较麻烦,这里我们可以选择量化版本,所谓量化版本就是选择性的将比较重的层级量化为更高的位置,对于核心的大部分MoE层依然是放在比较低的位,这样来说,模型的大小会大大的缩小,但是使用效果基本没什么大的差别(通过测试不执行超复杂的问题,简单的问答、程序、数学类的与官方问答基本一致,但速度上会慢一些。)。
在这里我们可以选择 Unsloth AI 的动态量化版本,具体可以参阅:deepseekr1-dynamic
DeepSeek-R1-UD-IQ1_M(671B,动态量化 1.73 位,158 GB,HuggingFace)
DeepSeek-R1-Q4_K_M (671B, 4 位标准, 404 GB, HuggingFace)

我所选择的是DeepSeek-R1-UD-IQ1_M 1.73-bit,模型建议以下内存需求:
-
DeepSeek-R1-UD-IQ1_M: RAM + VRAM ≥ 200 GB -
DeepSeek-R1-Q4_K_M: RAM + VRAM ≥ 500 GB
Ollama支持CPU和GPU混合推理,因此可以将RAM和VRAM大致相加作为总内存空间。除了模型权重(158 GB和404 GB)外,还应该为上下文缓存留出一些内存空间。留出的空间越多,可以设置的上下文窗口就越大。
在我的服务器配置是V100 * 8 ,单卡32G内存
第一:从 HuggingFace 下载模型文件 (.gguf),然后将分离的文件合并为一个
合并的命令为:
llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_M.gguf
如果想下载整个模型,而不是四个再合并,可以选择七牛云的地址进行下载,如下:
wget https://algorithm.qnaigc.com/DeepSeek/DeepSeek-R1-UD-IQ1_M.gguf

第二:安装ollama
可以选择在线安装,或者离线安装
在线安装:
- curl -fsSL https://ollama.com/install.sh | sh
离线安装(我这里默认选择GPU安装方式,其他方式参考:https://github.com/ollama/ollama/blob/main/docs/linux.md):
curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgzsudo tar -C /usr -xzf ollama-linux-amd64-rocm.tgzsudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollamasudo usermod -a -G ollama $(whoami)
创建 /etc/systemd/system/ollama.service:
还要检查是否安装CUDA驱动,如果没有的话,则需要安装CUDA驱动 ,参考:https://rocm.docs.amd.com/projects/install-on-linux/en/latest/tutorial/quick-start.html
nvidia-smi
curl -L https://ollama.com/download/ollama-linux-amd64-rocm.tgz -o ollama-linux-amd64-rocm.tgz
sudo tar -C /usr -xzf ollama-linux-amd64-rocm.tgz
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)
第三:创建Modelfile描述文件
注意:MODEL_PATH 要替换为自己的模型路径。
cat < DeepSeekQ1_Modelfile
FROM {MODEL_PATH}/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"
EOF
创建 ollama 模型,ollama会创建一个新模型,且大小与原始模型一样,如果/usr/路径下空间不足的话(剩余空间要大于模型的大小),可以修改ollama的模型存放路径
vim /etc/systemd/system/ollama.service
Environment="OLLAMA_MODELS=/data/disk0/ollama/model"
配置完成后需要重启ollama
sudo systemctl daemon-reload
sudo systemctl restart ollama
第四:开始使用Ollama创建模型
/usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
root@localhost:~# ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile
gathering model components
copying file sha256:8d0774696673bc32468922d072a7658fd4883ec77f5035329f0626dad6df0340 100%
parsing GGUF
PS:这里时间会有一点长,主要是要将DeepSeek模型拷贝到Ollama的模型路径下,然后进行初始化加载。
第五:开始运行模型
ollama run DeepSeek-R1-UD-IQ1_M --verbose
到这里,DeepSeek R1 的模型已经运行起来了,我们可以直接在ollama的shell命令中进行交互,也可以通过API方式,也可以安装webui的服务通过本地电脑方式来访问。
ollama直接访问:
root@localhost:~# ollama run DeepSeek-R1-UD-IQ1_M --verbose
>>> Hi ,你是谁
<think>
</think>
您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何任何疑问,均可告知与我,我会尽我所能帮助您解决问题。
total duration: 13.531921632s
load duration: 16.400048ms
prompt eval count: 6 token(s)
prompt eval duration: 1.279s
prompt eval rate: 4.69 tokens/s
eval count: 46 token(s)
eval duration: 12.234s
eval rate: 3.76 tokens/s
通过API来进行访问
curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "Hi ,你是谁"}'
这里我通过本地电脑安装了一个chatboxai ,安装完成之后,在配置中指定ollama的API地址和端口,端口号默认是11434 (如果是远端地址,记得防火墙放开)。
然后,选择DeepSeek-R1-UD-UQ1_M 模型即可。

来看一下最后的实测效果:

但是,从实际的使用效果上来看,对于比较“刁钻”的逻辑思考问题,量化版本还是比R1的全量版本要差一些意思。
后续可以尝试在分布式环境中部署模型来看看效果。

如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

更多推荐


所有评论(0)