使用/部署deepseek可能的坑

deepseek踩坑

Joker-Full-stack

925人浏览 · 2025-02-08 00:57:18

Joker-Full-stack · 2025-02-08 00:57:18 发布

最近发现圈内关于deepseek很多坑，总结可能的坑让大家不要被割韭菜了。

1:ollama部署的不是纯血deepseek r1

最近很多博主都在教大家怎么几分钟本地部署deepseek r1，我心想一个671b的模型推理至少需要500g显存，按一张A100是80g（15w rmb）至少得要60w rmb，注意是至少，生产环境需要的显存只可能比这个多的多！！！。大部份消费者应该都是消费不起才对。
后来一看原来教的都是ollama直接拉取下来。但是大家仔细看下图ollama介绍的这句话。这句话翻译过来就是这个模型基于Llama 和Qwen 6个模型蒸馏出来的模型
在这里插入图片描述
这里其实ollama为了方便拉取缩减了命令
1.5b和7b，14b，32b是蒸馏的Qwen模型。8b和70b是蒸馏的Llama模型
所以完整的7b模型应该是ollama run DeepSeek-R1-Distill-Qwen-7B，被缩减成ollama run deepseek-r1后不注意容易被误导！
当然有朋友会问ollama上有个671b的模型总该是"完整版"的r1模型了吧

ollama run deepseek-r1:671b

很遗憾的告诉你并不是，而且还是量化后的。从下图可以看出架构是deepseek2，经过了4bit的量化（量化是为了降低运行的硬件要求，但是会牺牲一定的性能）在这里插入图片描述 正在的纯血r1只有huggingface上671B的模型
总结：所以如果你使用ollama部署的发现使用效果不好千万别说deepseek模型有问题，因为根本就不是一个东西。
顺带提一嘴。ollama上的deepseek r1的7b，14b的模型自己本地部署玩玩还行，生产环境还是得慎重，因为效果确实和官方的效果差距很大。

2:本地不需要高现存显卡也能跑671B

这个说法是真的吗？答案还真可以，你也不能说别人骗人。
技术上怎么实现的呢：就是用内存来跑，你可以将空余的硬盘来设置虚拟内存如下图，设置个500g或者1T。显存不够内存来凑，暴力出奇迹。实测是真可以的。
为什么说这个有坑呢？
1:跑真的是跑起来的，但是效果也就勉强能跑起来，一个的回复估计得半小时甚至1小时。我还不如直接用api，
2:这么大的模型，运行起来cpu和硬盘几乎都是直接占用100%，坏盘的概率只显示上升