帮你省20块！仅需2条命令即可通过Ollama本地部署DeepSeek-R1模型

该说不说，DeepSeek还是挺好用的。虽然我们上次吐槽了一下人工智能模型的数学能力有待提高（一个小游戏里的数学问题，难倒了所有的人工智能：ChatGPT、DeepSeek、豆包、通义千问、文心一言），但经过我不懈努力，最终还是让DeepSeek把这道题答上来了。在他的回答里面，每行14种排列是正确的，但是在下面的结论处就飘了，成了64种。不过好在给出的代码还行，运行结果和通义千问、豆包的结果一致

Danileaf_Guo

1014人浏览 · 2025-02-08 07:36:23

Danileaf_Guo · 2025-02-08 07:36:23 发布

该说不说，DeepSeek还是挺好用的。虽然我们上次吐槽了一下人工智能模型的数学能力有待提高（一个小游戏里的数学问题，难倒了所有的人工智能：ChatGPT、DeepSeek、豆包、通义千问、文心一言），但经过我不懈努力，最终还是让DeepSeek把这道题答上来了。

在他的回答里面，每行14种排列是正确的，但是在下面的结论处就飘了，成了64种。

不过好在给出的代码还行，运行结果和通义千问、豆包的结果一致，都是11222种，所以这个答案貌似问题不大。

回答还是很不错的，就是用户太多，导致经常出现“服务器繁忙，请稍后再试”。我想问问他怎么本地化部署DeepSeek，他都只能回答一半。

既然正规流程搞不清楚，那就先用Ollama搞一个最简化的部署方案吧，还能帮你省去找人协助部署的20块钱。

首先，我们先安装好GPU的驱动程序和CUDA（成了！Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11）。

然后去Ollama官网，下载Ollama的安装包。

https://ollama.com/download

安装就比较简单了，只不过默认安装路径是在C盘的用户文件夹下面，如果要修改安装路径，需要通过命令行修改安装路径。

安装完成之后，没有任何图标或前端页面展示Ollama配置，建议通过管理员权限的PowerShell进行操作。

还是在Ollama官网，我们搜索DeepSeek。

按照受欢迎程度排名，这里出现的第一个就是deepseek-r1就是支持深度思考的R1模型，按照DeepSeek的自述：DeepSeek-R1采用了先进的深度学习架构，包括 transformer模型（如BPE）等，能够处理复杂的文本和语音数据；支持多种语言的自然对话生成和理解，使得用户可以在不同语言环境中使用智能助手；R1在推理模型方面进行了优化，能够在更短的时间内生成高质量的回答。

在模型详情页种，我们可以选择不同的参数规模，其中默认规格是7B，后面对应的4.7GB指的是模型的文件大小。

我们首先试一下1.5B版本，安装命令如下：

ollama run deepseek-r1:1.5b

安装完成后，直接进入到对话界面。

这里的就代表深度思考，对应网页版的深度思考过程。

当运行deepseek-r1:1.5b版本时，GPU的显存占用约为1.8 GB左右，应该能覆盖市面上的大部分低端显卡型号了。

如果要退出对话页面，可以按Ctrl+D组合键或者输入/bye。

当然，退出对话界面并不能释放显存占用，因为ollama服务端还在后台继续运行着，我们可以执行以下命令停止运行模型。

ollama stop deepseek-r1:1.5b

按照DeepSeek-R1:14B版本的回答，不同参数规模版本所需的GPU显存大致如下：

1.5B：约需6-8GB GPU显存。适用于较小的任务或推理阶段。

7B和8B：需要约24-32GB显存，适合中等规模的训练任务。

14B：大约为40-56GB显存，适合较大的训练需求。

32B：可能需要至少64GB或更高显存，适用于大规模模型训练。

70B：估计需约128GB显存，用于非常大的模型。

671B：需要超过400GB显存，适合顶级计算任务。

以上估算基于参数数量、梯度存储和优化器状态的总需求，并假设使用32位浮点数。混合精度训练（如使用16位）可以减少显存占用。实际需求可能因模型架构和其他因素而异，建议查阅具体资料或实验确定。

而实际上，如果我们运行7B版本，显存占用约为5.5 GB，

运行14B版本，显存占用约为10.7 GB。

经过简单折算，大约每1B参数占用800 MB显存，比正常使用单精度浮点数/32位浮点数运行时的显存占用（4GB/B）要低的多（GPU性能测试中的张量和矩阵运算）。常用的训练方法一般包括FP32/单精度浮点、FP16/半精度浮点、INT8/ 8位整数和INT4/4位整数，不同训练方法的显存占用情况如下：

FP32：每个参数占用4字节，显存需求较高。

FP16：每个参数占用2字节，减少了50%的显存占用。

INT8：每个参数占用1字节，进一步减少到FP32的四分之一。

INT4：每个参数占用仅0.5字节（假设为4位整数），显存需求最低。

在精度和稳定性方面，FP32提供最高的数值精度，适合需要高精度计算的任务，如科学研究和复杂模型训练；FP16降低了精度，但在大多数深度学习任务中仍能保持良好的表现，尤其在有足够数据量支持的情况下；INT8和INT4的精度更低，适用于特定场景或经过量化处理后的轻量级应用。

在计算效率方面，FP32需要更多的计算资源，适合高端GPU和高算力环境；FP16利用硬件加速（如NVIDIA Tensor Core）实现高效的矩阵运算，提升计算速度；INT8和INT4通过减少数据规模提升了处理速度，尤其适用于边缘设备或低功耗需求。

在模型那里，有一个备注quantization Q4_K_M，所以Ollama此处使用的模型应该是以4位整数（INT4）的混合训练精度运行的。

按照这个算法，32B版本大约需要24 GB显存，70B大约需要56 GB显存，至于最高端的671B，估计需要540 GB显存，目前最大显存容量的GPU应该还是H800，为80 GB，需要至少7张才能运行，实际可能需要至少8张。

以腾讯云为例，目前能直接订购的最高服务器规格为8张V100，显存容量为8*32=256 GB，单价来到了恐怖的158.14元/小时。

作为个人用户来讲，貌似7B、8B这两个版本就挺不错了，你觉得呢？

一个小游戏里的数学问题，难倒了所有的人工智能：ChatGPT、DeepSeek、豆包、通义千问、文心一言

目前来看，通义千问好像勉强能喝ChatGPT-3.5打个平手！