帮你省20块!仅需2条命令即可通过Ollama本地部署DeepSeek-R1模型
该说不说,DeepSeek还是挺好用的。虽然我们上次吐槽了一下人工智能模型的数学能力有待提高(一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言),但经过我不懈努力,最终还是让DeepSeek把这道题答上来了。在他的回答里面,每行14种排列是正确的,但是在下面的结论处就飘了,成了64种。不过好在给出的代码还行,运行结果和通义千问、豆包的结果一致
该说不说,DeepSeek还是挺好用的。虽然我们上次吐槽了一下人工智能模型的数学能力有待提高(一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言),但经过我不懈努力,最终还是让DeepSeek把这道题答上来了。
在他的回答里面,每行14种排列是正确的,但是在下面的结论处就飘了,成了64种。
不过好在给出的代码还行,运行结果和通义千问、豆包的结果一致,都是11222种,所以这个答案貌似问题不大。
回答还是很不错的,就是用户太多,导致经常出现“服务器繁忙,请稍后再试”。我想问问他怎么本地化部署DeepSeek,他都只能回答一半。
既然正规流程搞不清楚,那就先用Ollama搞一个最简化的部署方案吧,还能帮你省去找人协助部署的20块钱。
首先,我们先安装好GPU的驱动程序和CUDA(成了!Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11)。
然后去Ollama官网,下载Ollama的安装包。
https://ollama.com/download
安装就比较简单了,只不过默认安装路径是在C盘的用户文件夹下面,如果要修改安装路径,需要通过命令行修改安装路径。
安装完成之后,没有任何图标或前端页面展示Ollama配置,建议通过管理员权限的PowerShell进行操作。
还是在Ollama官网,我们搜索DeepSeek。
按照受欢迎程度排名,这里出现的第一个就是deepseek-r1就是支持深度思考的R1模型,按照DeepSeek的自述:DeepSeek-R1采用了先进的深度学习架构,包括 transformer模型(如BPE)等,能够处理复杂的文本和语音数据;支持多种语言的自然对话生成和理解,使得用户可以在不同语言环境中使用智能助手;R1在推理模型方面进行了优化,能够在更短的时间内生成高质量的回答。
在模型详情页种,我们可以选择不同的参数规模,其中默认规格是7B,后面对应的4.7GB指的是模型的文件大小。
我们首先试一下1.5B版本,安装命令如下:
ollama run deepseek-r1:1.5b
安装完成后,直接进入到对话界面。
这里的就代表深度思考,对应网页版的深度思考过程。
当运行deepseek-r1:1.5b版本时,GPU的显存占用约为1.8 GB左右,应该能覆盖市面上的大部分低端显卡型号了。
如果要退出对话页面,可以按Ctrl+D组合键或者输入/bye。
当然,退出对话界面并不能释放显存占用,因为ollama服务端还在后台继续运行着,我们可以执行以下命令停止运行模型。
ollama stop deepseek-r1:1.5b
按照DeepSeek-R1:14B版本的回答,不同参数规模版本所需的GPU显存大致如下:
1.5B:约需6-8GB GPU显存。适用于较小的任务或推理阶段。
7B和8B:需要约24-32GB显存,适合中等规模的训练任务。
14B:大约为40-56GB显存,适合较大的训练需求。
32B:可能需要至少64GB或更高显存,适用于大规模模型训练。
70B:估计需约128GB显存,用于非常大的模型。
671B:需要超过400GB显存,适合顶级计算任务。
以上估算基于参数数量、梯度存储和优化器状态的总需求,并假设使用32位浮点数。混合精度训练(如使用16位)可以减少显存占用。实际需求可能因模型架构和其他因素而异,建议查阅具体资料或实验确定。
而实际上,如果我们运行7B版本,显存占用约为5.5 GB,
运行14B版本,显存占用约为10.7 GB。
经过简单折算,大约每1B参数占用800 MB显存,比正常使用单精度浮点数/32位浮点数运行时的显存占用(4GB/B)要低的多(GPU性能测试中的张量和矩阵运算)。常用的训练方法一般包括FP32/单精度浮点、FP16/半精度浮点、INT8/ 8位整数和INT4/4位整数,不同训练方法的显存占用情况如下:
FP32:每个参数占用4字节,显存需求较高。
FP16:每个参数占用2字节,减少了50%的显存占用。
INT8:每个参数占用1字节,进一步减少到FP32的四分之一。
INT4:每个参数占用仅0.5字节(假设为4位整数),显存需求最低。
在精度和稳定性方面,FP32提供最高的数值精度,适合需要高精度计算的任务,如科学研究和复杂模型训练;FP16降低了精度,但在大多数深度学习任务中仍能保持良好的表现,尤其在有足够数据量支持的情况下;INT8和INT4的精度更低,适用于特定场景或经过量化处理后的轻量级应用。
在计算效率方面,FP32需要更多的计算资源,适合高端GPU和高算力环境;FP16利用硬件加速(如NVIDIA Tensor Core)实现高效的矩阵运算,提升计算速度;INT8和INT4通过减少数据规模提升了处理速度,尤其适用于边缘设备或低功耗需求。
在模型那里,有一个备注quantization Q4_K_M,所以Ollama此处使用的模型应该是以4位整数(INT4)的混合训练精度运行的。
按照这个算法,32B版本大约需要24 GB显存,70B大约需要56 GB显存,至于最高端的671B,估计需要540 GB显存,目前最大显存容量的GPU应该还是H800,为80 GB,需要至少7张才能运行,实际可能需要至少8张。
以腾讯云为例,目前能直接订购的最高服务器规格为8张V100,显存容量为8*32=256 GB,单价来到了恐怖的158.14元/小时。
作为个人用户来讲,貌似7B、8B这两个版本就挺不错了,你觉得呢?
***推荐阅读***
成了!Tesla M4+Windows 10 + Anaconda + CUDA 11.8 + cuDNN + Python 3.11
一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言
目前来看,通义千问好像勉强能喝ChatGPT-3.5打个平手!
同一个问题,Gemini、ChatGPT、Copilot、通义千问和文心一言会怎么答?
Ubuntu使用Tesla P4配置Anaconda+CUDA+PyTorch
Zabbix实战第一步:完成在Ubuntu Server的安装部署
没有图形界面,如何快速部署一个Ubuntu 24.10的Server虚拟机
清华大模型ChatGLM3在本地Tesla P40上也运行起来了
更多推荐
所有评论(0)