专为新手设计的deepseek r1模型一键运行+微调镜像!
在与社区交流的过程中,我发现很多对DeepSeek感兴趣的用户并非该领域的专业研究人员,他们可能缺乏深入体验R1模型的技术基础。在对话界面中,我用红框标注的是模型的回答内容,蓝框标注的则是模型的思考过程内容。第2步:在出现的镜像列表里,找到并点击的那个"deepseek-ai/DeepSeek-R1/DeepSeek"镜像 (就是头像是那个红色的,id名字叫xxxiu的那个)数字6,也是最强R1模
近期的Deepseek可谓是风头无限。想必大家的朋友圈和视频推荐都被刷屏了。不管是不是模型圈子的,都被这个R1给惊讶了一把。同时也有很多人对Deepseek-R1 感到强烈的兴趣。
所以,为此我开发了一个一站式使用流程,让用户可以轻松实现模型推理和微调。在与社区交流的过程中,我发现很多对DeepSeek感兴趣的用户并非该领域的专业研究人员,他们可能缺乏深入体验R1模型的技术基础。同时,受限于本地设备的硬件配置,不少用户难以运行大规模参数模型,只能退而求其次使用小型号版本。
其次,目前的许多使用deepseek的教程都较为复杂,会有许多人感到困惑,从而出现失败、bug等等问题。
为了让更多用户能够深入体验和应用 DeepSeek 模型,包括进行模型微调,我特地制作了这个镜像版本。这不仅让大家能够100%发掘该系列模型的全部潜力,当然也不能否认是想蹭一下这个热度(笑)。接下来,就让我为大家打开这份特别准备的"礼物",带领大家开启这一轮AI的旅程。
首先,打开此链接:https://www.autodl.com/console/instance/list
这是autodl的官网链接,autodl是当前云上租卡可以说最便宜,综合性价比最好的一个云平台了。(虽然夸了他们,但他们是没有给我广告费的)
如果你是第一次用的话,会看见下面这样的界面。需要先注册一个账号
注册登录后,你会看见下面这样的界面(我这里机子有些多有些乱,无需在意)我们直接点击红色箭头的“租用新实例”
然后你会看见这样的界面。
这里有很多的显卡可以选择,考虑到价格和性能,建议用3090或者V100。因为只是测试用,所以我们选择便宜一点的3090。你跟我一样点击3090这个选项就行,系统会自动帮你选好对应的机器配置。
接下来我们鼠标往下滑到最底下,然后点击这个社区镜像
然后按照下方图片标注的数字顺序一步一步来操作:
第1步:先在搜索框里输入"deepseek",会出现一些社区镜像供选择
第2步:在出现的镜像列表里,找到并点击的那个"deepseek-ai/DeepSeek-R1/DeepSeek"镜像 (就是头像是那个红色的,id名字叫xxxiu的那个)
第三步:点击后会显示镜像版本选择,现在只有一个V1版本,直接选这个就行
第四步:最后点击右下角"立即创建"按钮就完成啦
我们稍微等待一会,等待机子慢慢创建好。
创建好了后,再点击这个JupyterLab
点击后即可来到镜像内部。恭喜你,现在离推理仅剩一步了。
我们点击这个终端,然后在终端里粘贴运行:
bash /root/deepseek/chuli/部署.sh
现在我们可以开始和模型对话测试了。这个是DeepSeek(深度思考)模型,它的特别之处在于不仅会给出回答,还会展示它的思考过程。在对话界面中,我用红框标注的是模型的回答内容,蓝框标注的则是模型的思考过程内容。
这是一个支持连续对话的系统,模型能够记住整个对话过程中的内容,并且每次回答都会展示它的思考推理过程。
这个DeepSeek模型是7B规格,在一张3090显卡上就能流畅运行。如果你想尝试更大参数的R1系列模型,也完全可以 - 我提供了一键下载指令,让你轻松部署其他型号。
点击这里的小加号,按步骤再开启一个终端
在新的终端窗口中,输入以下命令:
python /root/deepseek/chuli/模型贩卖机.py
运行后,你会看到一个模型列表,包含了所有R1系列的型号。其中第6个是DeepSeek目前最火的完整版R1模型,也就是他们官网正在使用的版本。
你可以根据自己机器的配置情况,选择合适的模型下载。只需输入对应的数字序号即可开始下载。
这里我给一下参考标准:
数字1、2的模型属于3090显卡无压力推理+微调的模型
数字3模型需要一台A40显卡(至少40G显存) 推理+微调
数字4模型需要一台A800显卡(至少80G显存) 推理+微调
数字5模型需要两台A800显卡 (至少160G显存)推理+微调
数字6,也是最强R1模型 有一说一听别人说运行是是按照moe激活来推理的,反而不需要很大的显存,不过我也没有测试过。所以我也不是很清楚。
大家按照需求来下载。
因为我们刚刚创建的显卡是3090 所以就只能选择1、2两个模型,这里我就选择2,也就是8B参数大小的。
可以发现模型立马就开始下载了。之后只需要静静等待下载完成就行了。
下载完成后会输出下载后的模型路径。我们复制这段模型路径
接着打开左边的这个inference文件夹,里面有一个“推理代码.py”文件
我们打开此代码,把红框标注的地方替换为我们下载好的模型路径。
这里替换掉:
记得保存。
然后再去终端运行指令:bash /root/deepseek/chuli/部署.sh
这个时候我们现在的模型就是8B参数的模型了!以此类推,其余的模型都是这样的操作方式。
这里就是全部的推理步骤了。不仅让你能用API在云端启动模型,让所有人都能远程调用,以及微调所有深度思考模型。
微调和API部分,我在镜像里面写了详细的教程,你可以根据教程操作。
最后你的点赞收藏会让我更有动力,从而发布更优质的deepseek更新。
下面展示一下我微调的r1模型,用来大概300KB的文本量,lora微调32B参数版本的模型效果:
两者都是同样3连问:1.哈喽啊 2.我好累 3.你可以撒个娇吗?
首先是没有经过微调的模型回复:
接着是微调后的模型回复:
在300kb的文本量下就能改变这么大的风格,证实了微调效果可嘉。
更多推荐
所有评论(0)