
基于eFish-SBC-RK3576工控板部署测试deepseek模型
Ollama 是一个开源的大模型服务工具,可以支持最新的deepseek模型,以及Llama 3,Phi 3,Mistral,Gemma 和其他多种模型,在安装Ollama工具之后,使用以下命令即可一键部署70亿参数的deepseek-r1模型,运行之后如下图所示:接下来就可以向该模型进行提问了,如下图所示:使用该方法进行模型调用的时候,全程使用的CPU,NPU没有被调用。如果要将RK3576的N
最近,AI界新星DeepSeek(中文名:深度求索)迅速崛起,凭借低成本、高性能的AI模型火爆全网。其核心是一个强大的语言模型,能够理解自然语言并生成高质量文本,此外DeepSeek免费向全球开发者开放,加速了AI技术普及。
前几天试了试我们公司的RK3576单板,发现完全可以跑起来7B,理论上14B也可以,但是还没测试,等我后续文章吧。搞AI的可以试试这款板子,国产的,性能够,关键是便宜呀,比3588便宜将近一半呀。
eFish-SBC-RK3576工控板优势:
多核 CPU 架构,兼顾性能与能效、独立 NPU,6 TOPS AI 算力突出、高集成度与低功耗设计
在eFish-SBC-RK3576工控板上部署Deepseek有两种方法,分别是使用Ollama工具部署和使用瑞芯微官方的 RKLLM量化部署。
下面分别对这两种部署方式进行介绍。
01-使用Ollama工具部署
Ollama 是一个开源的大模型服务工具,可以支持最新的deepseek模型,以及Llama 3,Phi 3,Mistral,Gemma 和其他多种模型,在安装Ollama工具之后,使用以下命令即可一键部署70亿参数的deepseek-r1模型,运行之后如下图所示:
ollama run deepseek-r1:7b
接下来就可以向该模型进行提问了,如下图所示:
使用该方法进行模型调用的时候,全程使用的CPU,NPU没有被调用。如果要将RK3576的NPU利用起来,就要用RKLLM的方法进行部署了。
02-RKLLM量化部署
1.模型转换:支持部分格式的大语言模型转换为RKLLM 模型转换后的 RKLLM 模型能够在 Rockchip NPU 平台上加载使用
2.量化功能:支持将浮点模型量化为定点模型
DeepSeek(1.5B)转换完成的RKLLM模型如下图所示:
然后将其传输到开发板上,使用对应的可执行文件运行即可,运行之后如下图所示:
接下来向该模型提出问题即可,回复内容如下所示:
在回复的过程中查看CPU和NPU的利用率,可以看到CPU的占用率已经降了下来,并且调用了NPU的2个核心进行加速推理:
至此,关于DeepSeek在RK3576上的部署推理就测试完成了。
任务说明:多任务并发——运行问答+摘要生成
- 资源占用:NPU 48% / 内存3.7GB / 温度65℃
- 响应延迟波动:±17%
任务说明:长文本处理——输入4096 tokens法律文档
- 显存管理:通过mmap实现分块加载,避免OOM
在eFish-SBC-RK3576工控板上,通过RKLLM量化部署,可运行7b大小的模型;这里使用的运行内存为8GB。使用NPU时,需要将NVMe硬盘中16GB空间分配为SWAP空间,才能进行7b模型的正常加载。进行RKLLM量化部署时,推荐使用PC机进行模型转换,进行转换时,PC机在转换7b以下大小模型时,最好运行内存在16G以及以上;另外推荐在使用NPU推理时,最好使用不大于1.5b的模型,在运行较大模型时,速度较慢(输出速度大概为1秒1字)。
横向对比
对比项 | eFish-RK3576+DeepSeek7b | 树莓派5+Llama 2-7b | Jetson Orin+DeepSeek |
单次推理功耗 | 3.7W | 7.8W | 12.3W |
tokens/¥能耗比 | 403 | 196 | 315 |
典型适用场景 | 企业级端侧边缘网关 | 验证/轻量级实验 | 高性能个人数字助理 |
更多推荐
所有评论(0)