基于eFish-SBC-RK3576工控板部署测试deepseek模型

Ollama 是一个开源的大模型服务工具，可以支持最新的deepseek模型，以及Llama 3，Phi 3，Mistral，Gemma 和其他多种模型，在安装Ollama工具之后，使用以下命令即可一键部署70亿参数的deepseek-r1模型，运行之后如下图所示：接下来就可以向该模型进行提问了，如下图所示：使用该方法进行模型调用的时候，全程使用的CPU，NPU没有被调用。如果要将RK3576的N

电鱼智能的电小鱼

667人浏览 · 2025-03-12 15:25:42

电鱼智能的电小鱼 · 2025-03-12 15:25:42 发布

最近，AI界新星DeepSeek（中文名：深度求索）迅速崛起，凭借低成本、高性能的AI模型火爆全网。其核心是一个强大的语言模型，能够理解自然语言并生成高质量文本，此外DeepSeek免费向全球开发者开放，加速了AI技术普及。

前几天试了试我们公司的RK3576单板，发现完全可以跑起来7B，理论上14B也可以，但是还没测试，等我后续文章吧。搞AI的可以试试这款板子，国产的，性能够，关键是便宜呀，比3588便宜将近一半呀。

eFish-SBC-RK3576工控板优势：

多核 CPU 架构，兼顾性能与能效、独立 NPU，6 TOPS AI 算力突出、高集成度与低功耗设计

在eFish-SBC-RK3576工控板上部署Deepseek有两种方法,分别是使用Ollama工具部署和使用瑞芯微官方的 RKLLM量化部署。

下面分别对这两种部署方式进行介绍。

01-使用Ollama工具部署

Ollama 是一个开源的大模型服务工具，可以支持最新的deepseek模型，以及Llama 3，Phi 3，Mistral，Gemma 和其他多种模型，在安装Ollama工具之后，使用以下命令即可一键部署70亿参数的deepseek-r1模型，运行之后如下图所示：

ollama run deepseek-r1:7b

接下来就可以向该模型进行提问了，如下图所示：

使用该方法进行模型调用的时候，全程使用的CPU，NPU没有被调用。如果要将RK3576的NPU利用起来，就要用RKLLM的方法进行部署了。

02-RKLLM量化部署

1.模型转换：支持部分格式的大语言模型转换为RKLLM 模型转换后的 RKLLM 模型能够在 Rockchip NPU 平台上加载使用

2.量化功能：支持将浮点模型量化为定点模型

DeepSeek（1.5B）转换完成的RKLLM模型如下图所示：

然后将其传输到开发板上，使用对应的可执行文件运行即可，运行之后如下图所示：

接下来向该模型提出问题即可，回复内容如下所示：

在回复的过程中查看CPU和NPU的利用率，可以看到CPU的占用率已经降了下来，并且调用了NPU的2个核心进行加速推理：

至此，关于DeepSeek在RK3576上的部署推理就测试完成了。

任务说明：多任务并发——运行问答+摘要生成

- 资源占用：NPU 48% / 内存3.7GB / 温度65℃

- 响应延迟波动：±17%

任务说明：长文本处理——输入4096 tokens法律文档

- 显存管理：通过mmap实现分块加载，避免OOM

在eFish-SBC-RK3576工控板上，通过RKLLM量化部署，可运行7b大小的模型；这里使用的运行内存为8GB。使用NPU时，需要将NVMe硬盘中16GB空间分配为SWAP空间，才能进行7b模型的正常加载。进行RKLLM量化部署时，推荐使用PC机进行模型转换，进行转换时，PC机在转换7b以下大小模型时，最好运行内存在16G以及以上；另外推荐在使用NPU推理时，最好使用不大于1.5b的模型，在运行较大模型时，速度较慢（输出速度大概为1秒1字）。

横向对比

对比项	eFish-RK3576+DeepSeek7b	树莓派5+Llama 2-7b	Jetson Orin+DeepSeek
单次推理功耗	3.7W	7.8W	12.3W
tokens/￥能耗比	403	196	315
典型适用场景	企业级端侧边缘网关	验证/轻量级实验	高性能个人数字助理