只需三步，在几百块的香橙派 5 上跑 Deepseek R1

8GB 版本也可以跑一些小模型: 比如 Llama 3.2, Phi3, Qwen 1.5B 等，回答速度杠杠的。我下载了最右上角的模型，点击进入 HuggingFace 页面，下载模型文件 📂。Deepseek-8B 8bit 量化版 (8GB, 5Max)虽然算力更高 (8-20 TOPs)，但发热严重，希望华为。Llama-7B 4bit 量化版 (4GB, 5Plus)Llama-7B

斯多葛的信徒

2781人浏览 · 2025-02-07 19:07:15

斯多葛的信徒 · 2025-02-07 19:07:15 发布

内容预告

这期带你一步步在香橙派 5 Max 上跑 Deepseek R1。结论先行: 香橙派 5 (RK3588) 采用不同计算单元推理速度: NPU >> CPU > GPU
Deepseek-8B 8bit 量化版 (8.6GB) 推理速度在 2.8 tokens / 秒。
其他小模型，比如 Llama 3.2, Phi 3, Qwen 1.5B 推理速度会更快。

所有文件项目 下载链接在文末 (国内 ICloud 直链下载, 看我的 ICloud 容量限制，后期会删除。也可自行🪜外网下载)。

💡 下期预告：如何像 OpenAI 一样用聊天界面在 RK3588 上跟 LLM 聊天？不想错过的朋友欢迎关注公众号！

RK3588 的 AI 推理速度

关于要为 树莓派 4 或者 5 证明的朋友，先来看下面这张 CPU Benchmark 对比图：

亮绿色是 树莓派 5，亮橙色是 香橙派 5。孰强孰弱？不言自明。目前市场上能打的，大概只有英伟达的 Jetson 系列，但 16GB 版本要 4000+ RMB。

而香橙派 AI Pro 虽然算力更高 (8-20 TOPs)，但听说(三个个例听来的，目前无实测数据)发热严重，希望华为 昇腾 310B 的硬件优化再做好点，另外软件生态也要跟上。

吐槽一句：瑞芯微是难产了吗？RK3688 什么时候出？RK3588 能吹一辈子牛吗？

如何在香橙派 5 (RK3588) 上运行 LLM？

第一步：下载并安装项目

打开终端，执行以下命令：

git clone https://github.com/Pelochus/ezrknn-llm.git
cd ezrknn-llm
sudo bash install.sh

我把项目下载在了 orange-pi 目录下。
如果你用默认路径，项目会下载在 Home 目录。

第二步：下载适配 RK3588 的 LLM 模型

进入 Huggingface 的 RK3588 模型专区 🔗
👉 https://huggingface.co/models?sort=trending&search=rk3588

按 最近更新 排序，推荐下载 DeepSeek R1 蒸馏模型：

红色框：8B 模型 (8.5GB)
绿色框：14B 模型 (目前作者还没有更新，不过挺期待)

💡 建议购买至少 16GB 内存的香橙派 5，8GB 版本也可以跑一些小模型: 比如 Llama 3.2, Phi3, Qwen 1.5B 等，回答速度杠杠的。

我下载了最右上角的模型，点击进入 HuggingFace 页面，下载模型文件 📂 deepseek-r1-7B-rkllm1.1.4.rkllm。

默认在 Download 目录下

第三步：运行 LLM

使用以下命令启动：

rkllm /home/jason/Downloads/deepseek-r1-7B-rkllm1.1.4.rkllm 4096 4096

[model path]: /home/jason/Downloads/deepseek-r1-7B-rkllm1.1.4.rkllm 你下载的模型文件路径
[max_new_tokens]: 4096 控制生成 token 数量 (越大，回复越长)
[max_context_len]: 4096 影响模型记忆容量 (越大，记忆上下文越多)

运行过程中可能会报错，如果报错请到 ezrknn-llm/rkllm-runtime/runtime/Linux/librkllm_api/include/rkllm.h 这个头文件中的第三行插入 #include <cstdint>

NPU、CPU、GPU 推理速度对比

在 RK3588 上运行 LLM，推理速度如下：

计算单元速度测试模型 GPU 1.25 tokens/s Llama-7B 4bit 量化版 (4GB, 5Plus) CPU 3.12 tokens/s Llama-7B 4bit 量化版 (4GB, 5Plus) NPU 2.84 tokens/s Deepseek-8B 8bit 量化版 (8GB, 5Max)