
Linux中部署DeepSeek R1
Linux中部署DeepSeek-R1
·
一、首先了解DeepSeek-R1 模型规格
B 则是指 “billion” 的意思,也就是十亿,表示这个模型有多少亿个参数。
DeepSeek-R1 本地部署硬件需求表
模型规模 | GPU 需求 | CPU 需求 | 内存需求 | 存储需求 | 备注 |
---|---|---|---|---|---|
1.5B | - GTX 1650 4GB(可选) | 四核 i5/Ryzen 3000+ | 16GB DDR4 | 50GB SSD | 需4-bit量化,CPU推理延迟约10-30秒/回答,适合基础文本生成 |
7B | RTX 3060 12GB 或 RTX 4090 24GB | 六核 i7/Ryzen 5000+ | 32GB DDR4 | 200GB NVMe SSD | FP16精度需14GB显存,4-bit量化后仅需6GB,生成速度约110 tokens/s |
8B | RTX 3090 24GB 或 A10 24GB | 八核 Xeon/EPYC | 64GB DDR4 | 500GB NVMe SSD | 推荐vLLM框架优化吞吐量,支持多轮对话(3-10秒/回答) |
14B | A100 40GB 或双RTX 4090 24GB | 16核 Xeon/EPYC | 128GB DDR5 | 1TB PCIe 4.0 SSD | 需8-bit量化显存占用约32GB,生成速度约66 tokens/s |
32B | 双A770 16GB 或双A100 80GB | 24核 EPYC/至强W | 256GB DDR5 ECC | 2TB NVMe SSD阵列 | 双A770组合成本低(约4千元),支持26 tokens/s生成速度 |
70B | 4×H100 80GB 集群 | 32核 EPYC/至强 | 512GB DDR5 ECC | 4TB PCIe 5.0 SSD阵列 | 需TensorRT-LLM优化,亚秒级响应(0.5-2秒/回答),推荐云端A100集群 |
671B | 32×H100 80GB 集群 | 64核 EPYC/至强 Platinum | 1TB DDR5 ECC | 分布式存储(PB级) | 需InfiniBand互联+MoE架构,显存需求超640GB,仅适合专业服务器部署 |
二、安装Ollama
Ollama官网地址:https://ollama.com
- 使用命令安装:
curl -fsSL https://ollama.com/install.sh | sh
(等到安装完成); - 安装完成后输入:
ollama -v
查看版本号,如果输出版本号代表安装成功(Ollama在linux后台自启的关机重启后不用再次启动); - 使用浏览器访问:http://localhost:11434/ 看看是否显示 Ollama is running(运行状态)。
三、从Ollama中安装DeepSeep模型
Ollama官网的DeepSeek-R1模型地址:https://ollama.com/library/deepseek-r1
模型 | 大小 | 安装命令 |
---|---|---|
1.5B | 1.1GB | ollama run deepseek-r1:1.5b |
7B | 4.7GB | ollama run deepseek-r1:7b |
8B | 4.9GB | ollama run deepseek-r1:8b |
14B | 9.0GB | ollama run deepseek-r1:14b |
32B | 20GB | ollama run deepseek-r1:32b |
70B | 43GB | ollama run deepseek-r1:70b |
671B | 404GB | ollama run deepseek-r1:671b |
如果是个人部署测试推荐使用7B的模型,安装命令:ollama run deepseek-r1:7b
等待安装,安装完成后会出 success 字样。
安装完成后就可以以 cmd 的形式进行对话聊天了。
如果机器重启后需要再次运行安装命令来启动模型。
四、安装 Open WebUI
- 使用docker安装,安装命令:
docker pull ghcr.io/open-webui/open-webui:main
- 运行open-webui容器:
原命令
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
改后命令
docker run -d -p 3000:8080 --network=host -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
实测原命令加载docker容器后使用 http://localhost:3000 无法加载模型,使用修改后的命令可以加载到模型。
如果Ollama和open-webui部署在同一台机器可以忽略3的步骤。
- 如果部署的不是同一台机器需要添加参数
-e OLLAMA_BASE_URL=http://127.0.0.1:11434
docker run -d -p 3000:8080 --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
- 使用web页面进行对话
浏览器访问:http://localhost:3000
linux中安装docker可以参考:https://blog.csdn.net/SmileSunshines/article/details/134807097?spm=1001.2014.3001.5501
更多推荐
所有评论(0)