一、首先了解DeepSeek-R1 模型规格

B 则是指 “billion” 的意思,也就是十亿,表示这个模型有多少亿个参数。
DeepSeek-R1 本地部署硬件需求表

模型规模 GPU 需求 CPU 需求 内存需求 存储需求 备注
1.5B - GTX 1650 4GB(可选) 四核 i5/Ryzen 3000+ 16GB DDR4 50GB SSD 需4-bit量化,CPU推理延迟约10-30秒/回答,适合基础文本生成
7B RTX 3060 12GB 或 RTX 4090 24GB 六核 i7/Ryzen 5000+ 32GB DDR4 200GB NVMe SSD FP16精度需14GB显存,4-bit量化后仅需6GB,生成速度约110 tokens/s
8B RTX 3090 24GB 或 A10 24GB 八核 Xeon/EPYC 64GB DDR4 500GB NVMe SSD 推荐vLLM框架优化吞吐量,支持多轮对话(3-10秒/回答)
14B A100 40GB 或双RTX 4090 24GB 16核 Xeon/EPYC 128GB DDR5 1TB PCIe 4.0 SSD 需8-bit量化显存占用约32GB,生成速度约66 tokens/s
32B 双A770 16GB 或双A100 80GB 24核 EPYC/至强W 256GB DDR5 ECC 2TB NVMe SSD阵列 双A770组合成本低(约4千元),支持26 tokens/s生成速度
70B 4×H100 80GB 集群 32核 EPYC/至强 512GB DDR5 ECC 4TB PCIe 5.0 SSD阵列 需TensorRT-LLM优化,亚秒级响应(0.5-2秒/回答),推荐云端A100集群
671B 32×H100 80GB 集群 64核 EPYC/至强 Platinum 1TB DDR5 ECC 分布式存储(PB级) 需InfiniBand互联+MoE架构,显存需求超640GB,仅适合专业服务器部署

二、安装Ollama

Ollama官网地址:https://ollama.com

  1. 使用命令安装:curl -fsSL https://ollama.com/install.sh | sh (等到安装完成);
  2. 安装完成后输入:ollama -v 查看版本号,如果输出版本号代表安装成功(Ollama在linux后台自启的关机重启后不用再次启动);
  3. 使用浏览器访问:http://localhost:11434/ 看看是否显示 Ollama is running(运行状态)。

三、从Ollama中安装DeepSeep模型

Ollama官网的DeepSeek-R1模型地址:https://ollama.com/library/deepseek-r1

模型 大小 安装命令
1.5B 1.1GB ollama run deepseek-r1:1.5b
7B 4.7GB ollama run deepseek-r1:7b
8B 4.9GB ollama run deepseek-r1:8b
14B 9.0GB ollama run deepseek-r1:14b
32B 20GB ollama run deepseek-r1:32b
70B 43GB ollama run deepseek-r1:70b
671B 404GB ollama run deepseek-r1:671b

如果是个人部署测试推荐使用7B的模型,安装命令:ollama run deepseek-r1:7b
等待安装,安装完成后会出 success 字样。
安装完成后就可以以 cmd 的形式进行对话聊天了。
如果机器重启后需要再次运行安装命令来启动模型。

四、安装 Open WebUI

  1. 使用docker安装,安装命令:docker pull ghcr.io/open-webui/open-webui:main
  2. 运行open-webui容器:
原命令
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
改后命令
docker run -d -p 3000:8080 --network=host -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

实测原命令加载docker容器后使用 http://localhost:3000 无法加载模型,使用修改后的命令可以加载到模型。
如果Ollama和open-webui部署在同一台机器可以忽略3的步骤。

  1. 如果部署的不是同一台机器需要添加参数
-e OLLAMA_BASE_URL=http://127.0.0.1:11434
docker run -d -p 3000:8080 --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  1. 使用web页面进行对话
    浏览器访问:http://localhost:3000

linux中安装docker可以参考:https://blog.csdn.net/SmileSunshines/article/details/134807097?spm=1001.2014.3001.5501

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐