基于Ollama 和 Open WebUI 部署 DeepSeek-R1

DeepSeek是目前推理效率最高的模型，私有化部署模型有助于企业将私有化的数据与LLM结合。解决具体的企业问题，提效研发。关注“AI拉呱公众号”一起学习更多AI知识！

Errol_yan

647人浏览 · 2025-04-17 16:41:10

Errol_yan · 2025-04-17 16:41:10 发布

*大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，热爱机器学习和深度学习算法应用，拥有丰富的AI项目经验，希望和你一起成长交流。关注AI拉呱一起学习更多AI知识。

基于Ollama 和 Open WebUI 部署 DeepSeek-R1

训练和推理算力计算

我们经常看到一个开源的大模型是7B，32B，671B，到底这些模型训练和推理需要多少的GPU算力？是否有一个明确的计算公式？本问一句实战验证测试发现了以下规律：Int8量化后的模型训练算力一般是4倍的模型参数，推理算力一般是一倍的模型参数。如果是float模型可能需要更多。

训练算力计算

一个LLaMA-6B的数据类型为Int8

模型参数 6B1bytes = 6GB

梯度 6B1bytes = 6GB

优化器参数 Adam 2倍模型参数:6GB*2 = 12GB

训练共24GB的显存

推理算力计算

LLaMA-6B的数据类型为Int8的模型参数 6B*1bytes = 6GB

推理共6GB的显存

可部署的模型

运行满血版 DeepSeek R1，但满血版 R1 模型参数高达 671B，仅模型文件就需要 404GB 存储空间，运行时更需要约 1300GB 显存。这是很多公司无法有条件做到的。注意，只要 GPU 等于或超过 VRAM 要求，模型仍然可以在规格较低的 GPU 上运行。但是设置不是最佳的，并且可能需要进行一些调整。因此本教程私有化部署的有：

DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-70B

O4mXNL

第一步：克隆启动容器

克隆启动容器成功后，看到该界面，稍等十几秒加载模型后复制右侧 API 地址到浏览器

P2ii11

增加新的模型

在命令行通过命令 ollama pull 可以下载新的模型，新的模型会占用自己的空间。

JffDiB

下载安装ollama
1. 下载模型
  
  在终端中执行以下指令：
```
$ ollama run deepseek-r1:7b
```
  配置好后运营模型

故障排除

访问链接时报错 “Bad Gateway”

可能原因

程序尚未完全启动：程序可能仍在初始化过程中，导致暂时无法访问。
程序启动失败：程序可能由于某些原因未能成功启动。

解决方案

等待一段时间：程序启动过程中，可能需要等待数分钟。请耐心等待，然后再次尝试访问链接。
检查程序状态：如果等待后仍无法访问，您可以在 JupyterLab 的终端中使用 tmux 查看程序的运行状态和可能的错误信息。

import requests

query = "test"
url = f"http://html.duckduckgo.com/html/?q={query}"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
}

response = requests.get(url, headers=headers)

if response.status_code == 200 and "result" in response.text.lower():
    print("DuckDuckGo search is working!")
else:
    print("DuckDuckGo search may not be working.")