OpenLLM：自托管LLMs变得简单、在云中运行任何开源LLMs的程序包，例如 DeepSeek 和 Llama，作为与 OpenAI 兼容的 API 终端节点

OpenLLM：自托管LLMs变得简单，OpenLLM 允许开发人员使用单个命令将任何开源LLMs（Llama 3.3、Qwen2.5、Phi3 等）或自定义模型作为与 OpenAI 兼容的 API 运行。它具有内置的聊天 UI、最先进的推理后端，以及用于使用 Docker、Kubernetes 和 BentoCloud 创建企业级云部署的简化工作流程。

struggle2025

1135人浏览 · 2025-02-19 20:11:37

struggle2025 · 2025-02-19 20:11:37 发布

一、软件介绍

文末提供下载

GitHub作者：https://github.com/bentoml/OpenLLM

本信息图片均来源于作者GitHub地址

二、Get Started 开始使用

运行以下命令以安装 OpenLLM 并以交互方式探索它。

pip install openllm  # or pip3 install openllm
openllm hello

三、支持的模型

OpenLLM 支持各种最先进的开源 LLMs.您还可以添加模型存储库以使用 OpenLLM 运行自定义模型。

$ openllm repo update
$ openllm model list
model version repo required GPU RAM platforms
------------- ------------------------------------------- ------- ------------------ -----------
deepseek deepseek:r1-671b-eb32 default 80Gx16 linux
deepseek:r1-distill-llama3.1-8b-626a default 24G linux
deepseek:r1-distill-qwen2.5-14b-3728 default 80G linux
deepseek:r1-distill-qwen2.5-32b-63b0 default 80G linux
deepseek:r1-distill-llama3.3-70b-4b47 default 80Gx2 linux
deepseek:r1-distill-qwen2.5-7b-math-2ca1 default 24G linux
deepseek:r1-distill-qwen2.5-14b-w8a8-4603 default 24G linux
deepseek:r1-distill-qwen2.5-32b-w8a8-9ce2 default 80G linux
deepseek:r1-distill-llama3.3-70b-w8a8-31b4 default 80G linux
deepseek:r1-distill-qwen2.5-14b-w4a16-0e8a default 24G linux
deepseek:r1-distill-qwen2.5-32b-w4a16-ca5e default 80G linux
deepseek:r1-distill-llama3.3-70b-w4a16-18c2 default 80G linux
deepseek:v3-671b-2e40 default 80Gx16 linux
gemma2 gemma2:2b-instruct-868c default 12G linux
gemma2:9b-instruct-e44c default 24G linux
gemma2:27b-instruct-3826 default 80G linux
hermes-3 hermes-3:deep-llama3-8b-1242 default 80G linux
hermes-3:llama3.1-405b-instruct-24ff default 80Gx6 linux
jamba1.5 jamba1.5:mini-4f7f default 80Gx2 linux
jamba1.5:large-e809 default 80Gx8 linux
llama3.1 llama3.1:8b-instruct-a995 default 24G linux
llama3.2 llama3.2:1b-instruct-6fa1 default 24G linux
llama3.2:3b-instruct-7d96 default 24G linux
llama3.2:11b-vision-instruct-eac2 default 80G linux
llama3.2:90b-vision-instruct-25ca default 80Gx2 linux
llama3.3 llama3.3:70b-instruct-f791 default 80Gx2 linux
mistral mistral:8b-instruct-f4ed default 24G linux
mistral:24b-small-instruct-2501-cc81 default 80G linux
mistral-large mistral-large:123b-instruct-2407-e1ef default 80Gx4 linux
phi4 phi4:14b-a515 default 80G linux
pixtral pixtral:12b-2409-a2e0 default 80G linux
pixtral:124b-2411-9886 default 80Gx4 linux
qwen2.5 qwen2.5:7b-instruct-dbe1 default 24G linux
qwen2.5:14b-instruct-d1f8 default 80G linux
qwen2.5:14b-instruct-awq-59be default 24G linux
qwen2.5:14b-instruct-gptq-w8a8-fa83 default 24G linux
qwen2.5:14b-instruct-gptq-w4a16-fa83 default 24G linux
qwen2.5:14b-instruct-ggml-q4-darwin-009a default darwin
qwen2.5:14b-instruct-ggml-q8-darwin-add0 default darwin
qwen2.5:32b-instruct-e0dc default 80G linux
qwen2.5:32b-instruct-awq-0fcd default 40G linux
qwen2.5:32b-instruct-gptq-w8a8-a809 default 40G linux
qwen2.5:32b-instruct-gptq-w4a16-66e8 default 40G linux
qwen2.5:32b-instruct-ggml-darwin-75c6 default darwin
qwen2.5:72b-instruct-8557 default 80Gx2 linux
qwen2.5:72b-instruct-awq-36de default 80G linux
qwen2.5:72b-instruct-gptq-w8a8-e038 default 80G linux
qwen2.5:72b-instruct-gptq-w4a16-b0c5 default 80G linux
qwen2.5:72b-instruct-ggml-q4-darwin-2a15 default darwin
qwen2.5-coder qwen2.5-coder:3b-instruct-63b0 default 24G linux
qwen2.5-coder:7b-instruct-a819 default 24G linux
qwen2.5-coder:7b-instruct-awq-63c9 default 24G linux
qwen2.5-coder:7b-instruct-ggml-linux-d531 default linux
qwen2.5-coder:7b-instruct-gptq-w4a16-dfcf default 24G linux
qwen2.5-coder:7b-instruct-gptq-w8a16-1ff4 default 24G linux
qwen2.5-coder:7b-instruct-ggml-darwin-33fb default darwin
qwen2.5-coder:14b-instruct-e2e9 default 40G linux
qwen2.5-coder:14b-instruct-awq-5456 default 40G linux
qwen2.5-coder:14b-instruct-gptq-w8a8-0910 default 40G linux
qwen2.5-coder:14b-instruct-gptq-w4a16-d2dc default 40G linux
qwen2.5-coder:32b-instruct-1950 default 80G linux

四、启动服务器LLM

要在本地启动LLM服务器，请使用命令 openllm serve 并指定模型版本。

OpenLLM 不存储模型权重。门控模型需要 Hugging Face 令牌（HF_TOKEN）。源程序Hugging Face 访问不了，这里可以改为国内的门控模型，这个放这里只是举例用。

在此处创建您的 Hugging Face 令牌。
请求访问门控模型，例如 meta-llama/Llama-3.2-1B-Instruct。
通过运行以下命令将令牌设置为环境变量：
```
export HF_TOKEN=<your token>
```
openllm serve openllm serve llama3.2:1b-instruct-6fa1
该服务器将 http://localhost:3000 访问，提供与 OpenAI 兼容的 API 进行交互。您可以使用支持 OpenAI 兼容 API 的不同框架和工具调用终端节点。通常，您可能需要指定以下内容：

API 主机地址：默认情况下，LLM托管在 http://localhost:3000。
模型名称：名称可能因您使用的工具而异。
API 密钥：用于客户端身份验证的 API 密钥。这是可选的。
以下是一些示例：

OpenAI Python client OpenAI Python 客户端
```
LlamaIndex 骆驼指数
```
```
from llama_index.llms.openai import OpenAI

llm = OpenAI(api_bese="http://localhost:3000/v1", model="meta-llama/Llama-3.2-1B-Instruct", api_key="dummy")
...
```
五、Chat UI 聊天用户界面

终端节点为 http://localhost:3000/chat 启动LLM的服务器提供聊天 UI。

六、程序及源码下载

夸克网盘分享