基于vLLM部署企业级DeepSeek大模型

Ollma框架适合个人用户私有化本地部署，但在多用户并发场景下性能衰减明显。vLLM 是由加州大学伯克利分校 LMSYS 组织开源的大语言模型（LLM）高速推理框架。它旨在显著提升实时场景下语言模型服务的吞吐量和内存使用效率。vLLM 的主要特点包括：1、PagedAttention 技术：vLLM 引入了 PagedAttention 算法，通过分页管理注意力机制中的键（keys）和值（valu

秃了也弱了。

2646人浏览 · 2025-03-07 09:28:25

秃了也弱了。 · 2025-03-07 09:28:25 发布

文章目录

一、写在前面
二、本地部署DeepSeek
踩坑：
参考资料

一、写在前面

Ollma框架适合个人用户私有化本地部署，但在多用户并发场景下性能衰减明显。

vLLM 是由加州大学伯克利分校 LMSYS 组织开源的大语言模型（LLM）高速推理框架。它旨在显著提升实时场景下语言模型服务的吞吐量和内存使用效率。

vLLM 的主要特点包括：
1、PagedAttention 技术：vLLM 引入了 PagedAttention 算法，通过分页管理注意力机制中的键（keys）和值（values），有效解决了传统方法中显存碎片化和过度预留的问题。
2、显著的性能提升：与 Hugging Face 的 Transformers 相比，vLLM 的吞吐量最高可达 24 倍。
3、与 Hugging Face 的无缝集成：vLLM 可以与 Hugging Face 的 Transformers 库无缝对接，用户可以轻松地在现有模型基础上进行推理加速。
4、支持多种推理场景：vLLM 支持离线推理、在线 API 服务，以及与 OpenAI API 兼容的接口。

vLLM 的这些特性使其成为大语言模型推理加速的重要工具，尤其适用于需要高效资源利用和快速响应的场景。

二、本地部署DeepSeek

1、安装python环境

此处就略过，可以参考：windows从0搭建python3开发环境与开发工具

# 创建一个新环境
conda create -n local_deep_seek python=3.11
# 激活
conda activate local_deep_seek

2、下载DeepSeek模型

模型地址：https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/files
我们借助modelscope来进行模型的下载，ModelScope 是一个模型即服务的开源社区，您可以在上面找到各种预训练模型。您可能需要注册 ModelScope 账号才能下载某些模型，但 deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B 模型目前是公开的，可以直接下载。
在这里插入图片描述

# conda环境中安装
pip install modelscope

# 下载模型
#--local_dir your_local_path: 指定模型下载后保存的本地路径。
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local_dir D:\llm

3、安装 vLLM

模型下载完成后，我们需要安装 vLLM。
vLLM 简介: vLLM (https://github.com/vllm-project/vllm) 是一个快速且易于使用的库，用于进行大型语言模型的推理和部署。
vLLM 文档: https://docs.vllm.ai/en/latest/ 您可以参考 vLLM 的官方文档获取更详细的信息。

# 安装，需要很久很久……
pip install vllm

4、使用vLLM启动DeepSeek

# 全量参数
python -m vllm.entrypoints.openai.api_server \
--model 'D:\llm' \
--served-model-name 'deepseek-r1-1.5b' \
--host 0.0.0.0 \
--port 6006 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--dtype=half

# 我没有显卡用这个
python -m vllm.entrypoints.openai.api_server --model 'D:\llm' --served-model-name 'deepseek-r1-1.5b' --host 0.0.0.0 --port 6006 

vllm D:\\llm --port 8102 --max-model-len 16384

参数说明：
在这里插入图片描述

在这里插入图片描述

踩坑：

1、安装vLLM报错

报错：
error: could not create ‘build\bdist.win-amd64\wheel.\vllm\model_executor\layers\quantization\utils\configs\N=1536,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json’: No such file or director

解决：
在win+r，输入 regedit，然后设置：
\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem路径下的变量 LongPathsEnabled, 将其置为 1即可.