
基于vLLM部署企业级DeepSeek大模型
Ollma框架适合个人用户私有化本地部署,但在多用户并发场景下性能衰减明显。vLLM 是由加州大学伯克利分校 LMSYS 组织开源的大语言模型(LLM)高速推理框架。它旨在显著提升实时场景下语言模型服务的吞吐量和内存使用效率。vLLM 的主要特点包括:1、PagedAttention 技术:vLLM 引入了 PagedAttention 算法,通过分页管理注意力机制中的键(keys)和值(valu
文章目录
一、写在前面
Ollma框架适合个人用户私有化本地部署,但在多用户并发场景下性能衰减明显
。
vLLM 是由加州大学伯克利分校 LMSYS 组织开源的大语言模型(LLM)高速推理框架。它旨在显著提升实时场景下语言模型服务的吞吐量和内存使用效率
。
vLLM 的主要特点包括:
1、PagedAttention 技术:vLLM 引入了 PagedAttention 算法,通过分页管理注意力机制中的键(keys)和值(values),有效解决了传统方法中显存碎片化和过度预留的问题。
2、显著的性能提升:与 Hugging Face 的 Transformers 相比,vLLM 的吞吐量最高可达 24 倍。
3、与 Hugging Face 的无缝集成:vLLM 可以与 Hugging Face 的 Transformers 库无缝对接,用户可以轻松地在现有模型基础上进行推理加速。
4、支持多种推理场景:vLLM 支持离线推理、在线 API 服务,以及与 OpenAI API 兼容的接口。
vLLM 的这些特性使其成为大语言模型推理加速的重要工具,尤其适用于需要高效资源利用和快速响应
的场景。
二、本地部署DeepSeek
1、安装python环境
此处就略过,可以参考:windows从0搭建python3开发环境与开发工具
# 创建一个新环境
conda create -n local_deep_seek python=3.11
# 激活
conda activate local_deep_seek
2、下载DeepSeek模型
模型地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/files
我们借助modelscope来进行模型的下载,ModelScope 是一个模型即服务的开源社区,您可以在上面找到各种预训练模型。您可能需要注册 ModelScope 账号才能下载某些模型,但 deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
模型目前是公开的,可以直接下载。
# conda环境中安装
pip install modelscope
# 下载模型
#--local_dir your_local_path: 指定模型下载后保存的本地路径。
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --local_dir D:\llm
3、安装 vLLM
模型下载完成后,我们需要安装 vLLM。
vLLM 简介: vLLM (https://github.com/vllm-project/vllm
) 是一个快速且易于使用的库,用于进行大型语言模型的推理和部署。
vLLM 文档: https://docs.vllm.ai/en/latest/
您可以参考 vLLM 的官方文档获取更详细的信息。
# 安装,需要很久很久……
pip install vllm
4、使用vLLM启动DeepSeek
# 全量参数
python -m vllm.entrypoints.openai.api_server \
--model 'D:\llm' \
--served-model-name 'deepseek-r1-1.5b' \
--host 0.0.0.0 \
--port 6006 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--dtype=half
# 我没有显卡用这个
python -m vllm.entrypoints.openai.api_server --model 'D:\llm' --served-model-name 'deepseek-r1-1.5b' --host 0.0.0.0 --port 6006
vllm D:\\llm --port 8102 --max-model-len 16384
参数说明:
踩坑:
1、安装vLLM报错
报错:
error: could not create ‘build\bdist.win-amd64\wheel.\vllm\model_executor\layers\quantization\utils\configs\N=1536,K=1536,device_name=NVIDIA_H100_80GB_HBM3,dtype=fp8_w8a8,block_shape=[128,128].json’: No such file or director
解决:
在win+r,输入 regedit,然后设置:\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem
路径下的变量 LongPathsEnabled, 将其置为 1即可.
2、启动vLLM报错
报错:
ModuleNotFoundError: No module named ‘uvloop’
解决:
pip install uvloop
注意,目前uvloop不支持windows。。。
3、vLLM不支持windows
直接拉闸了……
最终测试结果没试,等有机会用linux再试试吧。。,。
参考资料
https://blog.csdn.net/m0_48891301/article/details/145491228
更多推荐
所有评论(0)