基于vLLM+DeepSeek本地部署大模型，全网最详细的方案！

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

和老莫一起学AI

395人浏览 · 2025-06-09 10:41:47

和老莫一起学AI · 2025-06-09 10:41:47 发布

一、环境构建

1、安装ubuntu24.04操作系统，并安装对应的基础软件，比如输入法等（可以不安装）。

2、安装显卡驱动

检查显卡驱动是否已经识别，如果已经识别，则不需要安装：以下表示已经识别

root@admin-Legion-Y9000P-IRX9:/home/admin/下载# lspci | grep -i nvidia01:00.0 VGA compatible controller: NVIDIA Corporation AD107M [GeForce RTX 4060 Max-Q / Mobile] (rev a1)01:00.1 Audio device: NVIDIA Corporation Device 22be (rev a1)

buntu 24.04可能默认使用开源驱动（nouveau），需手动安装闭源驱动：

sudo apt updatesudo ubuntu-drivers autoinstall  # 自动安装推荐驱动

禁用开源驱动（nouveau）

sudo nano /etc/modprobe.d/blacklist-nouveau.conf

添加以下内容

blacklist nouveauoptions nouveau modeset=0

更新initramfs并重启：

sudo update-initramfs -usudo reboot

验证GPU工作状态（已正常工作）

admin@admin-Legion-Y9000P-IRX9:~/桌面$ nvidia-smiTue Apr  1 13:31:53 2025       +-----------------------------------------------------------------------------------------+| NVIDIA-SMI 550.120                Driver Version: 550.120        CUDA Version: 12.4     ||-----------------------------------------+------------------------+----------------------+| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC || Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. ||                                         |                        |               MIG M. ||=========================================+========================+======================||   0  NVIDIA GeForce RTX 4060 ...    Off |   00000000:01:00.0 Off |                  N/A || N/A   37C    P0            588W /   55W |       9MiB /   8188MiB |      0%      Default ||                                         |                        |                  N/A |+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+| Processes:                                                                              ||  GPU   GI   CI        PID   Type   Process name                              GPU Memory ||        ID   ID                                                               Usage      ||=========================================================================================||    0   N/A  N/A      2471      G   /usr/lib/xorg/Xorg                              4MiB |+-----------------------------------------------------------------------------------------+

二、安装 vLLM 和相关依赖

使用conda环境隔离安装部署

1、下载并安装conda环境

下载 Miniconda 安装脚本：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

admin@admin-Legion-Y9000P-IRX9:~/桌面$ wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh--2025-05-01 13:47:13--  https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh正在解析主机 repo.anaconda.com (repo.anaconda.com)... 104.16.191.158, 104.16.32.241, 2606:4700::6810:20f1, ...正在连接 repo.anaconda.com (repo.anaconda.com)|104.16.191.158|:443... 已连接。已发出 HTTP 请求，正在等待回应... 200 OK长度： 154615621 (147M) [application/octet-stream]正在保存至: ‘Miniconda3-latest-Linux-x86_64.sh’

运行安装脚本：

bash Miniconda3-latest-Linux-x86_64.sh

按照提示完成安装，然后重新打开终端，Conda 就可以正常使用了

2、创建一个新的 conda 环境

以后所有的模型相关操作都将在该conda(myenv)环境中运行。

conda create -n myenv python=3.10 -y

根据提示，进行conda升级（可选）

(base) admin@admin-Legion-Y9000P-IRX9:~$ conda update -n base -c defaults condaChannels: - defaultsPlatform: linux-64Collecting package metadata (repodata.json): doneSolving environment: done

激活虚拟环境

conda activate myenv

安装带有 CUDA 12.1 的 vLLM

pip install vllm

三、模型部署

1、模型下载

下载 DeepSeek 模型，此处下载deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模型

模型地址: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
安装 ModelScope 包: ModelScope 是一个模型中心，我们使用它来下载模型。在终端或命令提示符中执行以下命令安装 ModelScope Python 包：

 pip install modelscope

下载模型: 使用 modelscope download 命令下载模型。

modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /home/xhq/deepseek-7b

–model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B: 指定要下载的模型为 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B。
–local_dir your_local_path: 指定模型下载后保存的本地路径。请将 your_local_path 替换为您电脑上实际想要保存模型的路径。例如，如果您想将模型保存在 /home/user/models/deepseek-7b 目录下，则命令应为：
关于 ModelScope: ModelScope 是一个模型即服务的开源社区，您可以在上面找到各种预训练模型。您可能需要注册 ModelScope 账号才能下载某些模型，但 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 模型目前是公开的，可以直接下载。

2、模型运行

在conda环境(myenv) admin@admin-Legion-Y9000P-IRX9:~中，进入模型所在的目录，运行以下命令

vllm serve DeepSeek-R1-Distill-Qwen-1.5B \    --max-model-len 4096 \    --gpu-memory-utilization 0.7 \    --max-num-batched-tokens 1024 \    --max-num-seqs 4 \    --port 8000 \    --tensor-parallel-size 1 \    --trust-remote-code

/path/to/De
epSeek-R1-Distill-Qwen-7B：替换为实际的模型路径。
–max-model-len：设置
模型的最大输入长度。
–port：设置API的端口号。
–tensor-parallel-size：设置张量并行的GPU数量。
–trust-remote-code：信任远程代码，用于加载模型。

3、调用 vLLM 推理服务

以下是postman调用示vllm推理服务示例：

url：http://localhost:8000/v/completionsheaders: Content-Type:application/jsonbody:{    "model": "DeepSeek-R1-Distill-Qwen-1.5B",    "prompt": "你是谁",    "max_tokens": 1024,    "temperature": 0.7,    "stream":true}

到这里整个过程就完成了，可以通过dify等应用构建平台对接本地大模型并编排应用，后续将持续更新dify编排应用相关操作和大模型其他信息！