DeepSeek-R1-Distill-Qwen-1.5B保姆级教程：环境配置到服务启动全流程

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像，实现高效文本生成与对话功能。该轻量化模型适用于智能客服、内容创作等场景，通过简单的Docker命令即可快速搭建服务环境，显著提升AI应用的开发效率。

MINI 中国

310人浏览 · 2026-03-24 00:05:55

MINI 中国 · 2026-03-24 00:05:55 发布

DeepSeek-R1-Distill-Qwen-1.5B保姆级教程：环境配置到服务启动全流程

1. 准备工作与环境配置

1.1 硬件要求

DeepSeek-R1-Distill-Qwen-1.5B作为轻量化模型，对硬件要求相对友好：

最低配置：
- CPU：4核以上
- 内存：8GB
- GPU：NVIDIA T4或同等性能显卡（可选）
推荐配置：
- CPU：8核以上
- 内存：16GB
- GPU：NVIDIA V100或A10G

1.2 软件环境准备

确保系统已安装以下基础组件：

# 更新系统包
sudo apt-get update && sudo apt-get upgrade -y

# 安装基础依赖
sudo apt-get install -y python3-pip git curl wget

# 安装Python虚拟环境工具
pip install virtualenv

创建并激活Python虚拟环境：

virtualenv deepseek-env
source deepseek-env/bin/activate

2. 模型服务部署

2.1 获取模型镜像

使用Docker快速部署模型服务：

# 拉取官方镜像
docker pull registry.cn-hangzhou.aliyuncs.com/deepseek/deepseek-r1-distill-qwen-1.5b:v1.0

# 创建数据卷
docker volume create deepseek-data

2.2 启动模型服务

运行以下命令启动服务：

docker run -d \
  --name deepseek-qwen \
  -p 8000:8000 \
  -v deepseek-data:/data \
  registry.cn-hangzhou.aliyuncs.com/deepseek/deepseek-r1-distill-qwen-1.5b:v1.0 \
  python -m vllm.entrypoints.openai.api_server \
  --model /model/DeepSeek-R1-Distill-Qwen-1.5B \
  --trust-remote-code \
  --served-model-name DeepSeek-R1-Distill-Qwen-1.5B

关键参数说明：

--model：指定模型路径
--trust-remote-code：允许加载自定义代码
--served-model-name：定义API服务中的模型名称

3. 服务验证与测试

3.1 检查服务状态

查看容器日志确认服务是否正常启动：

docker logs -f deepseek-qwen

成功启动后会显示类似以下信息：

INFO:     Started server process [1]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

3.2 基础功能测试

使用Python客户端测试API接口：

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="none"
)

# 简单对话测试
response = client.chat.completions.create(
    model="DeepSeek-R1-Distill-Qwen-1.5B",
    messages=[
        {"role": "system", "content": "你是一个有帮助的AI助手"},
        {"role": "user", "content": "请用中文介绍一下你自己"}
    ],
    temperature=0.7,
    max_tokens=256
)

print(response.choices[0].message.content)

预期输出应包含模型的基本介绍信息。

4. 高级配置与优化

4.1 性能调优参数

在启动服务时可添加以下优化参数：

docker run -d \
  ...原有参数... \
  python -m vllm.entrypoints.openai.api_server \
  --model /model/DeepSeek-R1-Distill-Qwen-1.5B \
  --trust-remote-code \
  --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.9 \
  --max-num-batched-tokens 4096

关键优化参数：

--tensor-parallel-size：GPU并行数量
--gpu-memory-utilization：显存利用率
--max-num-batched-tokens：最大批处理token数

4.2 量化部署（可选）

如需进一步降低资源消耗，可使用INT8量化：

docker run -d \
  ...原有参数... \
  python -m vllm.entrypoints.openai.api_server \
  --model /model/DeepSeek-R1-Distill-Qwen-1.5B \
  --quantization int8 \
  ...其他参数...