从零开始！DeepSeek-R1-Distill-Qwen-1.5B完整部署流程详解

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像，实现高效语言模型推理。该轻量级模型通过知识蒸馏优化，具备7B级别性能，适用于数学问题求解、代码生成等场景，特别适合资源受限环境下的AI应用开发。

Kiki-2189

96人浏览 · 2026-03-31 05:32:42

Kiki-2189 · 2026-03-31 05:32:42 发布

从零开始！DeepSeek-R1-Distill-Qwen-1.5B完整部署流程详解

1. 模型简介与核心优势

1.1 什么是DeepSeek-R1-Distill-Qwen-1.5B？

DeepSeek-R1-Distill-Qwen-1.5B是一款经过知识蒸馏优化的轻量级语言模型，由DeepSeek团队基于Qwen-1.5B架构开发。通过80万条R1推理链样本的蒸馏训练，这个仅有1.5B参数的"小钢炮"模型在多项基准测试中达到了7B级别模型的性能水平。

1.2 为什么选择这个模型？

超低资源需求：FP16全精度仅需3GB显存，GGUF-Q4量化后仅0.8GB
惊人推理能力：MATH数据集80+分，HumanEval代码生成50+分
广泛硬件兼容：从高端GPU到树莓派都能流畅运行
商用友好：Apache 2.0协议允许免费商用
功能丰富：支持4K上下文、函数调用、JSON输出等高级特性

2. 部署环境准备

2.1 硬件要求

配置类型	最低要求	推荐配置
GPU版本	NVIDIA显卡(6GB显存)	RTX 3060及以上
CPU版本	双核x86/ARM处理器	四核2.0GHz+
内存	6GB RAM	8GB+ RAM
存储	2GB可用空间	SSD+5GB空间

2.2 软件依赖

Docker 20.10+
Docker Compose 1.29+
Python 3.10+ (可选)
vLLM 0.4.3+ (已包含在镜像中)

3. 一键部署实战

3.1 获取部署文件

创建项目目录并准备docker-compose配置文件：

mkdir deepseek-deploy && cd deepseek-deploy

创建docker-compose.yml文件，内容如下：

version: '3.8'
services:
  vllm:
    image: vllm/vllm-openai:latest
    container_name: vllm-server
    ports:
      - "8000:8000"
    environment:
      - VLLM_MODEL=deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
      - VLLM_DOWNLOAD_DIR=/models
    volumes:
      - ./models:/models
    command:
      - "--model"
      - "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
      - "--tokenizer"
      - "deepseek-ai/deepseek-coder-tokenizer"
      - "--dtype"
      - "auto"
      - "--max-model-len"
      - "4096"

  webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    ports:
      - "7860:8080"
    environment:
      - OLLAMA_BASE_URL=http://vllm:8000/v1
    depends_on:
      - vllm
    volumes:
      - ./webui_data:/app/backend/data

3.2 启动服务

执行以下命令启动所有服务：

docker-compose up -d

首次运行会自动下载模型文件，根据网络情况可能需要10-30分钟。可以通过以下命令查看日志：

docker logs vllm-server -f

当看到"Model loaded successfully"提示时，表示模型已准备就绪。

4. 使用Open WebUI交互

4.1 访问Web界面

服务启动完成后，在浏览器中访问：

http://localhost:7860

使用默认账号登录：

用户名：admin@openwebui.com
密码：start123

4.2 配置模型连接

点击右下角设置图标
选择"Model Provider"为"Custom URL"
输入Base URL：http://vllm:8000/v1
API Key留空
点击"Save & Reload"

配置完成后，聊天界面顶部会显示已连接的模型名称。

5. 模型性能优化

5.1 GPU加速配置

如果使用NVIDIA显卡，可以修改vLLM服务的启动参数：

command:
  - "--model"
  - "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
  - "--tokenizer"
  - "deepseek-ai/deepseek-coder-tokenizer"
  - "--dtype"
  - "auto"
  - "--max-model-len"
  - "4096"
  - "--gpu-memory-utilization"
  - "0.9"

5.2 量化模型使用

为节省显存，可以使用GGUF量化模型：

下载量化模型文件：

wget https://huggingface.co/TheBloke/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/resolve/main/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf -O models/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf

修改vLLM启动参数：

command:
  - "--model"
  - "/models/deepseek-r1-distill-qwen-1.5b.Q4_K_M.gguf"
  - "--tokenizer"
  - "deepseek-ai/deepseek-coder-tokenizer"
  - "--dtype"
  - "auto"
  - "--device"
  - "cuda"  # 或"cpu"用于纯CPU推理

6. 实际应用示例

6.1 数学问题求解

输入：

求解方程：x² - 5x + 6 = 0

模型输出：

这是一个二次方程，可以使用因式分解法求解：

x² - 5x + 6 = 0
(x - 2)(x - 3) = 0

因此方程的解为：
x₁ = 2
x₂ = 3

6.2 代码生成

输入：

用Python写一个快速排序算法

模型输出：

def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quick_sort(left) + middle + quick_sort(right)

# 示例用法
print(quick_sort([3,6,8,10,1,2,1]))  # 输出: [1, 1, 2, 3, 6, 8, 10]