DeepSeek-R1-Distill-Qwen-1.5B部署指南：vLLM启动，模型服务测试方法

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像，并通过vLLM框架实现高效模型推理。该轻量化模型特别适用于边缘设备的实时对话场景，如智能客服和垂直领域问答，显著提升响应速度与任务适配性。

IYA1738

348人浏览 · 2026-04-29 04:53:05

IYA1738 · 2026-04-29 04:53:05 发布

DeepSeek-R1-Distill-Qwen-1.5B部署指南：vLLM启动，模型服务测试方法

1. DeepSeek-R1-Distill-Qwen-1.5B模型介绍

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术融合R1架构优势打造的轻量化版本。该模型具有以下核心特点：

参数效率优化：通过结构化剪枝与量化感知训练，将模型参数量压缩至1.5B级别，同时保持85%以上的原始模型精度（基于C4数据集的评估）
任务适配增强：在蒸馏过程中引入领域特定数据（如法律文书、医疗问诊），使模型在垂直场景下的F1值提升12-15个百分点
硬件友好性：支持INT8量化部署，内存占用较FP32模式降低75%，在NVIDIA T4等边缘设备上可实现实时推理

2. 环境准备与vLLM介绍

2.1 硬件与软件要求

推荐配置：

GPU：NVIDIA V100 32GB或更高
操作系统：Ubuntu 22.04
Python：3.12
CUDA：12.4
PyTorch：2.5.1

核心依赖库：

triton==3.0.0
transformers==4.46.3
safetensors==0.4.5
vllm==0.6.6

2.2 vLLM框架简介

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，具有以下优势：

采用创新的PagedAttention算法，有效管理注意力键和值
吞吐量最高可达HuggingFace实现的24倍
无需修改模型结构即可获得显著性能提升
支持与HuggingFace模型无缝集成

3. 模型下载与准备

3.1 获取模型文件

模型可从HuggingFace官方仓库下载：

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/tree/main

3.2 模型存放目录

建议将模型存放在以下目录结构：

/LLM/DeepSeek-R1-Distill-Qwen-1.5B

4. 使用vLLM启动模型服务

4.1 创建启动脚本

新建api_server.sh文件，内容如下：

python -m vllm.entrypoints.openai.api_server \
--model /LLM/DeepSeek-R1-Distill-Qwen-1.5B \
--served-model-name deepseek-qwen-1.5b \
--dtype=half \
--tensor-parallel-size 1 \
--max-model-len 1000

4.2 显存优化配置

默认配置下模型可能占用较多显存（约28GB），可通过调整KV Cache内存使用率降低显存需求：

--gpu-memory-utilization 0.2

优化后显存占用可降至6GB以下，同时保持良好性能。

4.3 启动服务

执行启动命令：

sh api_server.sh

4.4 验证服务状态

查看启动日志确认服务是否正常运行：

cd /root/workspace
cat deepseek_qwen.log

成功启动后将显示类似以下信息：

INFO 05-10 15:30:12 api_server.py:150] Model weights loaded
INFO 05-10 15:30:12 api_server.py:152] API server started on http://localhost:8000

5. 模型服务测试方法

5.1 Python客户端测试代码

创建client_demo.py文件，使用以下代码测试API服务：

from openai import OpenAI
import requests
import json

class LLMClient:
    def __init__(self, base_url="http://localhost:8000/v1"):
        self.client = OpenAI(
            base_url=base_url,
            api_key="none"  # vllm通常不需要API密钥
        )
        self.model = "DeepSeek-R1-Distill-Qwen-1.5B"

    def chat_completion(self, messages, stream=False, temperature=0.7, max_tokens=2048):
        """基础的聊天完成功能"""
        try:
            response = self.client.chat.completions.create(
                model=self.model,
                messages=messages,
                temperature=temperature,
                max_tokens=max_tokens,
                stream=stream
            )
            return response
        except Exception as e:
            print(f"API调用错误: {e}")
            return None

    def stream_chat(self, messages):
        """流式对话示例"""
        print("AI: ", end="", flush=True)
        full_response = ""

        try:
            stream = self.chat_completion(messages, stream=True)
            if stream:
                for chunk in stream:
                    if chunk.choices[0].delta.content is not None:
                        content = chunk.choices[0].delta.content
                        print(content, end="", flush=True)
                        full_response += content
                print()  # 换行
                return full_response
        except Exception as e:
            print(f"流式对话错误: {e}")
            return ""

    def simple_chat(self, user_message, system_message=None):
        """简化版对话接口"""
        messages = []
        if system_message:
            messages.append({"role": "system", "content": system_message})
        messages.append({"role": "user", "content": user_message})

        response = self.chat_completion(messages)
        if response and response.choices:
            return response.choices[0].message.content
        return "请求失败"

# 使用示例
if __name__ == "__main__":
    # 初始化客户端
    llm_client = LLMClient()

    # 测试普通对话
    print("=== 普通对话测试 ===")
    response = llm_client.simple_chat(
        "请用中文介绍一下人工智能的发展历史",
        "你是一个有帮助的AI助手"
    )
    print(f"回复: {response}")

    print("\n=== 流式对话测试 ===")
    messages = [
        {"role": "system", "content": "你是一个诗人"},
        {"role": "user", "content": "写两首关于秋天的五言绝句"}
    ]
    llm_client.stream_chat(messages)

5.2 运行测试

执行测试脚本：

python client_demo.py

正常调用将显示类似以下输出：

=== 普通对话测试 ===
回复: 人工智能的发展历史可以追溯到20世纪50年代...

=== 流式对话测试 ===
AI: 秋风吹落叶，寒露湿衣裳...

6. 使用建议与最佳实践

6.1 参数配置建议

温度设置：推荐0.5-0.7之间（最佳0.6），避免输出重复或不连贯
提示工程：所有指令应包含在用户提示中，避免添加系统提示
数学问题：建议提示中加入"请逐步推理，并将最终答案放在\boxed{}内"
性能评估：建议多次测试取平均值

6.2 常见问题处理

模型输出空行：若模型输出"\n\n"，建议强制模型在每次输出开始时使用"\n"
显存不足：调整--gpu-memory-utilization参数降低显存占用
响应延迟：检查--max-model-len参数是否设置合理

7. 总结

通过本指南，您已经完成了DeepSeek-R1-Distill-Qwen-1.5B模型的vLLM部署与测试。关键要点包括：

使用vLLM框架可显著提升模型推理效率
通过--gpu-memory-utilization参数可灵活调整显存占用
模型在垂直领域任务中表现优异，特别适合边缘设备部署
遵循推荐参数设置可获得最佳生成效果

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Agent 状态机设计：为什么你的工具调用总失控？

DeepSeek技术社区

DeepSeek路由别名漂移实战：为什么一次模型表更新能引发客服工单风暴？

DeepSeek技术社区

换 embedding 模型必须重建索引？新旧向量空间混搭检索的工程真相

DeepSeek技术社区

所有评论(0)

查看更多评论

IYA1738

@weixin_35815766

已为社区贡献11条内容

DeepSeek-R1-Distill-Qwen-1.5B部署指南：vLLM启动，模型服务测试方法

IYA1738

DeepSeek-R1-Distill-Qwen-1.5B部署指南：vLLM启动，模型服务测试方法

1. DeepSeek-R1-Distill-Qwen-1.5B模型介绍

2. 环境准备与vLLM介绍

2.1 硬件与软件要求

2.2 vLLM框架简介

3. 模型下载与准备

3.1 获取模型文件

3.2 模型存放目录

4. 使用vLLM启动模型服务

4.1 创建启动脚本

4.2 显存优化配置

4.3 启动服务

4.4 验证服务状态

5. 模型服务测试方法

5.1 Python客户端测试代码

5.2 运行测试

6. 使用建议与最佳实践

6.1 参数配置建议

6.2 常见问题处理

7. 总结

所有评论(0)

温馨提示：您尚未绑定手机号

IYA1738