DeepSeek-R1-Distill-Qwen-1.5B手把手教学：从安装到调用的完整流程

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像，实现高效AI推理功能。该轻量化模型特别适合法律、医疗等专业领域的智能问答场景，通过知识蒸馏技术优化，在普通GPU上也能流畅运行，显著提升响应速度和服务质量。

Jump小酱

21人浏览 · 2026-03-21 01:21:16

Jump小酱 · 2026-03-21 01:21:16 发布

DeepSeek-R1-Distill-Qwen-1.5B手把手教学：从安装到调用的完整流程

1. 模型简介与环境准备

1.1 DeepSeek-R1-Distill-Qwen-1.5B模型特点

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术优化而来的轻量化版本。这个模型特别适合需要快速响应和高效推理的场景，具有以下三大优势：

轻量高效：模型参数量控制在1.5B级别，内存占用比原模型减少75%，在普通GPU上也能流畅运行
垂直优化：针对法律、医疗等专业领域进行了特别训练，在这些场景下的表现提升12-15%
部署友好：支持INT8量化，在边缘设备上也能实现实时推理

1.2 系统环境要求

在开始安装前，请确保您的系统满足以下最低要求：

操作系统：Ubuntu 20.04或更高版本（其他Linux发行版也可）
GPU：NVIDIA显卡（T4及以上），显存≥16GB
驱动：CUDA 11.8+，cuDNN 8.6+
Python：3.8-3.10版本

建议使用conda创建独立环境：

conda create -n deepseek python=3.10
conda activate deepseek

2. 模型安装与启动

2.1 安装依赖包

首先安装必要的Python包：

pip install vllm openai transformers

这些包的作用分别是：

vllm：高性能推理框架
openai：兼容OpenAI API的客户端
transformers：模型加载和转换工具

2.2 启动模型服务

使用以下命令启动模型服务：

python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \
    --tensor-parallel-size 1 \
    --dtype auto \
    --quantization awq \
    --max-model-len 4096 \
    --port 8000

参数说明：

--quantization awq：使用4-bit量化，大幅减少显存占用
--max-model-len 4096：设置最大上下文长度
--port 8000：服务监听端口

如果您的设备不支持量化，可以去掉--quantization参数，模型将以FP16精度运行。

3. 验证服务状态

3.1 检查服务日志

进入工作目录查看启动日志：

cd /root/workspace
cat deepseek_qwen.log

成功启动时，日志中会显示类似以下信息：

INFO: Application startup complete.
INFO: Uvicorn running on http://0.0.0.0:8000

3.2 测试API连通性

可以通过curl命令简单测试服务是否正常：

curl http://localhost:8000/v1/models

正常响应应返回模型信息：

{
  "data": [{
    "id": "DeepSeek-R1-Distill-Qwen-1.5B",
    "object": "model"
  }]
}

4. 模型调用实战

4.1 基础调用方法

下面是一个完整的Python调用示例，包含了普通对话和流式对话两种模式：

from openai import OpenAI

# 初始化客户端
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="none"  # vLLM不需要API密钥
)

# 普通对话示例
response = client.chat.completions.create(
    model="DeepSeek-R1-Distill-Qwen-1.5B",
    messages=[
        {"role": "system", "content": "你是一个专业的法律顾问"},
        {"role": "user", "content": "劳动合同中竞业限制条款的有效期最长是多久？"}
    ],
    temperature=0.6,
    max_tokens=256
)
print(response.choices[0].message.content)

# 流式对话示例
stream = client.chat.completions.create(
    model="DeepSeek-R1-Distill-Qwen-1.5B",
    messages=[{"role": "user", "content": "用简单语言解释量子计算"}],
    stream=True
)

print("AI回复：", end="")
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

4.2 专业领域调用技巧

针对不同领域，这里提供一些优化提示词的建议：

法律咨询：

messages = [
    {"role": "user", "content": "根据中国劳动合同法，请回答：\n员工在什么情况下可以立即解除劳动合同？\n请分点列出法律依据"}
]

医疗问答：

messages = [
    {"role": "user", "content": "我最近经常头晕，血压140/90，可能是什么原因？需要注意什么？\n请用通俗语言回答，并给出3条具体建议"}
]

数学问题：

messages = [
    {"role": "user", "content": "解方程x²-5x+6=0\n请分步推导，并将最终答案放在\\boxed{}中"}
]

5. 常见问题解决

5.1 服务启动失败排查

如果服务无法启动，可以按以下步骤排查：

检查GPU驱动：
```
nvidia-smi
```
确认CUDA版本和GPU状态

查看详细日志：

vllm.entrypoints.openai.api_server --help

测试显存是否足够：
```
free -h
```

5.2 调用时的问题处理

问题1：响应速度慢

解决方案：降低max_tokens值，或启用流式响应

问题2：回答不连贯

解决方案：调整temperature到0.5-0.7之间，推荐0.6

问题3：数学问题不显示推导过程

解决方案：在提示中明确要求"分步推导"

6. 进阶使用建议

6.1 性能优化技巧

批处理请求：同时发送多个问题，提高GPU利用率
量化部署：使用AWQ或GPTQ量化模型，减少显存占用
缓存管理：定期重启服务清理KV缓存

6.2 实际应用场景

这个模型特别适合以下场景：

智能客服：快速响应常见问题
教育辅助：解答数学、科学问题
专业咨询：提供法律、医疗等领域的初步建议
内容生成：撰写专业领域的短文或报告

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

多租户推理服务中的配额与熔断：为什么你的 API 网关成了性能瓶颈？

DeepSeek技术社区

长上下文窗口的隐性成本：DeepSeek-V4 128K 上下文下的噪声与计费平衡

DeepSeek技术社区

RAG安全：为什么仅靠输入清洗无法防御文档中的指令注入？

DeepSeek技术社区

所有评论(0)

查看更多评论

Jump小酱

@weixin_36012152

已为社区贡献20条内容

DeepSeek-R1-Distill-Qwen-1.5B手把手教学：从安装到调用的完整流程

Jump小酱

DeepSeek-R1-Distill-Qwen-1.5B手把手教学：从安装到调用的完整流程

1. 模型简介与环境准备

1.1 DeepSeek-R1-Distill-Qwen-1.5B模型特点

1.2 系统环境要求

2. 模型安装与启动

2.1 安装依赖包

2.2 启动模型服务

3. 验证服务状态

3.1 检查服务日志

3.2 测试API连通性

4. 模型调用实战

4.1 基础调用方法

4.2 专业领域调用技巧

5. 常见问题解决

5.1 服务启动失败排查

5.2 调用时的问题处理

6. 进阶使用建议

6.1 性能优化技巧

6.2 实际应用场景

所有评论(0)

温馨提示：您尚未绑定手机号

Jump小酱