DeepSeek-R1-Distill-Qwen-1.5B部署指南：从安装到测试，完整流程详解

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像，实现轻量级大语言模型的快速应用。该镜像基于知识蒸馏技术，具备出色的数学推理和代码生成能力，适用于个人学习研究、快速原型验证等场景，让用户能够便捷地搭建AI对话与问答系统。

国营窝窝乡蛮大人

341人浏览 · 2026-04-26 04:50:51

国营窝窝乡蛮大人 · 2026-04-26 04:50:51 发布

DeepSeek-R1-Distill-Qwen-1.5B部署指南：从安装到测试，完整流程详解

想要在本地快速体验一个轻量级但能力不俗的大语言模型吗？DeepSeek-R1-Distill-Qwen-1.5B可能就是你的理想选择。这个只有15亿参数的模型，却能在很多任务上展现出接近70亿参数模型的推理能力，而且对硬件要求友好，普通消费级显卡就能流畅运行。

今天我就带你从零开始，一步步完成这个模型的部署和测试。无论你是AI新手还是有一定经验的开发者，跟着这个指南走，30分钟内就能让模型跑起来，开始和你对话。

1. 模型简介：为什么选择DeepSeek-R1-Distill-Qwen-1.5B

在开始部署之前，我们先简单了解一下这个模型的特点，这样你就能明白为什么它值得你花时间部署。

1.1 模型的核心优势

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术打造的轻量化版本。简单来说，就是用一个"大老师"教出一个"小学霸"——保留了核心能力，但体积小了很多。

这个模型有几个特别吸引人的地方：

小身材大能量：只有15亿参数，但在数学推理、代码生成等任务上表现相当不错
硬件要求低：普通显卡就能跑，甚至在一些边缘设备上也能部署
推理速度快：响应迅速，对话体验流畅
部署简单：支持多种部署方式，上手门槛低

1.2 适合的使用场景

这个模型特别适合以下几种情况：

个人学习研究：想了解大模型工作原理，但手头没有高端硬件
快速原型验证：需要快速验证某个AI应用的想法
边缘设备部署：需要在资源受限的环境中运行AI模型
教学演示：给学生或团队展示大模型的基本能力

2. 环境准备：部署前的准备工作

2.1 硬件要求

要运行这个模型，你的电脑需要满足以下基本要求：

GPU显存：至少4GB（推荐6GB以上）
内存：至少8GB（推荐16GB）
存储空间：至少10GB可用空间
操作系统：Linux或Windows（WSL2）

如果你没有独立显卡，用CPU也能运行，只是速度会慢一些。模型本身对硬件要求不算高，很多三四年前的游戏本都能流畅运行。

2.2 软件环境

我们需要准备几个必要的软件：

Python环境：建议使用Python 3.9或更高版本
CUDA工具包：如果你有NVIDIA显卡，需要安装对应版本的CUDA
必要的Python库：我们会在部署过程中安装

如果你使用的是预配置的AI开发环境（比如一些云平台提供的镜像），很多依赖可能已经装好了，可以跳过部分步骤。

3. 快速部署：使用vLLM启动模型

vLLM是一个专门为大语言模型推理优化的框架，它能显著提升模型的推理速度，而且使用起来很简单。下面我们就用vLLM来部署DeepSeek-R1-Distill-Qwen-1.5B。

3.1 安装vLLM

首先，我们需要安装vLLM。打开终端，执行以下命令：

# 安装vLLM，这里我们安装支持CUDA的版本
pip install vllm

# 如果你遇到网络问题，可以使用国内镜像源
# pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

安装过程可能需要几分钟，取决于你的网络速度。安装完成后，你可以验证一下是否安装成功：

python -c "import vllm; print('vLLM安装成功！')"

如果看到"vLLM安装成功！"的输出，说明安装没问题。

3.2 下载模型权重

vLLM支持直接从Hugging Face下载模型，但如果你在国内，可能会遇到网络问题。这里我提供两种方式：

方式一：直接从Hugging Face下载（推荐网络条件好的用户）

# 模型会自动下载到缓存目录
# 首次运行时会自动下载

方式二：手动下载模型文件

如果你无法直接访问Hugging Face，可以：

从国内镜像站下载模型文件
或者使用已经下载好的模型文件

模型下载后，你需要知道模型文件的存放路径，后续启动时会用到。

3.3 启动模型服务

现在我们来启动模型服务。创建一个简单的启动脚本能让你更方便地管理服务。

创建一个名为start_model.sh的文件（Linux/macOS）或start_model.bat文件（Windows），内容如下：

#!/bin/bash
# start_model.sh - 启动DeepSeek-R1-Distill-Qwen-1.5B模型服务

# 设置模型路径
MODEL_PATH="MindSpore-Lab/DeepSeek-R1-Distill-Qwen-1.5B"

# 设置服务端口
PORT=8000

# 设置Tensor并行度（根据你的GPU数量调整）
# 单GPU设置为1，多GPU可以设置为GPU数量
TP_SIZE=1

echo "正在启动DeepSeek-R1-Distill-Qwen-1.5B模型服务..."
echo "模型路径: $MODEL_PATH"
echo "服务端口: $PORT"
echo "Tensor并行度: $TP_SIZE"

# 使用vLLM启动模型
python -m vllm.entrypoints.openai.api_server \
    --model $MODEL_PATH \
    --port $PORT \
    --tensor-parallel-size $TP_SIZE \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --max-model-len 4096

给脚本添加执行权限（Linux/macOS）：

chmod +x start_model.sh

然后运行脚本：

./start_model.sh

如果你是Windows用户，可以直接在命令行中运行：

python -m vllm.entrypoints.openai.api_server --model MindSpore-Lab/DeepSeek-R1-Distill-Qwen-1.5B --port 8000 --tensor-parallel-size 1 --served-model-name DeepSeek-R1-Distill-Qwen-1.5B --max-model-len 4096

3.4 验证服务是否启动成功

服务启动后，我们需要确认它是否正常运行。有几种方法可以检查：

方法一：查看启动日志

服务启动时会在终端输出日志信息。如果看到类似下面的输出，说明启动成功：

INFO 07-15 14:30:25 llm_engine.py:72] Initializing an LLM engine with config: ...
INFO 07-15 14:30:25 model_runner.py:84] Loading model weights...
INFO 07-15 14:30:30 model_runner.py:121] Model loaded successfully.
INFO 07-15 14:30:30 llm_engine.py:159] Engine created successfully.
Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

方法二：检查服务端口

打开另一个终端，运行：

# 检查8000端口是否在监听
netstat -an | grep 8000

# 或者使用curl测试
curl http://localhost:8000/v1/models

如果服务正常，你会看到返回的模型信息。

方法三：查看进程状态

# 查看vLLM相关进程
ps aux | grep vllm

4. 模型测试：与AI对话的几种方式

服务启动成功后，我们就可以开始测试了。这里我提供几种不同的测试方法，你可以选择最适合你的方式。

4.1 使用Python客户端测试

这是最灵活的方式，你可以完全控制请求参数。创建一个测试脚本test_model.py：

from openai import OpenAI
import time

class DeepSeekClient:
    def __init__(self, base_url="http://localhost:8000/v1"):
        """初始化客户端"""
        self.client = OpenAI(
            base_url=base_url,
            api_key="none"  # vLLM通常不需要API密钥
        )
        self.model = "DeepSeek-R1-Distill-Qwen-1.5B"
        
    def simple_chat(self, user_message, system_message=None, temperature=0.7):
        """简单的单轮对话"""
        messages = []
        
        # 添加系统提示（如果有）
        if system_message:
            messages.append({"role": "system", "content": system_message})
        
        # 添加用户消息
        messages.append({"role": "user", "content": user_message})
        
        try:
            # 发送请求
            response = self.client.chat.completions.create(
                model=self.model,
                messages=messages,
                temperature=temperature,
                max_tokens=1024
            )
            
            # 返回AI的回复
            return response.choices[0].message.content
            
        except Exception as e:
            print(f"请求失败: {e}")
            return None
    
    def stream_chat(self, user_message, system_message=None):
        """流式对话，可以实时看到生成过程"""
        messages = []
        
        if system_message:
            messages.append({"role": "system", "content": system_message})
        messages.append({"role": "user", "content": user_message})
        
        print("AI: ", end="", flush=True)
        full_response = ""
        
        try:
            # 开启流式响应
            stream = self.client.chat.completions.create(
                model=self.model,
                messages=messages,
                temperature=0.7,
                max_tokens=1024,
                stream=True
            )
            
            # 逐块打印响应
            for chunk in stream:
                if chunk.choices[0].delta.content is not None:
                    content = chunk.choices[0].delta.content
                    print(content, end="", flush=True)
                    full_response += content
            
            print()  # 换行
            return full_response
            
        except Exception as e:
            print(f"流式对话失败: {e}")
            return ""
    
    def multi_turn_chat(self):
        """多轮对话示例"""
        print("=== 多轮对话开始 ===")
        print("输入 '退出' 或 'quit' 结束对话")
        print("=" * 30)
        
        messages = []
        
        while True:
            # 获取用户输入
            user_input = input("\n你: ").strip()
            
            if user_input.lower() in ['退出', 'quit', 'exit']:
                print("对话结束")
                break
            
            # 添加用户消息到历史
            messages.append({"role": "user", "content": user_input})
            
            # 获取AI回复
            print("AI: ", end="", flush=True)
            
            try:
                stream = self.client.chat.completions.create(
                    model=self.model,
                    messages=messages,
                    temperature=0.7,
                    max_tokens=1024,
                    stream=True
                )
                
                ai_response = ""
                for chunk in stream:
                    if chunk.choices[0].delta.content is not None:
                        content = chunk.choices[0].delta.content
                        print(content, end="", flush=True)
                        ai_response += content
                
                print()
                
                # 添加AI回复到历史
                messages.append({"role": "assistant", "content": ai_response})
                
            except Exception as e:
                print(f"对话出错: {e}")
                break


# 测试函数
def run_tests():
    """运行一系列测试"""
    client = DeepSeekClient()
    
    print("=== 测试1: 简单问答 ===")
    response = client.simple_chat(
        "请用中文简单介绍一下人工智能",
        "你是一个有帮助的AI助手"
    )
    print(f"回复: {response}")
    
    print("\n=== 测试2: 流式对话 ===")
    client.stream_chat(
        "写一首关于春天的诗",
        "你是一个诗人"
    )
    
    print("\n=== 测试3: 数学问题 ===")
    # 对于数学问题，使用推荐的提示格式
    math_prompt = """请逐步推理，并将最终答案放在\\boxed{}内。
问题：如果一个长方形的长是8厘米，宽是5厘米，它的面积是多少？"""
    
    response = client.simple_chat(math_prompt, temperature=0.6)
    print(f"数学问题回复: {response}")
    
    print("\n=== 测试4: 代码生成 ===")
    code_response = client.simple_chat(
        "用Python写一个函数，计算斐波那契数列的第n项",
        "你是一个编程助手"
    )
    print(f"代码生成回复: {code_response}")


if __name__ == "__main__":
    # 运行预设测试
    run_tests()
    
    # 或者启动交互式对话
    # client = DeepSeekClient()
    # client.multi_turn_chat()

运行这个测试脚本：

python test_model.py

你应该能看到模型对各种问题的回复。如果一切正常，恭喜你，模型已经成功部署并可以正常工作了！

4.2 使用curl命令测试

如果你喜欢用命令行工具，也可以用curl直接测试：

# 测试模型列表接口
curl http://localhost:8000/v1/models

# 测试对话接口
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-1.5B",
    "messages": [
      {"role": "system", "content": "你是一个有帮助的AI助手"},
      {"role": "user", "content": "你好，请介绍一下你自己"}
    ],
    "temperature": 0.7,
    "max_tokens": 100
  }'

4.3 使用Web界面测试

如果你想要更直观的界面，可以搭建一个简单的Web界面。这里提供一个使用Gradio的示例：

import gradio as gr
from openai import OpenAI

# 初始化客户端
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="none"
)

def chat_with_ai(message, history, temperature):
    """处理聊天请求"""
    # 构建消息历史
    messages = []
    
    # 添加系统提示
    messages.append({"role": "system", "content": "你是一个有帮助的AI助手"})
    
    # 添加历史对话
    for human, assistant in history:
        messages.append({"role": "user", "content": human})
        messages.append({"role": "assistant", "content": assistant})
    
    # 添加当前消息
    messages.append({"role": "user", "content": message})
    
    try:
        # 获取AI回复
        response = client.chat.completions.create(
            model="DeepSeek-R1-Distill-Qwen-1.5B",
            messages=messages,
            temperature=temperature,
            max_tokens=1024
        )
        
        return response.choices[0].message.content
        
    except Exception as e:
        return f"请求失败: {str(e)}"

# 创建Gradio界面
demo = gr.ChatInterface(
    fn=chat_with_ai,
    additional_inputs=[
        gr.Slider(0, 1, value=0.7, label="温度", info="控制回复的随机性")
    ],
    title="DeepSeek-R1-Distill-Qwen-1.5B聊天演示",
    description="与本地部署的DeepSeek模型对话"
)

# 启动界面
if __name__ == "__main__":
    demo.launch(server_name="0.0.0.0", server_port=7860)

运行这个脚本后，在浏览器中打开http://localhost:7860，就能看到一个聊天界面了。

5. 使用技巧与优化建议

5.1 参数调优建议

根据官方建议和实际测试，这里有一些参数设置的建议：

温度（temperature）：设置在0.5-0.7之间，推荐0.6。太低会让回复过于死板，太高会让回复太随机
最大生成长度（max_tokens）：根据任务需要设置，一般对话可以设1024，长文本生成可以设2048
系统提示：这个模型建议不要使用系统提示，所有指令都放在用户消息中

对于数学问题，建议在提示中加入特定指令：

math_prompt = """请逐步推理，并将最终答案放在\\boxed{}内。
问题：你的数学问题在这里"""

5.2 性能优化技巧

如果你发现模型运行速度不够快，可以尝试以下优化：

使用量化版本：如果显存紧张，可以尝试加载INT8量化版本的模型
调整批处理大小：如果同时处理多个请求，可以适当调整批处理大小
使用更快的硬件：如果有条件，使用性能更好的GPU
优化提示长度：过长的提示会影响推理速度，尽量保持提示简洁

5.3 常见问题解决

在部署和使用过程中，你可能会遇到一些问题。这里列出几个常见问题及解决方法：

问题1：显存不足

解决方案：尝试使用量化版本，或者减少max_tokens参数

问题2：模型下载失败

解决方案：手动下载模型文件，然后指定本地路径

问题3：响应速度慢

解决方案：检查硬件资源使用情况，可能需要关闭其他占用资源的程序

问题4：回复质量不高

解决方案：调整temperature参数，优化提示词，或者尝试不同的提示格式

6. 实际应用示例

6.1 构建简单的问答系统

让我们用这个模型构建一个简单的问答系统：

class QASystem:
    def __init__(self):
        self.client = OpenAI(
            base_url="http://localhost:8000/v1",
            api_key="none"
        )
        self.model = "DeepSeek-R1-Distill-Qwen-1.5B"
        self.context = ""  # 可以存储对话上下文
        
    def answer_question(self, question, domain="general"):
        """回答特定领域的问题"""
        
        # 根据领域调整提示
        if domain == "math":
            prompt = f"请逐步推理，并将最终答案放在\\boxed{{}}内。\n问题：{question}"
        elif domain == "code":
            prompt = f"你是一个编程专家，请用专业但易懂的方式回答：{question}"
        elif domain == "creative":
            prompt = f"你是一个创意作家，请发挥想象力回答：{question}"
        else:
            prompt = f"请用中文清晰、准确地回答：{question}"
        
        try:
            response = self.client.chat.completions.create(
                model=self.model,
                messages=[{"role": "user", "content": prompt}],
                temperature=0.6,
                max_tokens=512
            )
            
            return response.choices[0].message.content
            
        except Exception as e:
            return f"抱歉，回答问题时出现错误：{str(e)}"
    
    def batch_process(self, questions, domain="general"):
        """批量处理问题"""
        results = []
        for question in questions:
            answer = self.answer_question(question, domain)
            results.append({
                "question": question,
                "answer": answer
            })
        return results


# 使用示例
if __name__ == "__main__":
    qa_system = QASystem()
    
    # 测试不同领域的问题
    questions = [
        ("计算圆的面积，半径为5厘米", "math"),
        ("用Python实现快速排序算法", "code"),
        ("写一个关于未来城市的小故事", "creative"),
        ("什么是机器学习？", "general")
    ]
    
    for question, domain in questions:
        print(f"\n问题（{domain}）: {question}")
        print("-" * 50)
        answer = qa_system.answer_question(question, domain)
        print(f"回答: {answer}")
        print("=" * 50)

6.2 集成到现有应用

如果你想把模型集成到现有的Web应用或服务中，可以创建一个简单的API服务：

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import List, Optional
import uvicorn

app = FastAPI(title="DeepSeek模型API服务")

# 请求和响应模型
class ChatRequest(BaseModel):
    messages: List[dict]
    temperature: Optional[float] = 0.7
    max_tokens: Optional[int] = 1024

class ChatResponse(BaseModel):
    response: str
    model: str
    usage: dict

# 初始化客户端
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="none"
)

@app.post("/chat", response_model=ChatResponse)
async def chat_completion(request: ChatRequest):
    """聊天补全接口"""
    try:
        response = client.chat.completions.create(
            model="DeepSeek-R1-Distill-Qwen-1.5B",
            messages=request.messages,
            temperature=request.temperature,
            max_tokens=request.max_tokens
        )
        
        return ChatResponse(
            response=response.choices[0].message.content,
            model=response.model,
            usage={
                "prompt_tokens": response.usage.prompt_tokens,
                "completion_tokens": response.usage.completion_tokens,
                "total_tokens": response.usage.total_tokens
            }
        )
        
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.get("/health")
async def health_check():
    """健康检查接口"""
    return {"status": "healthy", "model": "DeepSeek-R1-Distill-Qwen-1.5B"}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8080)

运行这个API服务后，其他应用就可以通过HTTP请求来调用模型了。

7. 总结

通过这篇指南，我们完成了DeepSeek-R1-Distill-Qwen-1.5B模型的完整部署流程。从环境准备到服务启动，从基础测试到实际应用，每一步我都尽量详细地说明了操作方法和注意事项。

7.1 核心要点回顾

模型选择合理：DeepSeek-R1-Distill-Qwen-1.5B是一个平衡了性能和资源消耗的好选择，特别适合个人开发者和学习使用
部署过程简单：使用vLLM框架，几行命令就能启动服务，不需要复杂的配置
使用方式灵活：可以通过Python客户端、curl命令、Web界面等多种方式与模型交互
应用场景广泛：可以用于问答系统、代码生成、创意写作、数学解题等多种任务

7.2 后续学习建议

如果你已经成功部署并测试了模型，接下来可以尝试：

探索更多功能：尝试不同的提示词，看看模型在不同任务上的表现
性能优化：调整参数，寻找最适合你使用场景的配置
集成到项目：把模型集成到你自己的应用中，比如聊天机器人、写作助手等
学习模型原理：深入了解模型的工作原理和训练方法

7.3 遇到问题怎么办

如果在部署或使用过程中遇到问题：

查看日志：仔细阅读错误信息和日志输出
检查环境：确认所有依赖都正确安装
查阅文档：参考vLLM和DeepSeek的官方文档
社区求助：在相关技术社区提问，很多人可能遇到过类似问题

记住，技术实践过程中遇到问题是正常的，解决问题的过程本身就是最好的学习。希望这个指南能帮助你顺利开始使用DeepSeek-R1-Distill-Qwen-1.5B模型，探索AI世界的更多可能性。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

vLLM适配昇腾NPU：DeepSeek-V3 PD分离部署完整流程

做过大模型推理优化的朋友都知道,Prefill和Decode这两个阶段的性质完全不同:Prefill阶段就像是读完整本书做笔记——需要把用户输入的完整prompt编码成隐藏状态,同时生成KV Cache。这个过程计算量大,吃算力。Decode阶段更像是一个字一个字往外蹦——每次只生成一个token,一直重复到结束。这个过程主要瓶颈在显存带宽,属于典型的访存密集型任务。两个阶段混在一起跑,就会出现资

DeepSeek技术社区

2026 免费GEO监测：AI搜索优化实用工具推荐

它基于独创的SHEEP框架，从语义覆盖、可信度、结构化、生态、性能五个维度对品牌的GEO表现进行全面评估。它支持DeepSeek、Kimi、豆包、文心一言、混元、智谱、秘塔、千问、讯飞星火全部9个模型。本文选取目前市场上主流的5款GEO工具，从功能完整性、AI模型支持、易用性、性价比四个核心维度进行深度评测，为企业选择合适的GEO工具提供参考。• 9模型同时检测：支持DeepSeek、Kimi、豆