DeepSeek-R1-Distill-Qwen-1.5B保姆级教程：3分钟本地部署，手机电脑都能跑

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像，实现轻量级AI对话助手的快速搭建。该镜像专为低配置设备优化，支持在手机、电脑等终端流畅运行，适用于编程辅助、学习问答等场景，3分钟即可完成本地部署。

爱你不会累

47人浏览 · 2026-03-25 00:59:27

爱你不会累 · 2026-03-25 00:59:27 发布

DeepSeek-R1-Distill-Qwen-1.5B保姆级教程：3分钟本地部署，手机电脑都能跑

你是不是也想在本地运行一个强大的AI对话助手，但又担心设备性能不够？今天我要介绍的DeepSeek-R1-Distill-Qwen-1.5B模型，就是专为这种情况设计的"小钢炮"——它只有1.5B参数，却能达到7B模型的推理能力，甚至能在手机和树莓派上流畅运行。

本文将带你从零开始，用最简单的方式在本地部署这个模型。无论你是Windows、Mac还是Linux用户，都能在3分钟内完成部署并开始使用。我们还会介绍如何通过网页界面与模型交互，让你像使用ChatGPT一样方便地体验这个强大的本地AI助手。

1. 环境准备：了解你的"小钢炮"

1.1 为什么选择DeepSeek-R1-Distill-Qwen-1.5B？

DeepSeek-R1-Distill-Qwen-1.5B是深度求索团队基于Qwen-1.5B模型，使用80万条R1推理链样本进行知识蒸馏得到的轻量级模型。它最大的特点就是"小而强"：

体积小：FP16格式仅3GB，量化后可以压缩到0.8GB
性能强：在MATH数据集上得分80+，HumanEval得分50+
硬件要求低：6GB显存即可全速运行，甚至能在手机和嵌入式设备上使用
功能全面：支持4K上下文长度、JSON格式输出、函数调用等功能

1.2 检查你的设备要求

在开始部署前，先确认你的设备是否满足最低要求：

设备类型	最低配置	推荐配置
台式机/笔记本	4GB内存	8GB内存+6GB显存
Mac电脑	M1芯片	M1 Pro或更高
手机	骁龙865/天玑1200	骁龙8 Gen2/天玑9200+
开发板	树莓派4B	RK3588系列

如果你的设备符合上述任一配置，就可以继续下面的部署步骤了。

2. 快速部署：3分钟启动模型服务

2.1 一键启动Docker容器

最简单的方式是通过Docker快速部署。确保你已经安装了Docker，然后在终端运行以下命令：

docker run -d --name deepseek-qwen \
  -p 7860:7860 \
  -p 8888:8888 \
  --gpus all \
  registry.cn-hangzhou.aliyuncs.com/csdn_mirror/deepseek-r1-distill-qwen-1.5b:latest

这个命令会从镜像仓库拉取预配置好的Docker镜像，并启动两个服务：

7860端口：Open-WebUI对话界面
8888端口：Jupyter Notebook开发环境

如果你的设备没有GPU，可以去掉--gpus all参数，模型会使用CPU运行（速度会慢一些）。

2.2 等待服务启动

镜像下载完成后，服务会自动启动。首次运行需要加载模型，这个过程可能需要1-3分钟，取决于你的设备性能。你可以通过以下命令查看日志：

docker logs -f deepseek-qwen

当看到类似下面的输出时，说明服务已经就绪：

vLLM is running on http://0.0.0.0:8000
Open-WebUI is running on http://0.0.0.0:7860

2.3 访问Web界面

服务启动后，打开浏览器访问：

对话界面：http://localhost:7860
Jupyter开发环境：http://localhost:8888

如果你是在远程服务器上部署，需要将localhost替换为服务器的IP地址。

3. 开始使用：与你的AI助手对话

3.1 登录WebUI

打开http://localhost:7860后，你会看到登录界面。使用以下默认账号登录：

用户名：kakajiang@kakajiang.com
密码：kakajiang

登录成功后，就能看到一个类似ChatGPT的聊天界面。

3.2 基础对话体验

在底部的输入框中，你可以像使用其他聊天机器人一样与模型交互。试着输入一些简单问题：

你好，你能做什么？

模型会回复它的能力和使用场景。你可以继续追问更具体的问题：

请用Python写一个快速排序算法

模型会生成完整的代码实现，并可以解释算法原理。

3.3 高级功能尝试

DeepSeek-R1-Distill-Qwen-1.5B支持一些高级功能：

多轮对话：模型能记住上下文，你可以进行深入的连续对话
代码执行：在Jupyter环境中可以直接运行模型生成的代码
文件解析：上传txt、pdf等文件，模型可以读取并分析内容
函数调用：通过特殊格式的提示词，可以让模型输出结构化数据

4. 常见问题与解决方案

4.1 部署问题排查

问题1：Docker启动失败，提示GPU相关错误

解决方案：

确认已安装NVIDIA驱动和CUDA工具包
运行nvidia-smi检查GPU状态
如果没有GPU，去掉--gpus all参数

问题2：服务启动后无法访问7860端口

解决方案：

检查防火墙设置，确保端口开放
运行docker ps确认容器状态
查看日志docker logs deepseek-qwen找错误信息

4.2 使用中的问题

问题1：模型响应速度慢

解决方案：

检查设备资源使用情况（CPU/GPU/内存）
尝试量化模型（修改启动参数）
减少上下文长度

问题2：模型回答质量不稳定

解决方案：

优化你的提示词，更明确地表达需求
设置合适的temperature参数（0.7左右通常较好）
对于复杂问题，拆分成多个简单问题

5. 进阶使用指南

5.1 通过API调用模型

除了Web界面，你也可以通过API与模型交互。服务启动后，vLLM的API端点位于：

http://localhost:8000/v1/completions

你可以用curl测试：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1-distill-qwen-1.5b",
    "prompt": "请解释量子计算的基本原理",
    "max_tokens": 300,
    "temperature": 0.7
  }'

或者用Python编写客户端：

import requests

def ask_model(prompt):
    url = "http://localhost:8000/v1/completions"
    headers = {"Content-Type": "application/json"}
    data = {
        "model": "deepseek-r1-distill-qwen-1.5b",
        "prompt": prompt,
        "max_tokens": 300,
        "temperature": 0.7
    }
    response = requests.post(url, headers=headers, json=data)
    return response.json()["choices"][0]["text"]

print(ask_model("用简单的语言解释区块链技术"))

5.2 模型量化与优化

如果你的设备性能有限，可以考虑对模型进行量化。在启动容器时，可以添加量化参数：

docker run -d --name deepseek-qwen \
  -p 7860:7860 \
  -e QUANTIZE=q4_k_m \
  registry.cn-hangzhou.aliyuncs.com/csdn_mirror/deepseek-r1-distill-qwen-1.5b:latest

支持的量化级别包括：