Windows环境简易部署Deepseek-r1蒸馏模型方法

Windows系统环境下，使用Lm Studio简易部署DeepSeek模型。也可以加载其他可用gguf模型

马大胡子

935人浏览 · 2025-04-08 10:41:28

马大胡子 · 2025-04-08 10:41:28 发布

文章目录

系统版本与使用的工具
具体操作步骤
模型的使用
使用LM Studio的网络功能
- 1.开启网络服务器的功能
- 2.如果你想在WPS里使用你本地部署的模型，那么……
关于各种量化版本标识符的对比
- **量化标识符对比表**
- **选择建议**

DeepSeek近期非常火热，而且好多平台都有本地部署的视频介绍，像我这样的普通ai爱好者也是风风火火的去跟风了，想想自己电脑搞个好像挺牛的。
为了给像我这样啥也不懂的，又想自己部署Deepseek尝试的同志一份参考，所以把我在用了十年的办公老PC上部署Deepseek的过程记录下来了。

系统版本与使用的工具

PC配置： Intel® Core™ i3-4160 CPU @ 3.60GHz 3.60 GHz 16.0 GB 无独显GPU
系统版本： Windows 10 IoT 企业版 LTSC为例，版本号：21H2，内部版本号：19044.5608
使用工具： LM Studio

大模型的运行主要就是三样：CPU+GPU+内存，在尝试的时候其实不需要纠结，正常目前标配的个人PC都能跑起来（反正我十年前的i3四代是可以的），内存必须16GB以上，不然模型都加载不了。

具体操作步骤

1.进入LM Studio官网下载安装程序：https://lmstudio.ai/download

打开官方网站，下载最新版本就行，之所以选择lm studio主要是简单，其次：

应用内自带聊天界面：LM Studio提供了应用内聊天用户界面，用户可以选择已下载的模型进行对话聊天，并可以设置聊天参数，如GPU使用、聊天上下文长度等。
兼容OpenAI的本地服务器：用户可以通过启动本地HTTP服务器，模拟OpenAI API接口，非常方便的使用http调用本地部署的模型，比如WPS插件海鹦officeAi。
多模型推理聊天：允许同时加载多个模型，并行处理用户问题，提高聊天响应速度和多样性。
模型管理：提供模型下载、删除以及打开模型目录等功能，方便用户管理本地模型。

2.默认安装完成。

需要注意的是:默认安装后模型的路径是：C:\Users\用户名\.lmstudio\models\（此路径可以在程序中修改）,但模型文件放置的结构要以下面的相同，才能正确识别：

C:\user\用户名\.lmstudi\models
├── my-models
│ ├── DeepSeek-R1-Distill-Qwen-7B-Q2_K
│ └── DeepSeek-R1-Distill-Qwen-7B-Q2_K.gguf
├── lmstudio-community
├── Qwen2-Math-1.5B-Instruct-GGUF
└── Qwen2-Math-1.5B-Instruct-Q4_K_M.gguf

my_models是自己下载的模型路径（需要自己创建）
lmstudio-community是软件下载模型存放路径
模型的选择一般是GGUF类型的模型，也就是.gguf文件，并存放在与文件名相同的文件夹中

例如：我下载了一个模型“DeepSeek-R1-Distill-Qwen-7B-Q2_K.gguf”，文件路径如下图所示

请添加图片描述
注意：文件与文件夹同名

3.启动LM Studio

默认安装完成后，即可像其他应用一样，双击桌面图标启动，界面如下：
请添加图片描述
LM Studio的使用界面很简单，这里就不多说了。
正常启动后，我们就可以选择需要的的模型加载。

4.模型的下载，有两种方式

第一种：直接下载LM Studio官方提供的模型使用

到官网查看，选择下载，然后存放到上述模型的文件夹里，地址：https://lmstudio.ai/models
或者在应用里打开应用设置（按"Ctrl+,"），选择可加载的模型下载：

请添加图片描述
第二种：到其他站点下载GGUF模型，并按要求在正确路径的目录下存放模型文件

推荐站点：hf-mirror.com，根据需要搜索所需模型
请添加图片描述

搜索时一定要注意：模型名称(例如：DeepSeek-r1)和模型类型(GGUF)
不是很了解一些模型关键词或内容的，建议用第一种方法

5.加载模型

下载好模型，就可以点击最上方“选择加载的模型（或按Ctrl+L），选择模型加载：
请添加图片描述
点击要加载的模型后，需要进行模型加载的参数调整，调整完点击加载模型。需要调整的参数有以下几个，其余参数随便（根据自己PC配置适当调整，过高则可能模型加载失败，过低则可能模型使用时速度较慢）：

上下文长度：决定模型能够处理的最大文本长度，不易太大，默认4096即可，如果速度太慢则调低数值
GPU卸载：一般参考GPU显存大小调整，可以先选择一个中值，根据实际的显存占用率和模型推理速度，适当增减
CPU Thread pool Size：一般调到最大

如果出现加载失败，可以把GPU调到最低，不使用GPU加载模型，速度太慢，则降低上下文长度

至此，本地部署完成。

模型的使用

当加载模型成功后，既可以使用。LM Studio自带聊天窗口，不需要再去下载另外的工具。

例如：
请添加图片描述

可以根据上图红线所示，对模型参数重新调整。

使用LM Studio的网络功能

1.开启网络服务器的功能

即把本地电脑用做服务器，并提供网络访问：提供http访问加载的模型。

点击软件最右侧“开发者”图标，进入开发者面板

请添加图片描述

打开：Status:Stopped后的开关，Settings可以调整简单的网络参数，比如端口号

请添加图片描述

Status状态：有Stopped===>Running
请添加图片描述

按之前模型加载的方法，加载提供服务的模型

此时，你就已经开通了网络访问已加载模型的网络服务了。
正常启动服务后，Lm Studio会对本地1234端口监听，不需要自己预加载模型，使用客户端时会启动选择的模型自动加载。
当然，如果你在浏览器地址栏里直接输入：http://192.168.0.1:1234，你得到的是：

这是因为，这里的地址只是一个服务接口地址，而你又没有提供对应的访问方法，所以不能直接使用。

这里需要通过HTTP接口访问大规模模型服务的工具，推荐工具Chatbox，其他的还有LangChain、Cheerry Studio、AnythingLLM、Streamlit等。

2.如果你想在WPS里使用你本地部署的模型，那么……

下载海鹦OfficeAI助手，并安装它，海鹦安全科技有限公司官网地址(https://www.haiyingsec.cn/)

安装完成后，你会发现在你的WPS工具栏处多了一个插件：
请添加图片描述
点击插件，找到它的设置对话框：

在大模型设置==>本地==>这些模型"lmstudio"，并填入模型服务器地址：http://192.168.0.1 ，选择模型名，点击保存。就可以使用了。
右侧对话框会限制，加载使用的模型

关于各种量化版本标识符的对比

以下是常见量化标识符的对比表，涵盖参数位宽、分组策略、适用场景等关键信息：

量化标识符对比表

标识符	位数	分组块大小	混合精度	适用场景	精度 vs 体积
Q2	2-bit	32-64	否	极低显存设备，简单任务	体积最小，精度损失大
Q2_K	2-bit	256	是	平衡压缩与精度，通用任务	体积稍大，精度优于 Q2
Q3_K	3-bit	128-256	是	低显存 GPU，中等复杂度任务	体积适中，精度接近 Q4
Q3_K_S	3-bit	64	是	快速推理，资源严格受限	精度略低于 Q3_K
Q3_K_M	3-bit	256	是	通用场景，平衡性能	精度优于 Q3_K_S
Q4_0	4-bit	32	否	基础 4-bit 量化，快速推理	精度一般，体积中等
Q4_K	4-bit	64-256	是	通用任务首选	精度高，体积略大
Q4_K_S	4-bit	64	是	显存紧张时的轻量级选择	精度略低于 Q4_K
Q4_K_M	4-bit	256	是	需高精度的复杂任务	精度接近原模型
Q5_0	5-bit	32	否	对精度敏感的低压缩需求	体积较大，精度较高
Q5_K	5-bit	128-256	是	高精度要求，中等显存设备	精度接近无损，体积大
Q5_K_S	5-bit	64	是	快速高精度推理	精度略低于 Q5_K
Q5_K_M	5-bit	256	是	最高精度需求（如学术研究）	精度几乎无损
Q8_0	8-bit	32	否	无损量化，兼容性测试	体积大，精度与原模型一致

关键说明

位数：单个参数的存储位数，位数越高精度保留越好，但体积越大。
分组块大小：
- 块越小（如 64），计算效率越高，但误差可能累积。
- 块越大（如 256），统计分布更稳定，精度更高。
混合精度：
- 例如 Q2_K 可能在块内对重要参数使用 4-bit，非关键参数用 2-bit。
适用场景：
- 低显存设备：优先选 Q2_K、Q3_K_S。
- 通用任务：选 Q4_K_M 或 Q5_K_M。
- 无损推理：选 Q8_0（需足够显存）。