基于Ktransformer部署DeepSeek-R1模型

我这边离线机器跑起来居然没有报错，成功后可以访问10012端口看看，一般会显示detail Not Found，访问后缀加/web/index.html即可进入聊天页面。其中gguf_path为gguf文件路径，需要有config配置文件在同一路径；记录一次在离线机器上使用kt框架部署Deepseek:671B模型过程。model_path为模型路径，不知道为什么没有后会报错（再看看；cpu_in

qq_47814951

212人浏览 · 2025-03-18 17:07:55

qq_47814951 · 2025-03-18 17:07:55 发布

记录一次在离线机器上使用kt框架部署Deepseek:671B模型过程

一、前置准备下载（在联网的机器上操作）

1.deepseek模型下载：

DeepSeek-R1-GGUF · 模型库

我这里下载的是Q5模型

2.模型配置文件下载：

我用的是知乎大佬提供的配置文件：跳转中...

3.kt框架下载：

考虑到要部署到离线机器，这里选择使用docker部署方式，下载docker镜像：

docker.io/approachingai/ktransformers 项目中国可用镜像列表 | 高速可靠的 Docker 镜像资源

将镜像打包

docker save -o xxx.tar xxx:xxx

二、部署步骤（离线机器）

将前面下载的文件都转移到离线机器中，gguf模型文件和模型配置文件放同一目录DeepSeek下方便使用，使用docker启动容器：

docker load -i xxx.tar #加载镜像
docker run --gpus all -v /DeepSeek/:/models --name kt -p 10012:10012 -itd ktransformers:0.2.2

其中绑定目录、端口、镜像名以本机为准。

容器创建成功后进入容器，输入命令以启动：(以你机器为准，我这里在workspace下运行

本地聊天：
python -m ktransformers.local_chat --gguf_path /models/ --model_path /models/ --max_new_tokens 2048 --cpu_infer 64 --port 10012
服务版：
ktransformers --gguf_path /models/ --model_path /models/ --model_name deepseek-r1-q5 --max_new_tokens 2048 --cpu_infer 64 --port 10012 --force_think --optimize_config_path ktransformers/ktransformers/optimize/optimize_rulse/DeepSeek-V3-Chat.yaml --web True

其中gguf_path为gguf文件路径，需要有config配置文件在同一路径；

model_path为模型路径，不知道为什么没有后会报错（再看看；

cpu_infer为用于推理CPU线程数，越多越快？

max_new_tokens 输出token最大长度，太大会内存不足OOM！

我这边离线机器跑起来居然没有报错，成功后可以访问10012端口看看，一般会显示detail Not Found，访问后缀加/web/index.html即可进入聊天页面。

PS：

现在docker源有kt版本最新为0.2.3，本地对话是可以跑，但服务版会提示没有openai，用.2.2吧；

自带对话网页index.html远程访问会导致对话失败，github中大佬已经找到原因了，需要修改配置文件，可以去看看：WebUI API请求URL问题 · Issue #515 · kvcache-ai/ktransformers

这里我只需要提供api接口就行，地址为ip+端口+/v1

参考：

DeepSeek-R1：使用KTransformers实现高效部署指南 - 知乎

大模型推理：Ktransformers单机Docker部署Deepseek-R1 671B量化版_flashinfer not found, use triton for linux-CSDN博客