
基于Ktransformer部署DeepSeek-R1模型
我这边离线机器跑起来居然没有报错,成功后可以访问10012端口看看,一般会显示detail Not Found,访问后缀加/web/index.html即可进入聊天页面。其中gguf_path为gguf文件路径,需要有config配置文件在同一路径;记录一次在离线机器上使用kt框架部署Deepseek:671B模型过程。model_path为模型路径,不知道为什么没有后会报错(再看看;cpu_in
记录一次在离线机器上使用kt框架部署Deepseek:671B模型过程
一、前置准备下载(在联网的机器上操作)
1.deepseek模型下载:
我这里下载的是Q5模型
2.模型配置文件下载:
我用的是知乎大佬提供的配置文件:跳转中...
3.kt框架下载:
考虑到要部署到离线机器,这里选择使用docker部署方式,下载docker镜像:
docker.io/approachingai/ktransformers 项目中国可用镜像列表 | 高速可靠的 Docker 镜像资源
将镜像打包
docker save -o xxx.tar xxx:xxx
二、部署步骤(离线机器)
将前面下载的文件都转移到离线机器中,gguf模型文件和模型配置文件放同一目录DeepSeek下方便使用,使用docker启动容器:
docker load -i xxx.tar #加载镜像
docker run --gpus all -v /DeepSeek/:/models --name kt -p 10012:10012 -itd ktransformers:0.2.2
其中绑定目录、端口、镜像名以本机为准。
容器创建成功后进入容器,输入命令以启动:(以你机器为准,我这里在workspace下运行
本地聊天:
python -m ktransformers.local_chat --gguf_path /models/ --model_path /models/ --max_new_tokens 2048 --cpu_infer 64 --port 10012
服务版:
ktransformers --gguf_path /models/ --model_path /models/ --model_name deepseek-r1-q5 --max_new_tokens 2048 --cpu_infer 64 --port 10012 --force_think --optimize_config_path ktransformers/ktransformers/optimize/optimize_rulse/DeepSeek-V3-Chat.yaml --web True
其中gguf_path为gguf文件路径,需要有config配置文件在同一路径;
model_path为模型路径,不知道为什么没有后会报错(再看看;
cpu_infer为用于推理CPU线程数,越多越快?
max_new_tokens 输出token最大长度,太大会内存不足OOM!
我这边离线机器跑起来居然没有报错,成功后可以访问10012端口看看,一般会显示detail Not Found,访问后缀加/web/index.html即可进入聊天页面。
PS:
现在docker源有kt版本最新为0.2.3,本地对话是可以跑,但服务版会提示没有openai,用.2.2吧;
自带对话网页index.html远程访问会导致对话失败,github中大佬已经找到原因了,需要修改配置文件,可以去看看:WebUI API请求URL问题 · Issue #515 · kvcache-ai/ktransformers
这里我只需要提供api接口就行,地址为ip+端口+/v1
参考:
DeepSeek-R1:使用KTransformers实现高效部署指南 - 知乎
大模型推理:Ktransformers单机Docker部署Deepseek-R1 671B量化版_flashinfer not found, use triton for linux-CSDN博客
笔记:ktransformer/llama.cpp/vllm + int4 671B DeepSeek R1 模型单机大显存 GPU 部署笔记 - 知乎
更多推荐
所有评论(0)