
DeepSeek 离线本地部署两种方式以及API接入工具
基础环境:Tesla V100-PCIE-32GB *4 跑的deepseek-r1:32b量化int4,一张卡就够了1. 首先安装 Ollama,这是一款免费且开源的工具,它允许在本地运行和部署大型语言模型。Ollama 支持的操作系统包括 macOS、Linux 和 Windows,同时也支持 Docker 容器化部署。,可以在linux,mac,windows上安装2. 安装并使用 Deep
1.ollama部署
基础环境:Tesla V100-PCIE-32GB *4 跑的deepseek-r1:32b量化int4,一张卡就够了
1. 首先安装 Ollama,这是一款免费且开源的工具,它允许在本地运行和部署大型语言模型。Ollama 支持的操作系统包括 macOS、Linux 和 Windows,同时也支持 Docker 容器化部署。
ollama下载安装,可以在linux,mac,windows上安装
2. 安装并使用 DeepSeek-R1 模型非常简单。在终端中输入命令:ollama run deepseek-r1:32b,等待模型下载完成即可。
Ollama支持可选的模型规格参数。对于PC本地且具备较强推理能力的用户,建议使用1.5b、7b、8b、14b等模型。您还可以通过添加特定参数来下载其他模型,例如使用命令:ollama run deepseek-r1:8b。
3.安装使用,下载完成后即可在当前命令行中使用
2.Xinference
1.Xinference 作为一个模型部署和推理的平台,承担着支持AI应用开发的重要任务。今年 AI 领域一个显著的趋势是,开发者可以选择不同的平台来实现他们的应用。例如,可以使用 Dify 的 workflow 来构建应用,或者选择其他任何顺手的工具。但无论选择哪种工具,底层都离不开大模型推理的过程。
Xinference 提供了与 OpenAI SDK 的完全兼容性,同时弥补了 OpenAI API 在某些功能上的不足。特别是在模型丰富性和功能性方面,OpenAI 目前支持的模型种类相对有限,例如不包含 Rerank 模型,并且其 API 接口尚未覆盖到 TTS(文本转语音)等其他高级功能。
2. 安装并使用 DeepSeek-R1 模型。选择相对应的模型配置以及推理方式
运行完毕后可在运行界面管理和查看模型
3.接入API使用
无论是通过ollama还是Xinference部署的模型都可以使用Cherry Studio工具进行使用。Cherry Studio下载方式
Cherry Studio 是一款专为专业用户设计的多模型桌面客户端,通过集成超过 300 个大语言模型(LLM),为用户在多种场景下提供强大的支持。其内置的模型涵盖多个行业和领域,能够满足不同用户的需求。用户可以根据具体任务的需要,随时切换不同的模型来回答问题,充分发挥各个模型的优势,从而高效解决复杂多样的问题。
以Xinference为例接入Cherry Studio
以Ollama为例接入Cherry Studio
只需要更改API地址即可
更多推荐
所有评论(0)