DeepSeek 离线本地部署两种方式以及API接入工具

基础环境:Tesla V100-PCIE-32GB *4 跑的deepseek-r1:32b量化int4，一张卡就够了1. 首先安装 Ollama，这是一款免费且开源的工具，它允许在本地运行和部署大型语言模型。Ollama 支持的操作系统包括 macOS、Linux 和 Windows，同时也支持 Docker 容器化部署。，可以在linux，mac，windows上安装2. 安装并使用 Deep

PePSi217

5015人浏览 · 2025-02-08 15:09:10

PePSi217 · 2025-02-08 15:09:10 发布

1.ollama部署

基础环境:Tesla V100-PCIE-32GB *4 跑的deepseek-r1:32b量化int4，一张卡就够了

1. 首先安装 Ollama，这是一款免费且开源的工具，它允许在本地运行和部署大型语言模型。Ollama 支持的操作系统包括 macOS、Linux 和 Windows，同时也支持 Docker 容器化部署。

ollama下载安装，可以在linux，mac，windows上安装

2. 安装并使用 DeepSeek-R1 模型非常简单。在终端中输入命令：ollama run deepseek-r1:32b，等待模型下载完成即可。

Ollama支持可选的模型规格参数。对于PC本地且具备较强推理能力的用户，建议使用1.5b、7b、8b、14b等模型。您还可以通过添加特定参数来下载其他模型，例如使用命令：ollama run deepseek-r1:8b。

3.安装使用，下载完成后即可在当前命令行中使用

2.Xinference

1.Xinference 作为一个模型部署和推理的平台，承担着支持AI应用开发的重要任务。今年 AI 领域一个显著的趋势是，开发者可以选择不同的平台来实现他们的应用。例如，可以使用 Dify 的 workflow 来构建应用，或者选择其他任何顺手的工具。但无论选择哪种工具，底层都离不开大模型推理的过程。

Xinference 提供了与 OpenAI SDK 的完全兼容性，同时弥补了 OpenAI API 在某些功能上的不足。特别是在模型丰富性和功能性方面，OpenAI 目前支持的模型种类相对有限，例如不包含 Rerank 模型，并且其 API 接口尚未覆盖到 TTS（文本转语音）等其他高级功能。

2. 安装并使用 DeepSeek-R1 模型。选择相对应的模型配置以及推理方式

运行完毕后可在运行界面管理和查看模型

3.接入API使用

无论是通过ollama还是Xinference部署的模型都可以使用Cherry Studio工具进行使用。Cherry Studio下载方式

Cherry Studio 是一款专为专业用户设计的多模型桌面客户端，通过集成超过 300 个大语言模型（LLM），为用户在多种场景下提供强大的支持。其内置的模型涵盖多个行业和领域，能够满足不同用户的需求。用户可以根据具体任务的需要，随时切换不同的模型来回答问题，充分发挥各个模型的优势，从而高效解决复杂多样的问题。