1.ollama部署

基础环境:Tesla V100-PCIE-32GB *4 跑的deepseek-r1:32b量化int4,一张卡就够了

1. 首先安装 Ollama,这是一款免费且开源的工具,它允许在本地运行和部署大型语言模型。Ollama 支持的操作系统包括 macOS、Linux 和 Windows,同时也支持 Docker 容器化部署。

ollama下载安装,可以在linux,mac,windows上安装

2. 安装并使用 DeepSeek-R1 模型非常简单。在终端中输入命令:ollama run deepseek-r1:32b,等待模型下载完成即可。

Ollama支持可选的模型规格参数。对于PC本地且具备较强推理能力的用户,建议使用1.5b、7b、8b、14b等模型。您还可以通过添加特定参数来下载其他模型,例如使用命令:ollama run deepseek-r1:8b。

3.安装使用,下载完成后即可在当前命令行中使用

2.Xinference

1.Xinference 作为一个模型部署和推理的平台,承担着支持AI应用开发的重要任务。今年 AI 领域一个显著的趋势是,开发者可以选择不同的平台来实现他们的应用。例如,可以使用 Dify 的 workflow 来构建应用,或者选择其他任何顺手的工具。但无论选择哪种工具,底层都离不开大模型推理的过程。

Xinference 提供了与 OpenAI SDK 的完全兼容性,同时弥补了 OpenAI API 在某些功能上的不足。特别是在模型丰富性和功能性方面,OpenAI 目前支持的模型种类相对有限,例如不包含 Rerank 模型,并且其 API 接口尚未覆盖到 TTS(文本转语音)等其他高级功能。

2. 安装并使用 DeepSeek-R1 模型。选择相对应的模型配置以及推理方式

运行完毕后可在运行界面管理和查看模型

3.接入API使用 

无论是通过ollama还是Xinference部署的模型都可以使用Cherry Studio工具进行使用。Cherry Studio下载方式

Cherry Studio 是一款专为专业用户设计的多模型桌面客户端,通过集成超过 300 个大语言模型(LLM),为用户在多种场景下提供强大的支持。其内置的模型涵盖多个行业和领域,能够满足不同用户的需求。用户可以根据具体任务的需要,随时切换不同的模型来回答问题,充分发挥各个模型的优势,从而高效解决复杂多样的问题。

以Xinference为例接入Cherry Studio

以Ollama为例接入Cherry Studio

只需要更改API地址即可

点击阅读全文
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐