解锁DeepSeek：本地部署与软件调用全攻略

当其他软件调用 DeepSeek 本地模型时，主要是通过 Ollama 提供的 API 接口来实现与模型的交互。其原理是，软件将需要处理的文本数据（如用户的提问、需要生成的文本任务等），按照特定的格式封装成 HTTP 请求，发送到本地运行的 Ollama 服务地址（默认是:11434Ollama 接收到请求后，将数据传递给已部署的 DeepSeek 模型进行处理，模型根据自身的训练知识和算法生成相

激光控制方青

1805人浏览 · 2025-02-18 10:17:26

激光控制方青 · 2025-02-18 10:17:26 发布

一、引言

在人工智能飞速发展的当下，大语言模型已成为推动各领域创新的关键力量。DeepSeek 作为其中的佼佼者，以其强大的语言理解与生成能力，吸引了众多开发者与用户的目光。它不仅在自然语言处理领域展现出卓越的性能，还具备高度的灵活性和可扩展性，为各种应用场景提供了强大的支持。

DeepSeek 大模型的优势显著，其创新性的架构设计和优化算法，使得模型在训练和推理过程中更加高效，大大降低了计算成本。同时，它延续了高性价比的优势，以相对较低的训练成本，实现了与顶尖模型相媲美的性能，例如 DeepSeek-R1 仅用十分之一的成本就达到了 GPT-4o 级别的表现。在功能方面，DeepSeek 具备强大的推理能力，能够进行复杂的逻辑推理和问题解决，为用户提供准确且高质量的回答。在自然语言理解与生成上，它可以完成高质量的文本分析、摘要生成、文本创作等任务，生成的内容自然流畅、逻辑连贯。凭借这些优势，DeepSeek 在全球 AI 领域迅速崭露头角，受到了广泛的关注和应用。

对于许多开发者和企业来说，将 DeepSeek 大模型进行本地部署，能够更好地满足数据隐私和安全的需求，同时也能在一定程度上降低使用成本。而部署后的 DeepSeek 如何供其他软件调用，更是拓展其应用场景、发挥其最大价值的关键所在。通过将 DeepSeek 与其他软件进行集成，可以实现诸如智能客服、智能写作、数据分析等多种功能的升级，为用户带来更加智能、高效的体验。在本文中，我将详细介绍部署 DeepSeek 本地大模型后供其他软件调用的方法和实践经验，希望能对大家有所帮助。

二、本地部署 DeepSeek 大模型

（一）部署前准备

在部署 DeepSeek 大模型之前，需要确保本地环境满足一定的硬件和软件条件。

硬件方面，GPU 是影响模型运行速度和效率的关键因素。如果要部署 32B 及以上参数规模的模型，建议使用 24GB 及以上显存的 GPU，如英伟达的 A100、H100 等。对于 1.5B - 7B 规模的模型，8GB 显存的 GPU 基本可以满足需求，像 RTX 3070/4060 等。除了 GPU，CPU 也很重要，一款性能强劲的多核心 CPU 能更好地配合 GPU，提升整体性能，例如英特尔酷睿 i9 系列或 AMD 锐龙 9 系列的 CPU 。同时，内存建议配备 64GB 及以上，以减少数据读取时间，提高运行效率。硬盘方面，至少准备 1TB 及以上的固态硬盘（SSD），其读写速度快，能大大缩短数据的存取时间，提升模型的加载和训练速度。

软件方面，需要安装合适的操作系统，如 Windows 10/11、Linux（推荐 Ubuntu 20.04）或 macOS。CUDA 建议安装 11.3 及以上版本，cuDNN 则需要安装与 CUDA 版本对应的库。Python 版本要求 3.8 或 3.9，还需安装与 CUDA 版本兼容的 PyTorch 1.10 及以上版本。此外，还需要一个用于管理和运行本地 AI 模型的软件工具 Ollama，可从其官网htt ps://ollam a.com /下载。

（二）Ollama 安装与配置

Windows 系统：访问 Ollama 官网，点击 “Download” 按钮，选择 Windows 版本的安装包进行下载。下载完成后，双击安装包，按照安装向导的提示进行安装，保持默认选项即可。安装完成后，右键点击 Windows 开始菜单，选择「终端 (管理员)」，在终端界面输入ollama --version，若能正确输出版本号，则说明安装成功。

如果需要更改模型存储路径（Ollama 部署模型时，默认会将模型文件部署在 C 盘），可以打开 Windows 设置，在左侧栏中点击 “系统”，点击右边列表最下面的 “系统信息”，点击页面中的 “高级系统设置”，点击弹窗上面的 “高级” 选项卡，点击下面的 “环境变量” 按钮，点击弹窗下面的 “系统变量” 下面的 “新建” 按钮，在弹窗中输入，变量名输入 “OLLAMA_MODELS”，变量值输入需要更改的存储模型的目录，点击左下角 “浏览目录” 进行选择。输入好后点击 “确定”，依次点击每个弹窗的 “确定”。环境变量设置好后，重启电脑让环境变量生效，可以再 cmd 窗口中输入set命令，查看环境变量是否生效，回车后，如果打印的内容中有 “OLLAMA_MODELS=' 你设置的目录 '”，则代表环境变量已生效。

Linux 系统：安装方式有多种，这里介绍通过官网脚本安装的方法。在终端中输入命令curl -fsSL https://ollama.com/install.sh | sh，如果网络状态良好，即可完成下载与安装。安装完成后，在终端输入ollama --version验证安装。

若要更改模型存放路径，首先进入/etc/systemd/system/目录，打开ollama.service配置文件，在[Service]下面添加环境变量Environment="OLLAMA_MODELS=/你想要设置的路径" 。添加完成后，执行source ollama.service，最后重启 ollama 服务即可生效。注意，这种方式不支持用 snap 方式安装的 ollama。

macOS 系统：在 Ollama 官网下载 macOS 版本的安装包，下载完成后，双击安装包进行安装。安装完成后，打开终端，输入ollama --version验证安装。

对于 macOS 系统，若要配置环境变量和模型存储路径，可以通过修改~/.zshrc或~/.bash_profile文件（根据使用的终端不同），在文件中添加export OLLAMA_MODELS=/你想要设置的路径，保存文件后，在终端输入source ~/.zshrc或source ~/.bash_profile使设置生效。

（三）DeepSeek 模型下载与运行

安装并配置好 Ollama 后，就可以通过它来下载 DeepSeek 模型。Ollama 支持多种 DeepSeek 模型的版本，用户可以根据硬件配置选择合适的模型，如入门级的 1.5B 版本，适合进行初步测试；中级的 7B 或 8B 版本，适合大多数消费级 GPU；高性能的 14B、32B 或 70B 版本，适合高端 GPU 。

在终端中输入下载命令，例如下载 1.5B 版本的 DeepSeek-R1 模型，命令为ollama pull deepseek-r1:1.5b 。下载其他版本的模型，只需将命令中的版本号替换即可，如ollama pull deepseek-r1:7b 。下载过程中，会显示下载进度，耐心等待下载完成。

模型下载完成后，就可以运行模型了。在终端中输入运行命令，如ollama run deepseek-r1:1.5b ，即可启动模型。启动成功后，就可以在终端中与模型进行交互，输入问题，模型会给出回答。例如，输入 “你好”，模型可能会回复 “你好！有什么我可以帮忙的？” 。如果想要退出与模型的交互，按下Ctrl + C组合键即可。

三、调用 DeepSeek 本地大模型

（一）调用原理与接口介绍

当其他软件调用 DeepSeek 本地模型时，主要是通过 Ollama 提供的 API 接口来实现与模型的交互。其原理是，软件将需要处理的文本数据（如用户的提问、需要生成的文本任务等），按照特定的格式封装成 HTTP 请求，发送到本地运行的 Ollama 服务地址（默认是http://localhost :11434）。Ollama 接收到请求后，将数据传递给已部署的 DeepSeek 模型进行处理，模型根据自身的训练知识和算法生成相应的回复，再由 Ollama 将回复以 HTTP 响应的形式返回给调用的软件。

Ollama 提供了多个 API 接口，常用的有用于生成文本的/api/generate接口和用于聊天对话的/api/chat接口。以/api/generate接口为例，它的主要参数包括：

model：必填参数，指定要使用的 DeepSeek 模型名称及版本，如deepseek-r1:1.5b 。

prompt：生成响应的提示文本，即输入给模型的问题或任务描述。

stream：可选参数，默认为true，表示以流的形式返回响应，即模型生成一点内容就返回一点；若设置为false，则等待模型生成完整的回复后再一次性返回。

options：可选参数，用于设置一些模型相关的参数，比如temperature（温度系数，控制生成文本的随机性，取值范围一般为 0 - 1，值越大越随机）、top_p（核采样的概率阈值）等。

（二）Python 调用示例

安装依赖库：在 Python 中调用 DeepSeek 模型，首先需要安装requests库，用于发送 HTTP 请求。可以使用pip install requests命令进行安装。

编写调用代码：以下是一个使用 Python 调用 DeepSeek 模型的示例代码，通过/api/generate接口实现文本生成：

import requests

import json

# DeepSeek模型的API地址

DEESEEK_API_URL = "http://localhost:11434/api/generate"

def call_deepseek(prompt):

data = {

"model": "deepseek-r1:1.5b", # 指定模型名称及版本

"prompt": prompt, # 输入的提示文本

"stream": False # 不使用流模式，等待完整回复

}

response = requests.post(DEESEEK_API_URL, json=data)

if response.status_code == 200:

result = response.json()

return result["response"]

else:

print(f"请求失败，状态码：{response.status_code}")

print("错误信息：", response.text)

return None

# 示例用法

question = "请介绍一下人工智能的发展历程"

answer = call_deepseek(question)

if answer:

print("DeepSeek的回答：", answer)

上述代码中，call_deepseek函数接收一个prompt参数，即输入的问题。函数内部构造了一个包含模型名称、提示文本和其他参数的 JSON 数据，通过requests.post方法发送到 DeepSeek 模型的 API 地址。如果请求成功，返回模型生成的回复；如果请求失败，则打印错误信息。

（三）其他语言调用拓展

除了 Python，Java、C++ 等其他语言也可以调用 DeepSeek 模型。

在 Java 中，可以使用HttpURLConnection或OkHttp等库来发送 HTTP 请求。以HttpURLConnection为例，示例代码如下：

import java.io.BufferedReader;

import java.io.DataOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import org.json.JSONObject;

public class DeepSeekJavaCall {

public static void main(String[] args) {

String apiUrl = "http://localhost:11434/api/generate";

String prompt = "请介绍一下人工智能的发展历程";

String model = "deepseek-r1:1.5b";

try {

URL url = new URL(apiUrl);

HttpURLConnection connection = (HttpURLConnection) url.openConnection();

connection.setRequestMethod("POST");

connection.setRequestProperty("Content-Type", "application/json");

connection.setDoOutput(true);

JSONObject requestData = new JSONObject();

requestData.put("model", model);

requestData.put("prompt", prompt);

requestData.put("stream", false);

DataOutputStream outputStream = new DataOutputStream(connection.getOutputStream());

outputStream.writeBytes(requestData.toString());

outputStream.flush();

outputStream.close();

int responseCode = connection.getResponseCode();

if (responseCode == HttpURLConnection.HTTP_OK) {

BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));

String inputLine;

StringBuilder response = new StringBuilder();

while ((inputLine = in.readLine())!= null) {

response.append(inputLine);

}

in.close();

JSONObject jsonResponse = new JSONObject(response.toString());

System.out.println("DeepSeek的回答：" + jsonResponse.getString("response"));

} else {

System.out.println("请求失败，状态码：" + responseCode);

}

} catch (IOException e) {

e.printStackTrace();

}

在 C++ 中，可以使用libcurl库来实现 HTTP 请求。首先需要安装libcurl库，然后编写如下示例代码：

#include <iostream>

#include <curl/curl.h>

#include <nlohmann/json.hpp>

using json = nlohmann::json;

size_t WriteCallback(void* contents, size_t size, size_t nmemb, void* userp) {

((std::string*)userp)->append((char*)contents, size * nmemb);

return size * nmemb;

}

int main() {

CURL* curl;

CURLcode res;

std::string readBuffer;

curl = curl_easy_init();

if (curl) {

std::string apiUrl = "http://localhost:11434/api/generate";

std::string prompt = "请介绍一下人工智能的发展历程";

std::string model = "deepseek-r1:1.5b";

json requestData;

requestData["model"] = model;

requestData["prompt"] = prompt;

requestData["stream"] = false;

curl_easy_setopt(curl, CURLOPT_URL, apiUrl.c_str());

curl_easy_setopt(curl, CURLOPT_POST, 1L);

curl_easy_setopt(curl, CURLOPT_POSTFIELDS, requestData.dump().c_str());

curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);

curl_easy_setopt(curl, CURLOPT_WRITEDATA, &readBuffer);

res = curl_easy_perform(curl);

if (res == CURLE_OK) {

json jsonResponse = json::parse(readBuffer);

std::cout << "DeepSeek的回答：" << jsonResponse["response"].get<std::string>() << std::endl;

} else {

std::cerr << "请求失败：" << curl_easy_strerror(res) << std::endl;

}

curl_easy_cleanup(curl);

}

return 0;

}

不同语言调用时，主要的区别在于 HTTP 请求的实现方式和 JSON 数据的处理方式，但基本原理都是构造符合 API 要求的请求，发送到本地模型服务地址，接收并处理返回的响应。

四、常见问题及解决方法

在部署和调用 DeepSeek 本地大模型的过程中，可能会遇到一些问题，以下是一些常见问题及对应的解决方法：

模型下载失败：下载模型时，可能会出现下载中断、速度过慢或下载失败的情况。这可能是由于网络不稳定、Ollama 服务异常或模型源问题导致的。

- 解决方法：首先，检查网络连接，确保网络稳定。可以尝试更换网络环境，如从 Wi-Fi 切换到移动数据，或者使用网络加速器来提升网络速度。如果是 Ollama 服务异常，可尝试重启 Ollama 服务，在终端输入ollama stop停止服务，然后再输入ollama start启动服务。若问题依旧，可能是模型源的问题，此时可以尝试从其他模型源下载，或者等待官方修复。

调用报错：请求失败，状态码非 200：在使用 API 调用模型时，返回的 HTTP 状态码不是 200，而是其他错误码，如 404（未找到资源）、500（服务器内部错误）等。这可能是由于 API 地址错误、参数设置不正确、Ollama 服务未正常运行或模型未正确加载等原因造成的。

- 解决方法：仔细检查 API 地址是否正确，确保与本地 Ollama 服务的地址一致，默认是http://localhost:11434 。确认请求参数是否符合 API 要求，特别是model、prompt等必填参数。检查 Ollama 服务是否正常运行，可在终端输入ollama status查看服务状态。如果模型未正确加载，重新下载或检查模型路径配置。

Python 依赖库安装失败：在安装requests等依赖库时，可能会出现安装失败的情况，提示依赖冲突、找不到包等错误。这可能是由于 Python 环境问题、包源问题或依赖关系不匹配导致的。

- 解决方法：使用虚拟环境来隔离项目依赖，避免不同项目之间的依赖冲突。可以使用venv或conda创建虚拟环境，例如使用venv创建虚拟环境的命令是python -m venv myenv，然后激活虚拟环境myenv\Scripts\activate 。更换包源，使用国内的镜像源，如清华大学的镜像源Simple Index ，安装命令为pip install requests -i Simple Index 。检查依赖关系，查看requests库的官方文档，了解其依赖的其他库，确保这些库的版本兼容。

Java 调用时 JSON 解析错误：在 Java 中调用模型时，解析返回的 JSON 响应可能会出现错误，提示 JSON 格式不正确。这可能是由于返回的响应数据本身有问题，或者 JSON 解析库的版本不兼容导致的。

- 解决方法：检查返回的响应数据，在 Java 代码中添加日志输出，打印出完整的响应内容，查看是否存在格式错误或数据缺失。更新 JSON 解析库，如使用最新版本的org.json库，确保其兼容性和稳定性。

C++ 调用时libcurl库相关问题：在 C++ 中使用libcurl库调用模型时，可能会遇到libcurl库未正确安装、链接错误或请求参数设置错误等问题。

- 解决方法：确认libcurl库已正确安装，并且安装路径已添加到系统的库路径中。在编译时，确保链接了libcurl库，例如在 GCC 编译时，使用-lcurl选项。仔细检查请求参数的设置，确保与 API 要求一致，注意参数的格式和编码。

五、总结与展望

通过上述步骤，我们成功地完成了 DeepSeek 本地大模型的部署，并实现了其他软件对其的调用。在部署过程中，硬件和软件环境的准备是基础，Ollama 的安装与配置是关键，而模型的下载与运行则是核心。在调用环节，深入理解调用原理和接口，掌握不同语言的调用方法，能够帮助我们更好地将 DeepSeek 模型集成到各种软件应用中。同时，对常见问题的排查和解决能力，也是确保整个流程顺利运行的重要保障。

展望未来，大模型技术的应用前景将更加广阔。随着硬件技术的不断进步，如 GPU 性能的提升和新型计算芯片的研发，将为大模型的运行提供更强大的算力支持，使得模型的训练和推理速度更快、效率更高。在软件方面，更多的开源框架和工具将不断涌现，进一步降低大模型的部署和调用门槛，让更多的开发者和企业能够受益于大模型技术。在应用领域，大模型将与更多行业深度融合，例如在医疗领域辅助疾病诊断、药物研发；在金融领域进行风险评估、智能投顾；在教育领域实现个性化学习、智能辅导等。

对于 DeepSeek 模型而言，未来有望在更多场景中发挥重要作用。随着模型的不断优化和升级，其语言理解和生成能力将进一步提升，能够为用户提供更加精准、智能的服务。同时，DeepSeek 与其他技术的融合也将成为趋势，如与物联网、区块链等技术相结合，创造出更多创新的应用场景。我相信，在技术的不断推动下，大模型将为我们的生活和工作带来更多的便利和创新，让我们拭目以待。