【ollama 安装deepseek】通过Ollama服务调用DeepSeek模型的完整指南

下载DeepSeek模型。直接通过HTTP请求调用。使用Python代码调用。一、环境准备与模型部署。启动Ollama服务。

东华果汁哥

3431人浏览 · 2025-02-09 11:34:24

东华果汁哥 · 2025-02-09 11:34:24 发布

一、环境准备与模型部署

安装Ollama
- 推荐方式：通过pip安装最新版Ollama（需Python 3.8+环境）：
```
pip install ollama 
```
- 验证安装：
```
ollama --version  # 输出版本号即安装成功 
```
下载DeepSeek模型
- 选择模型版本：根据硬件条件选择合适版本（如deepseek-r1:7b占用4.7GB显存）：
```
ollama pull deepseek-r1:7b 
```
- 查看已下载模型：
```
ollama list 
```
启动Ollama服务
- 默认启动：
```
ollama serve  # 默认监听11434端口 
```
- 自定义配置：通过--host和--port指定地址与端口：
```
ollama serve --host 0.0.0.0 --port 8080 
```

二、API调用方法

直接通过HTTP请求调用

基础请求格式：

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "天空为什么是蓝色的？"
}'

流式响应处理：添加"stream": true参数逐步获取结果。

使用Python代码调用

示例代码（兼容OpenAI SDK格式）：

from openai import OpenAI 

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="任意字符串（Ollama不校验）"
)

response = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[
        {"role": "user", "content": "如何解释光的折射现象？"}
    ]
)
print(response.choices[0].message.content)

高级参数配置
- 温度调节：temperature参数控制输出随机性（0-1，默认0.8）。
- 最大生成长度：max_tokens限制响应长度（如max_tokens=500）。

三、常见问题与优化

服务访问问题
- 跨域调用：若需远程访问，需配置反向代理或使用内网穿透工具（如Cloudflare Tunnel）。
- 端口占用：通过netstat -ano | findstr :11434检查端口占用情况。
性能优化
- 模型量化：降低显存占用并提升推理速度：
```
ollama quantize deepseek-r1:7b --bits 8 
```
- GPU加速：确认CUDA环境已配置，Ollama自动启用GPU加速（需NVIDIA驱动）。

日志与监控

查看实时日志：
```
ollama logs 
```

资源监控：

ollama monitor  # 显示CPU/GPU利用率及内存占用

四、扩展应用场景

集成Web UI
- 推荐工具：使用Chatbox或Open WebUI等工具，通过配置http://localhost:11434接入Ollama服务。
构建RAG系统
- 搭配知识库：结合MaxKB等工具实现本地知识增强问答。

引用说明

模型下载与量化操作参考。
Python API调用示例基于中的腾讯云HAI实践案例。
服务部署优化建议综合内容。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek本地部署全攻略：保姆级教程带你轻松上手

DeepSeek技术社区

或许是全网最全的 DeepSeek 使用指南，90% 的人都不知道的使用技巧

DeepSeek技术社区

function call介绍和实现（以DeepSeek为例）

DeepSeek技术社区

所有评论(0)

查看更多评论

东华果汁哥

@u013421629

已为社区贡献2条内容