
【ollama 安装deepseek】通过Ollama服务调用DeepSeek模型的完整指南
下载DeepSeek模型。直接通过HTTP请求调用。使用Python代码调用。一、环境准备与模型部署。启动Ollama服务。
·
一、环境准备与模型部署
-
安装Ollama
- 推荐方式:通过
pip
安装最新版Ollama(需Python 3.8+环境):pip install ollama
- 验证安装:
ollama --version # 输出版本号即安装成功
- 推荐方式:通过
-
下载DeepSeek模型
- 选择模型版本:根据硬件条件选择合适版本(如
deepseek-r1:7b
占用4.7GB显存):ollama pull deepseek-r1:7b
- 查看已下载模型:
ollama list
- 选择模型版本:根据硬件条件选择合适版本(如
-
启动Ollama服务
- 默认启动:
ollama serve # 默认监听11434端口
- 自定义配置:通过
--host
和--port
指定地址与端口:ollama serve --host 0.0.0.0 --port 8080
- 默认启动:
二、API调用方法
-
直接通过HTTP请求调用
- 基础请求格式:
curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:7b", "prompt": "天空为什么是蓝色的?" }'
- 流式响应处理:添加
"stream": true
参数逐步获取结果。
- 基础请求格式:
-
使用Python代码调用
- 示例代码(兼容OpenAI SDK格式):
from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1", api_key="任意字符串(Ollama不校验)" ) response = client.chat.completions.create( model="deepseek-r1:7b", messages=[ {"role": "user", "content": "如何解释光的折射现象?"} ] ) print(response.choices[0].message.content)
- 示例代码(兼容OpenAI SDK格式):
-
高级参数配置
- 温度调节:
temperature
参数控制输出随机性(0-1,默认0.8)。 - 最大生成长度:
max_tokens
限制响应长度(如max_tokens=500
)。
- 温度调节:
三、常见问题与优化
-
服务访问问题
- 跨域调用:若需远程访问,需配置反向代理或使用内网穿透工具(如Cloudflare Tunnel)。
- 端口占用:通过
netstat -ano | findstr :11434
检查端口占用情况。
-
性能优化
- 模型量化:降低显存占用并提升推理速度:
ollama quantize deepseek-r1:7b --bits 8
- GPU加速:确认CUDA环境已配置,Ollama自动启用GPU加速(需NVIDIA驱动)。
- 模型量化:降低显存占用并提升推理速度:
-
日志与监控
- 查看实时日志:
ollama logs
- 资源监控:
ollama monitor # 显示CPU/GPU利用率及内存占用
- 查看实时日志:
四、扩展应用场景
-
集成Web UI
- 推荐工具:使用Chatbox或Open WebUI等工具,通过配置
http://localhost:11434
接入Ollama服务。
- 推荐工具:使用Chatbox或Open WebUI等工具,通过配置
-
构建RAG系统
- 搭配知识库:结合MaxKB等工具实现本地知识增强问答。
引用说明
- 模型下载与量化操作参考。
- Python API调用示例基于中的腾讯云HAI实践案例。
- 服务部署优化建议综合内容。
更多推荐
所有评论(0)