一、环境准备与模型部署

  1. 安装Ollama

    • 推荐方式:通过pip安装最新版Ollama(需Python 3.8+环境):
      pip install ollama 
      
    • 验证安装:
      ollama --version  # 输出版本号即安装成功 
      
  2. 下载DeepSeek模型

    • 选择模型版本:根据硬件条件选择合适版本(如deepseek-r1:7b占用4.7GB显存):
      ollama pull deepseek-r1:7b 
      
    • 查看已下载模型:
      ollama list 
      
  3. 启动Ollama服务

    • 默认启动:
      ollama serve  # 默认监听11434端口 
      
    • 自定义配置:通过--host--port指定地址与端口:
      ollama serve --host 0.0.0.0 --port 8080 
      

二、API调用方法

  1. 直接通过HTTP请求调用

    • 基础请求格式:
      curl http://localhost:11434/api/generate -d '{
        "model": "deepseek-r1:7b",
        "prompt": "天空为什么是蓝色的?"
      }'
      
    • 流式响应处理:添加"stream": true参数逐步获取结果。
  2. 使用Python代码调用

    • 示例代码(兼容OpenAI SDK格式):
      from openai import OpenAI 
      
      client = OpenAI(
          base_url="http://localhost:11434/v1",
          api_key="任意字符串(Ollama不校验)"
      )
      
      response = client.chat.completions.create(
          model="deepseek-r1:7b",
          messages=[
              {"role": "user", "content": "如何解释光的折射现象?"}
          ]
      )
      print(response.choices[0].message.content)
      
  3. 高级参数配置

    • 温度调节:temperature参数控制输出随机性(0-1,默认0.8)。
    • 最大生成长度:max_tokens限制响应长度(如max_tokens=500)。

三、常见问题与优化

  1. 服务访问问题

    • 跨域调用:若需远程访问,需配置反向代理或使用内网穿透工具(如Cloudflare Tunnel)。
    • 端口占用:通过netstat -ano | findstr :11434检查端口占用情况。
  2. 性能优化

    • 模型量化:降低显存占用并提升推理速度:
      ollama quantize deepseek-r1:7b --bits 8 
      
    • GPU加速:确认CUDA环境已配置,Ollama自动启用GPU加速(需NVIDIA驱动)。
  3. 日志与监控

    • 查看实时日志:
      ollama logs 
      
    • 资源监控:
      ollama monitor  # 显示CPU/GPU利用率及内存占用 
      

四、扩展应用场景

  1. 集成Web UI

    • 推荐工具:使用Chatbox或Open WebUI等工具,通过配置http://localhost:11434接入Ollama服务。
  2. 构建RAG系统

    • 搭配知识库:结合MaxKB等工具实现本地知识增强问答。

引用说明

  • 模型下载与量化操作参考。
  • Python API调用示例基于中的腾讯云HAI实践案例。
  • 服务部署优化建议综合内容。
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐