纯技术干货,无营销内容。三套方案按需自取。


一、Ollama — 本地跑开源大模型(最主流)

1.1 介绍

Ollama 是目前最流行的本地大模型运行工具,支持 Llama、Qwen、DeepSeek、Gemma 等开源模型。一个命令拉起,无需 GPU 也能跑小参数模型。

1.2 安装

Step 1:下载安装包

下载地址:https://ollama.com/download

Windows 版直接下载 .exe 安装程序,双击运行即可。安装路径默认 C:\Users\<用户名>\.ollama

Step 2:验证安装

ollama --version

Step 3:拉取模型

# 小参数版(无需独显,CPU 可跑)
ollama pull deepseek-r1:1.5b
ollama pull qwen2.5:3b

# 中等参数(建议有独显,6GB 以上显存)
ollama pull deepseek-r1:7b
ollama pull llama3.2:3b

# 大参数(需要 12GB+ 显存)
ollama pull deepseek-r1:14b
ollama pull qwen2.5:14b

Step 4:运行

ollama run deepseek-r1:1.5b
# 直接进入对话,exit 退出

Step 5:API 服务(进阶)

Ollama 默认在 localhost:11434 提供 REST API:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "用 Python 写一个快速排序"
}'

1.3 常用命令

ollama list                          # 查看已下载模型
ollama ps                            # 查看正在运行的模型
ollama rm deepseek-r1:7b            # 删除模型
ollama run deepseek-r1:7b --verbose  # 调试模式运行

1.4 显存不足?

7B 模型最低要求 6GB 显存(FP16),开启 4-bit 量化后 4GB 可跑:

ollama pull deepseek-r1:7b-q4_K_M   # 量化版,显存占用减半

二、LM Studio — 小白友好的本地 AI GUI

2.1 介绍

LM Studio 提供图形界面,支持拖拽导入 GGUF 模型文件,适合不想敲命令的用户。支持聊天、API 服务、多模型切换。

2.2 安装

Step 1:下载

官网:https://lmstudio.ai/download

选择 Windows 版本(.exe.zip),双击安装。

Step 2:下载模型

内置模型下载器,搜索 deepseek-ai/DeepSeek-R1-GGUF,选择量化版本(如 Q4_K_M),下载。

也可以从 Hugging Face 下载 GGUF 文件,拖入 LM Studio 左侧面板。

Step 3:运行

  • 加载模型 → 点击 “Chat”
  • 左侧边栏选模型,调节参数(Temperature、Max Tokens、Context Length)
  • 直接对话

Step 4:开启本地 API

# 在 LM Studio 中:
# 1. 点击左侧 "Local Server"
# 2. 选择模型
# 3. 点击 "Start Server"
# 默认地址:http://localhost:1234/v1/chat/completions

支持 OpenAI 兼容接口,代码调用方式:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio"  # 任意字符串
)

response = client.chat.completions.create(
    model="deepseek-r1-7b",
    messages=[{"role": "user", "content": "解释一下什么是 Transformer 架构"}]
)
print(response.choices[0].message.content)

三、DeepSeek — 国产最强开源模型(API 调用)

3.1 介绍

DeepSeek R1 是 2025-2026 年最热门的国产大模型,数学、代码能力对标 GPT-o1,但成本极低(API 价格约为 GPT-4 的 1/30)。支持本地部署和 API 调用两种方式。

3.2 方式一:API 调用(最简单)

注册

https://platform.deepseek.com 注册账号,充值(最低 0.1 美元起)。

获取 API Key

控制台 → API Keys → 创建 Key,妥善保存。

Python 调用示例

pip install openai

from openai import OpenAI

client = OpenAI(
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx",  # 替换为你的 Key
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",         # 对话模型
    # model="deepseek-reasoner",   # R1 推理模型
    messages=[
        {"role": "system", "content": "你是一个资深后端工程师"},
        {"role": "user", "content": "用 Go 语言写一个并发 HTTP 服务器"}
    ],
    temperature=0.7,
    max_tokens=2048
)

print(response.choices[0].message.content)

API 价格参考(2026年6月)

模型 输入 输出
deepseek-chat $0.001/1K tokens $0.003/1K tokens
deepseek-reasoner (R1) $0.002/1K tokens $0.01/1K tokens

3.3 方式二:本地部署(Ollama / vLLM)

Ollama 方式

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

vLLM 方式(高并发生产部署)

pip install vllm

python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B \
    --served-model-name deepseek-r1 \
    --host 0.0.0.0 \
    --port 8000

四、显存 / 内存需求速查

模型 量化 显存需求 内存需求 推荐场景
deepseek-r1:1.5b FP16 3GB 4GB CPU 临时测试
deepseek-r1:7b Q4_K_M 4-6GB 8GB 日常对话
deepseek-r1:14b Q4_K_M 8-10GB 16GB 编程/推理
deepseek-r1:32b Q4_K_M 18-20GB 32GB 高质量输出
qwen2.5:14b Q4_K_M 8-10GB 16GB 中文任务

RTX 3060 (12GB) 可流畅跑 7B,RTX 4070 (12GB) 可跑 14B,RTX 4090 (24GB) 可跑 32B。


五、常见问题

Q:Ollama 下载模型太慢?

# 使用镜像站
set OLLAMA_HOST=https://.example.com/ollama  # 换成国内镜像
# 或者手动下载后导入
ollama create deepseek-r1:7b -f ./Modelfile

Q:LM Studio 和 Ollama 哪个好?

  • 想要命令行、可编程 → Ollama
  • 想要图形界面、懒人操作 → LM Studio

Q:DeepSeek API 和本地部署怎么选?

  • 个人日常使用、调试 → API 方式,成本低、响应快
  • 隐私敏感数据、离线环境 → 本地 Ollama/vLLM

Q:模型选择哪个?

  • 编程/推理:DeepSeek R1 系列
  • 中文对话/写作:Qwen2.5 系列
  • 多语言通用:Llama 3.2

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。