把 ClaudeCode 换成DeepSeek V4：两行配置，成本立省80%（含 Anthropic 兼容接口）

你如果在用 Claude Code（或者任何基于 Anthropic SDK / 协议的 Agent 工具），大概率遇到过两件事：

cmzznet

246人浏览 · 2026-05-15 19:10:21

cmzznet · 2026-05-15 19:10:21 发布

把 Claude Code 换成 DeepSeek V4：两行配置，成本立省 80%（含 Anthropic 兼容接口）

TL;DR：DeepSeek V4 官方提供 Anthropic 兼容接口（https://api.deepseek.com/anthropic）。如果你在用 Claude Code/Anthropic SDK 跑 agent loop，通常只要换 endpoint + key 就能跑起来；在 cache 命中时输入成本低到离谱（官方：V4-Flash cache hit $0.0028 / 1M tokens）。

你如果在用 Claude Code（或者任何基于 Anthropic SDK / 协议的 Agent 工具），大概率遇到过两件事：

账单像漏水：写个中等复杂度的重构，Agent 一跑就几十万 token。
风控压力：账号、地区、支付方式，哪个环节抽一下你就得停工。

这周一个很关键的变化是：DeepSeek V4 提供了 Anthropic 兼容接口（官方 base_url：https://api.deepseek.com/anthropic）。

意思很直白：很多“Claude 生态”的工具，不用改代码，只要换个 endpoint + key，就能直接跑在 DeepSeek V4 上。

下面我把关键点讲清楚：

DeepSeek V4 的官方定价到底有多低（含 cache hit / miss）
Claude Code/Anthropic SDK 怎么两行切过去
什么时候该用 V4-Flash，什么时候该用 V4-Pro
别踩的坑：cache、thinking mode、超长上下文

说明：本文的价格数据来自 DeepSeek 官方定价页（2026-05-15 抓取）。我不编“实测跑了 N 天”。能实测的我会明确写“我测了”，不能实测的我就只引用官方数据。

1. DeepSeek V4 官方定价（这是最关键的杠杆）

DeepSeek 把价格按 1M tokens 报价，而且把输入拆成 cache hit 和 cache miss 两档。

来自官方文档（Models & Pricing）：

deepseek-v4-flash
- 1M input tokens (cache miss)：$0.14
- 1M input tokens (cache hit)：$0.0028
- 1M output tokens：$0.28
deepseek-v4-pro（有折扣期，直到 2026/05/31 15:59 UTC）
- 1M input tokens (cache miss)：$0.435（75% off）
- 1M input tokens (cache hit)：$0.003625（75% off）
- 1M output tokens：$0.87（75% off）

你看到这里应该能意识到一件事：

Agent 这种“反复带着长 system prompt + 长工具说明 + 长上下文循环”的工作流，只要 cache 命中率上来，输入成本会非常夸张地下降。

这也是为什么很多人说“换了之后像白捡”——不是模型突然变强了，而是计费模型 + cache 定价让 Agent 经济性变了。

2. 两行配置：把 Anthropic 客户端指到 DeepSeek

DeepSeek 的 Anthropic 兼容接口是：

Base URL（Anthropic Format）：https://api.deepseek.com/anthropic

这意味着：如果你的工具用的是 Anthropic SDK（Node/Python）或兼容协议，只要改 base_url + key。

2.1 Python：Anthropic SDK → DeepSeek Anthropic endpoint

from anthropic import Anthropic

client = Anthropic(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com/anthropic",
)

msg = client.messages.create(
    model="deepseek-v4-flash",
    max_tokens=1024,
    messages=[{"role": "user", "content": "给我一个可运行的 Python 快排实现"}],
)

print(msg.content[0].text)

如果你之前是：

client = Anthropic(api_key="YOUR_ANTHROPIC_KEY")

那就是“多加一行 base_url”，外加把 key 换掉。

2.2 Node.js：同理

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/anthropic",
});

const msg = await client.messages.create({
  model: "deepseek-v4-flash",
  max_tokens: 1024,
  messages: [{ role: "user", content: "写一个可运行的 JS LRU Cache" }],
});

console.log(msg.content[0].text);

注意：不同 SDK 版本参数名可能是 baseURL/base_url，以你用的版本为准。

3. Claude Code 怎么切（思路同上）

Claude Code 本质上也是“用 Anthropic 协议跑 agent loop”。能不能切，取决于它是否允许你配置：

API key
endpoint/base URL
model name

如果你的环境支持设置这些变量（示意）：

export ANTHROPIC_API_KEY="YOUR_DEEPSEEK_API_KEY"
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_MODEL="deepseek-v4-flash"

那就能跑。

如果你用的版本不支持 base_url，那也正常——很多工具是“写死官方域名”的。解决思路有两个：

升级到支持自定义 endpoint 的版本
在你这边加一层 API 网关/反代（把请求转到 DeepSeek，并把返回改成 Anthropic 兼容结构）

4. Flash vs Pro：怎么选（别纠结“哪个更强”）

我建议按任务类型选，而不是按“模型崇拜”。一个很实用的决策表：

deepseek-v4-flash：日常开发、重构、测试、脚手架、文档生成（便宜、够用）
deepseek-v4-pro：架构设计、复杂 bug 定位、长链路推理、改动面很大的迁移（贵一点，但仍然很划算）

选型对比表（只看你真正关心的）

维度	V4-Flash	V4-Pro（折扣期）	你该怎么选
输入（cache miss）$/1M	0.14	0.435	上下文变化大、cache 命中低 → 更在意这个
输入（cache hit）$/1M	0.0028	0.003625	大部分 agent loop 会命中很多
输出 $/1M	0.28	0.87	你输出越长越要看这个
Anthropic 兼容接口	✅	✅	两者都能直接接
上下文	1M	1M	长上下文场景两者都能扛

反直觉点：很多人把注意力都放在“输出价格”，但对 Agent 来说，真正的大头往往是“输入的 cache miss”。

因为 agent loop 会不断把：

工具说明
system prompt
规划/执行历史
文件 diff

反复塞回去。

你只要让“重复部分”能 cache hit，输入成本会掉得非常猛。

5. 三个坑：你切过去之前先把这三件事想清楚

坑 1：thinking mode / non-thinking mode

DeepSeek V4-Flash 支持 thinking（默认）和 non-thinking。你如果在做简单任务（比如生成测试、改变量名），non-thinking 往往更快更省。

但：不同 SDK 的开关方式不一样，你需要看 DeepSeek 的 guide（Thinking Mode）。

坑 2：cache 命中率不是“自动就高”

想要 cache hit：你得让前缀更稳定。

一个最简单的做法：

把 system prompt 固定（别每次拼接不同时间戳、随机 id）
工具列表稳定排序
把“项目约定/代码风格”这种大段内容放在前面

坑 3：模型名不要乱写

DeepSeek 官方模型名就是：

deepseek-v4-flash
deepseek-v4-pro

另外还有兼容名：

deepseek-chat（对应 flash 的 non-thinking）
deepseek-reasoner（对应 flash 的 thinking）

如果你的工具只允许填老名字，也可以先用兼容名跑起来。

6. 一句现实建议：如果你是团队，用“统一入口”比到处改配置更重要

个人用 Claude Code，改两个环境变量就能跑；但团队里最容易失控的是：

每个人配法不一样
key 分散在各处
费用没人看
哪天某个 endpoint 不通，大家一起停工

更稳的方式通常是：

你们内部有一个统一的模型入口（可以是网关/代理）
统一做：鉴权、审计、降级、fallback、配额

我自己在团队里通常不会让每个人直接绑供应商 endpoint，而是把入口收敛（不然排查问题会很痛苦）。

常见问题（FAQ）

Q1：DeepSeek 的 Anthropic 兼容接口能覆盖 Claude 的所有能力吗？
A：覆盖的是“协议层”的兼容（messages API、基本字段结构）。但像某些特定的工具调用字段、beta 特性、细节行为可能不完全一致。建议先用你们最关键的 3-5 个任务回归一遍。

Q2：我用的是 Claude Code，但版本不支持自定义 base_url，怎么办？
A：两条路：要么升级到支持自定义 endpoint 的版本；要么用一层内部代理/网关，把 Anthropic 请求转发到 DeepSeek，并做响应兼容。

Q3：为什么我感觉换了模型“差不多”，但账单差很多？
A：多数情况不是“模型差距”，而是 DeepSeek 的 cache hit 输入价格极低。Agent 工作流里可复用前缀越多，差距越夸张。

参考：DeepSeek Models & Pricing（官方）

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

做了个 Claude Code/Codex/Gemini 国内平替平台aikopen

我越来越觉得：AI Coding 不会替代程序员。AI 协作能力而不是单纯手写代码速度。CodexGeminiCursorDevinWindsurf欢迎一起交流。也想看看：大家现在真实 AI Coding 使用场景到底是什么。

DeepSeek技术社区

Claude Code接入国产模型的唯一捷径找到了！小米原生（免费送百亿taken）、阿里直连、DeepSeek百万上下文！

2026年5月最新的8款国产大模型（DeepSeek V4、Kimi K2.6、Qwen3.5-Plus、豆包Seed 2.0 Pro、智谱GLM-5.1、小米MiMo V2.5-Pro、文心ERNIE 5.1、混元Hy3 preview）接入Claude Code的能力，从代码性能、上下文长度、价格、Agent支持等维度对比，并提供具体配置参数与选型建议。

DeepSeek技术社区

2026 年度 GEO 服务行业影响力榜单：技术硬实力与用户口碑双维度专业评级

该系统已无缝覆盖 15 + 全球主流 AI 搜索平台，涵盖 ChatGPT、Gemini、Perplexity、DeepSeek、豆包、Kimi、腾讯元宝等，同时具备 20 + 全球主流语种的本地化适配能力，可覆盖全球 20+AI 搜索平台，核心护城河是跨模型的通用共识分发协议，一次接入、全平台生效。公司拥有 12 个全球办公节点，横跨亚洲、欧洲、北美三大洲，以上海全球总部为核心，同步布局深圳、武