把 Claude Code 换成 DeepSeek V4:两行配置,成本立省 80%(含 Anthropic 兼容接口)

TL;DR:DeepSeek V4 官方提供 Anthropic 兼容接口(https://api.deepseek.com/anthropic)。如果你在用 Claude Code/Anthropic SDK 跑 agent loop,通常只要换 endpoint + key 就能跑起来;在 cache 命中时输入成本低到离谱(官方:V4-Flash cache hit $0.0028 / 1M tokens)。

你如果在用 Claude Code(或者任何基于 Anthropic SDK / 协议的 Agent 工具),大概率遇到过两件事:

  1. 账单像漏水:写个中等复杂度的重构,Agent 一跑就几十万 token。
  2. 风控压力:账号、地区、支付方式,哪个环节抽一下你就得停工。

这周一个很关键的变化是:DeepSeek V4 提供了 Anthropic 兼容接口(官方 base_url:https://api.deepseek.com/anthropic)。

意思很直白:很多“Claude 生态”的工具,不用改代码,只要换个 endpoint + key,就能直接跑在 DeepSeek V4 上。

下面我把关键点讲清楚:

  • DeepSeek V4 的官方定价到底有多低(含 cache hit / miss)
  • Claude Code/Anthropic SDK 怎么两行切过去
  • 什么时候该用 V4-Flash,什么时候该用 V4-Pro
  • 别踩的坑:cache、thinking mode、超长上下文

说明:本文的价格数据来自 DeepSeek 官方定价页(2026-05-15 抓取)。我不编“实测跑了 N 天”。能实测的我会明确写“我测了”,不能实测的我就只引用官方数据。

1. DeepSeek V4 官方定价(这是最关键的杠杆)

DeepSeek 把价格按 1M tokens 报价,而且把输入拆成 cache hitcache miss 两档。

来自官方文档(Models & Pricing):

  • deepseek-v4-flash

    • 1M input tokens (cache miss):$0.14
    • 1M input tokens (cache hit):$0.0028
    • 1M output tokens:$0.28
  • deepseek-v4-pro(有折扣期,直到 2026/05/31 15:59 UTC)

    • 1M input tokens (cache miss):$0.435(75% off)
    • 1M input tokens (cache hit):$0.003625(75% off)
    • 1M output tokens:$0.87(75% off)

你看到这里应该能意识到一件事:

Agent 这种“反复带着长 system prompt + 长工具说明 + 长上下文循环”的工作流,只要 cache 命中率上来,输入成本会非常夸张地下降。

这也是为什么很多人说“换了之后像白捡”——不是模型突然变强了,而是计费模型 + cache 定价让 Agent 经济性变了。

2. 两行配置:把 Anthropic 客户端指到 DeepSeek

DeepSeek 的 Anthropic 兼容接口是:

  • Base URL(Anthropic Format):https://api.deepseek.com/anthropic

这意味着:如果你的工具用的是 Anthropic SDK(Node/Python)或兼容协议,只要改 base_url + key。

2.1 Python:Anthropic SDK → DeepSeek Anthropic endpoint

from anthropic import Anthropic

client = Anthropic(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com/anthropic",
)

msg = client.messages.create(
    model="deepseek-v4-flash",
    max_tokens=1024,
    messages=[{"role": "user", "content": "给我一个可运行的 Python 快排实现"}],
)

print(msg.content[0].text)

如果你之前是:

client = Anthropic(api_key="YOUR_ANTHROPIC_KEY")

那就是“多加一行 base_url”,外加把 key 换掉。

2.2 Node.js:同理

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/anthropic",
});

const msg = await client.messages.create({
  model: "deepseek-v4-flash",
  max_tokens: 1024,
  messages: [{ role: "user", content: "写一个可运行的 JS LRU Cache" }],
});

console.log(msg.content[0].text);

注意:不同 SDK 版本参数名可能是 baseURL/base_url,以你用的版本为准。

3. Claude Code 怎么切(思路同上)

Claude Code 本质上也是“用 Anthropic 协议跑 agent loop”。能不能切,取决于它是否允许你配置:

  • API key
  • endpoint/base URL
  • model name

如果你的环境支持设置这些变量(示意):

export ANTHROPIC_API_KEY="YOUR_DEEPSEEK_API_KEY"
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_MODEL="deepseek-v4-flash"

那就能跑。

如果你用的版本不支持 base_url,那也正常——很多工具是“写死官方域名”的。解决思路有两个:

  1. 升级到支持自定义 endpoint 的版本
  2. 在你这边加一层 API 网关/反代(把请求转到 DeepSeek,并把返回改成 Anthropic 兼容结构)

4. Flash vs Pro:怎么选(别纠结“哪个更强”)

我建议按任务类型选,而不是按“模型崇拜”。一个很实用的决策表:

  • deepseek-v4-flash:日常开发、重构、测试、脚手架、文档生成(便宜、够用)
  • deepseek-v4-pro:架构设计、复杂 bug 定位、长链路推理、改动面很大的迁移(贵一点,但仍然很划算)

选型对比表(只看你真正关心的)

维度 V4-Flash V4-Pro(折扣期) 你该怎么选
输入(cache miss)$/1M 0.14 0.435 上下文变化大、cache 命中低 → 更在意这个
输入(cache hit)$/1M 0.0028 0.003625 大部分 agent loop 会命中很多
输出 $/1M 0.28 0.87 你输出越长越要看这个
Anthropic 兼容接口 两者都能直接接
上下文 1M 1M 长上下文场景两者都能扛

反直觉点:很多人把注意力都放在“输出价格”,但对 Agent 来说,真正的大头往往是“输入的 cache miss”。

因为 agent loop 会不断把:

  • 工具说明
  • system prompt
  • 规划/执行历史
  • 文件 diff

反复塞回去。

你只要让“重复部分”能 cache hit,输入成本会掉得非常猛。

5. 三个坑:你切过去之前先把这三件事想清楚

坑 1:thinking mode / non-thinking mode

DeepSeek V4-Flash 支持 thinking(默认)和 non-thinking。你如果在做简单任务(比如生成测试、改变量名),non-thinking 往往更快更省。

但:不同 SDK 的开关方式不一样,你需要看 DeepSeek 的 guide(Thinking Mode)。

坑 2:cache 命中率不是“自动就高”

想要 cache hit:你得让前缀更稳定。

一个最简单的做法:

  • 把 system prompt 固定(别每次拼接不同时间戳、随机 id)
  • 工具列表稳定排序
  • 把“项目约定/代码风格”这种大段内容放在前面

坑 3:模型名不要乱写

DeepSeek 官方模型名就是:

  • deepseek-v4-flash
  • deepseek-v4-pro

另外还有兼容名:

  • deepseek-chat(对应 flash 的 non-thinking)
  • deepseek-reasoner(对应 flash 的 thinking)

如果你的工具只允许填老名字,也可以先用兼容名跑起来。

6. 一句现实建议:如果你是团队,用“统一入口”比到处改配置更重要

个人用 Claude Code,改两个环境变量就能跑;但团队里最容易失控的是:

  • 每个人配法不一样
  • key 分散在各处
  • 费用没人看
  • 哪天某个 endpoint 不通,大家一起停工

更稳的方式通常是:

  • 你们内部有一个统一的模型入口(可以是网关/代理)
  • 统一做:鉴权、审计、降级、fallback、配额

我自己在团队里通常不会让每个人直接绑供应商 endpoint,而是把入口收敛(不然排查问题会很痛苦)。

常见问题(FAQ)

Q1:DeepSeek 的 Anthropic 兼容接口能覆盖 Claude 的所有能力吗?
A:覆盖的是“协议层”的兼容(messages API、基本字段结构)。但像某些特定的工具调用字段、beta 特性、细节行为可能不完全一致。建议先用你们最关键的 3-5 个任务回归一遍。

Q2:我用的是 Claude Code,但版本不支持自定义 base_url,怎么办?
A:两条路:要么升级到支持自定义 endpoint 的版本;要么用一层内部代理/网关,把 Anthropic 请求转发到 DeepSeek,并做响应兼容。

Q3:为什么我感觉换了模型“差不多”,但账单差很多?
A:多数情况不是“模型差距”,而是 DeepSeek 的 cache hit 输入价格极低。Agent 工作流里可复用前缀越多,差距越夸张。


参考:DeepSeek Models & Pricing(官方)

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐