先说结论:Claude API 不是按次数收费,而是按 Token 收费

很多人搜“Claude API 价格”“Claude API 计费”“Claude token 费用”,其实并不是只想看一张价格表。大家真正关心的往往是:调用一次大概要多少钱、一个月预算要准备多少、为什么最后账单会比自己估的高

在这里插入图片描述

Claude API 的计费逻辑,先抓住这几个重点就够了:

  • 它不是按调用次数收费。同样是 1000 次请求,如果每次只用 500 Token,和每次用到 50K Token,成本完全不是一个量级。
  • 输入 Token 和输出 Token 分开算钱。而且通常来说,输出 Token 会比输入 Token 更贵。
  • 最终费用不只看基础 Token。像 Prompt Caching、Batch API、长上下文、Tool Use、Web Search、Agent 多轮调用等,都会影响真实账单。

如果你是通过 ClaudeAPI 这类第三方 Claude API 兼容接入平台来用 Claude,也要先分清楚:ClaudeAPI 并不是 Anthropic 官方。它通常提供的是兼容接口、多线路接入、中文支持、企业充值、开票以及一些基础技术协助。至于具体模型价格、额度、线路规则和账单统计方式,还是要以平台后台和官方最新说明为准。


Claude API 官方价格表怎么看?

官方价格表里经常会出现一个单位:MTok

MTok = Million Tokens,也就是 100 万 Token。

比如某个模型的价格写成这样:

输入价格:$3 / MTok
输出价格:$15 / MTok

意思就是:

每 100 万输入 Token 收 3 美元
每 100 万输出 Token 收 15 美元

如果想换算成更小的单位,可以这么算:

每 1K Token 价格 = MTok 单价 / 1000
每 1 个 Token 价格 = MTok 单价 / 1,000,000

Claude API 不同模型的价格不一样。通常可以按能力和成本大致理解成这几类:

模型类型 输入价格 / MTok 输出价格 / MTok 适合场景 成本特点
Haiku 以官方最新定价为准 以官方最新定价为准 分类、抽取、轻量改写、高并发任务 成本最低
Sonnet 以官方最新定价为准 以官方最新定价为准 通用问答、客服、RAG、代码辅助、内容生成 性价比主力
Opus 以官方最新定价为准 以官方最新定价为准 复杂推理、高难代码、多步骤 Agent 能力强,但成本也高

这里要特别提醒一句:网上很多第三方文章里的模型版本和价格,可能已经过期。真正上线前,最好去 Anthropic 官方定价页核对一遍,尤其是新模型价格、旧模型停用、缓存价格、Batch 折扣、长上下文费率这些细节。


输入 Token 和输出 Token 分别是什么?

想看懂 Claude token 费用,第一步就是把“输入”和“输出”拆开看。

输入 Token 通常包括什么?

简单说,只要是你传给模型、让模型“看到”的内容,通常都有可能算作输入 Token。比如:

  • system prompt;
  • user message;
  • 多轮对话里的历史消息;
  • 之前 assistant 的回复,如果你又把它放回上下文;
  • RAG 检索出来的文档片段;
  • tool definitions / tool schema;
  • 工具调用返回结果,如果后续还要交给模型处理;
  • 长文档、代码文件、日志、网页内容等;
  • 图片、文件等多模态内容对应的计费单位,需要看官方文档;
  • Prompt Caching 中写入缓存的 prompt 内容。

这就是为什么多轮对话很容易越来越贵。因为如果每一轮都把完整聊天记录重新传进去,历史消息就会一遍遍计入输入 Token。

输出 Token 通常包括什么?

模型生成并返回给你的内容,一般会算作输出 Token,包括:

  • 最终的自然语言回复;
  • Markdown、代码、JSON 等结构化内容;
  • tool use 参数;
  • 多步骤 Agent 中模型生成的中间调用内容;
  • extended thinking 等相关输出,具体还要看官方计费规则。

输出 Token 往往比输入 Token 贵,所以控制回复长度、设置 max_tokens、避免无意义的长 Markdown 或超长 JSON,是控制 Claude API 计费时非常关键的一步。


Claude API 费用计算公式

最基础的单次调用费用,可以按下面这个公式来理解:

Claude API 单次调用费用
= 输入 Token 数 / 1,000,000 × 输入单价
+ 输出 Token 数 / 1,000,000 × 输出单价
+ 其他附加费用

如果用到了缓存、工具、搜索等功能,费用结构就会再复杂一点:

总费用
= 普通输入 Token 费用
+ 缓存写入 Token 费用
+ 缓存读取 Token 费用
+ 输出 Token 费用
+ 工具 / 搜索 / 长上下文等附加费用

月成本也可以先粗略估:

月成本
= 单次调用平均费用 × 日调用次数 × 每月天数

人民币成本不建议直接写死,因为汇率会变。实际做预算时,按实时汇率自己换算会更稳妥。


一次 Claude API 调用到底多少钱?用例子算给你看

下面用一组常见示例单价来演示计算方法:

Haiku:输入 $1 / MTok,输出 $5 / MTok
Sonnet:输入 $3 / MTok,输出 $15 / MTok
Opus:输入 $15 / MTok,输出 $75 / MTok

这些数字只是为了方便说明怎么算,实际价格一定要以官方和接入平台的最新定价为准。

案例 1:简单问答

假设一次请求是:

输入:1,000 Token
输出:500 Token
模型 计算 单次费用
Haiku 1000/1M×1 + 500/1M×5 $0.0035
Sonnet 1000/1M×3 + 500/1M×15 $0.0105
Opus 1000/1M×15 + 500/1M×75 $0.0525

简单问答看起来不长,但输出 Token 单价更高,所以哪怕只输出 500 Token,费用占比也不算低。

案例 2:文档总结

假设你要总结一篇较长文档:

输入:20,000 Token
输出:2,000 Token
模型 单次费用
Haiku $0.03
Sonnet $0.09
Opus $0.45

这类任务的成本主要来自输入,因为你把整篇长文档都放进了 prompt。做文档总结产品时,最好不要默认全文塞给模型。更实际的做法是先切分、摘要,再筛选真正相关的段落。

案例 3:RAG 客服机器人

再看一个 RAG 客服场景。假设一次问答包含:

用户问题:200 Token
系统提示:1,000 Token
检索上下文:4,000 Token
输出回复:800 Token

总输入就是:

200 + 1,000 + 4,000 = 5,200 Token
模型 单次费用
Haiku $0.0092
Sonnet $0.0276
Opus $0.138

RAG 场景里,真正吃 Token 的往往不是用户那一句问题,而是检索出来的知识库内容。召回片段太多、每段太长,都会直接把 Claude API 价格推上去。


不同业务场景下,Claude API 月成本怎么估算?

假设某个产品平均每次调用是:

输入:3,000 Token
输出:1,000 Token
每天调用:10,000 次
每月按 30 天计算

那么成本大致如下:

模型 单次费用 日成本 月成本
Haiku $0.008 $80 $2,400
Sonnet $0.024 $240 $7,200
Opus $0.12 $1,200 $36,000

这个例子很直观:调用量一旦上来,模型选择对预算影响非常大。高并发的分类、抽取、审核任务,不一定非要用 Opus。很多产品更适合用 Haiku 做预处理,用 Sonnet 处理主流程,只把少数确实困难的问题路由到 Opus。

多轮对话为什么容易超预算?

假设第 1 轮输入只有 1K Token,但到了第 5 轮,因为带上了历史消息、工具结果、RAG 上下文,输入可能已经变成 8K Token。用户表面上每轮只是问了一句话,但系统后台可能一直在反复传入大量上下文。

比较常见的优化办法有这些:

  • 长对话要做摘要;
  • 只保留真正必要的历史;
  • 无关的工具结果及时剔除;
  • RAG 内容设置片段数量和长度上限;
  • 给每个会话设置上下文预算。

Prompt Caching、Batch API、长上下文会怎么影响价格?

Prompt Caching:适合重复长上下文

Prompt Caching 比较适合固定 system prompt、固定工具定义、固定背景文档这类复用率很高的内容。

但要注意,它不是免费,而是把重复输入拆成了缓存写入和缓存读取两类费用。缓存命中通常会便宜一些,不过到底划不划算,关键还是看命中率。

比较适合用缓存的情况包括:

  • 每次请求都带同一套长系统提示;
  • 每次都带同一份产品规则;
  • 工具 schema 很长,而且会重复使用;
  • 多个用户共享同一段固定知识背景。

Batch API:适合异步批处理

Batch API 通常会给输入和输出一定折扣。比如一些官方规则里曾提到过 50% 折扣,不过具体还是要看最新文档。

假设用 Sonnet 处理一批任务:

输入:1 亿 Token
输出:2,000 万 Token

标准 API 成本是:

100 × $3 + 20 × $15 = $600

如果 Batch 按 50% 折扣算:

$600 × 50% = $300

Batch 更适合批量总结、批量翻译、数据清洗、打标签、离线分类这类任务。不适合实时客服,也不适合要求马上返回的即时聊天。

长上下文:不要把知识库全部塞进 prompt

长上下文不只是会变慢,也会变贵。部分模型在超过特定上下文阈值后,可能进入更高费率,具体要以官方说明为准。

尤其是 RAG 产品,不要陷入“召回越多越好”的误区。更合理的方式是:

  • 控制召回数量;
  • 压缩文档片段;
  • 长文档先摘要,再传给模型;
  • 过滤掉低相关内容。

工具调用、Web Search、Agent 为什么可能让账单变高?

Tool Use 和 Agent 场景里,Claude token 费用经常会被低估。

主要原因有几个。

第一,tool schema 会计入输入。工具定义越多,参数说明越长,输入 Token 就越高。

第二,工具返回结果会进入下一轮输入。比如模型调用搜索、数据库或代码执行器之后,再把结果交给模型总结,这些返回内容也会变成新的输入。

第三,Agent 往往会多轮调用模型。一个用户请求,背后可能触发 3 次、5 次甚至更多次模型调用。账单不是按用户请求数来算,而是按所有模型调用产生的输入、输出 Token 累加。

Web Search 也要单独注意。搜索本身可能按次数收费,例如官方曾列出过类似 $10 / 1000 次搜索 的规则。同时,搜索结果进入上下文后,还会继续产生 Token 费用。所以不要默认每个请求都开启联网搜索,最好只在确实需要的时候使用。


Claude API、Claude Pro、Claude Max、Claude Code 价格有什么区别?

这几个概念很容易混在一起,但其实不是一回事。

  • Claude API:开发者通过 API 调用模型,按 Token 计费。
  • Claude Pro / Max:Claude 网页端或 App 的订阅计划,不等于 API 套餐,也不能理解成“买会员就能无限用 API”。
  • Claude Code:面向开发者的编程工具,也会消耗 Token,但使用场景和成本结构,跟自己接入 Messages API 不完全一样。
  • Amazon Bedrock / Google Vertex AI 上的 Claude:可能会有不同的计费口径、区域规则和账单体系。

如果你使用的是 ClaudeAPI 这类第三方兼容接入平台,还要额外看平台自己的充值规则、计费展示、线路选择、企业开票和技术支持说明。


如何降低 Claude API Token 费用?

想把 Claude API 成本降下来,可以从下面这些地方入手。

首先是选对模型。简单分类、抽取、轻量改写,可以优先考虑 Haiku;通用问答、客服、RAG,多数情况下 Sonnet 更合适;只有复杂推理、高难代码、多步骤 Agent,才更有必要上 Opus。

其次,可以做模型路由。先用低成本模型判断任务难度,简单问题直接处理,复杂问题再升级到更强模型。这样比所有请求都用高价模型更划算。

输出长度也要控制。设置 max_tokens,让模型回答更简洁,避免生成一大段没有必要的 Markdown、代码或 JSON。

system prompt 也值得压缩。很多提示词一开始写得很长,后面又不断追加规则,最后变成每次都传一大段冗余内容。可以删掉重复规则,把长提示词模块化,只在需要时传入。

多轮对话不要无限携带完整聊天记录。长会话可以做摘要,只保留关键事实和必要上下文。

RAG 召回也要精简。只传最相关的片段,控制每段长度,不要把整份知识库原样塞进上下文。

如果有固定系统提示、固定工具定义、固定背景文档,可以考虑 Prompt Caching。不过最好先评估命中率,否则未必真的省钱。

离线分类、批量总结、数据处理这类任务,可以考虑 Batch API。实时任务就不太适合。

工具调用方面,也要减少负担。缩短 tool schema,控制工具返回内容,不要把完整日志、网页、数据库结果一股脑丢给模型。

最后,监控一定要做。建议按 API key、用户、项目记录 input_tokensoutput_tokens,并设置预算、告警和异常拦截。否则等账单出来再排查,往往已经晚了。


Claude API 选哪个模型最划算?

可以按业务场景做一个简单判断:

场景 推荐选择
高并发分类、标签、抽取 Haiku
客服机器人、知识库问答、RAG Sonnet
内容生成、代码辅助、通用产品功能 Sonnet
高难推理、复杂代码、多步骤 Agent Opus
离线批处理 Batch API + 合适模型
重复长上下文 Prompt Caching
预算非常敏感 Haiku + Sonnet 路由
质量优先且调用量不高 Sonnet / Opus

比较稳妥的策略,并不是“永远用最贵的模型”,而是把任务分层:低难度任务用低成本模型,主流程用性价比模型,少数复杂任务再升级到更强模型。这样成本和效果通常更容易平衡。


常见问题 FAQ

1. Claude API 是按字数收费吗?

不是。Claude API 按 Token 计费,不是直接按字数计费。中文、英文、代码、JSON 的 Token 切分方式都不一样,具体数量要以实际 tokenizer 或 API 返回统计为准。

2. 中文 1000 字大约是多少 Token?

只能粗略估算。中文 1000 字可能接近 1000 Token,也可能更多,取决于内容、标点、混合英文、代码和格式。做预算时,最好拿真实样本测试。

3. 输入 Token 和输出 Token 哪个更贵?

多数 Claude 模型里,输出 Token 单价通常高于输入 Token。所以长回复、代码生成、复杂 JSON 输出,都会明显增加费用。

4. Claude Pro 会员包含 API 吗?

一般不要把 Claude Pro / Max 和 Claude API 混为一谈。Pro / Max 是网页端订阅,API 是开发者按 Token 计费,它们不是同一个账单体系。

5. 为什么我的 API 账单比预估高?

常见原因包括:多轮对话反复携带历史、RAG 召回内容过长、输出没有限制、工具调用次数过多、Agent 多次调用模型,以及 Web Search 产生额外费用。

6. 多轮对话每一轮都会重新计算历史 Token 吗?

如果你把历史消息再次传给模型,它们通常就会计入本轮输入 Token。至于传不传、传多少,取决于你的应用怎么实现。

7. RAG 检索内容是否计费?

会。检索出来并传给模型的文档片段,通常都属于输入 Token,也是 RAG 成本里很重要的一部分。

8. Tool Use 是否额外收费?

工具定义、工具调用参数、工具返回结果,只要进入上下文,都会影响 Token 消耗。有些工具或搜索能力还可能有单独费用,具体要看官方和接入平台说明。

9. 如何查看 Claude API 使用量和账单?

通常可以在官方 Console 或接入平台后台查看用量。工程上也建议自己记录每次请求的 input_tokensoutput_tokens、模型名、用户 ID 和项目 ID,这样后续做成本分析会方便很多。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐