不要再在账单日才发现你的 Claude 账单:Anthropic API 监控现已进入 Elastic
作者:来自 Elastic Ishleen Kaur 及 Daniela Tzvetkova

在每个 workspace、model 和 service tier 中跟踪 Anthropic API 支出和 rate limit headroom(速率限制余量),使成本意外和 throttling 不再成为 production-time 发现。
在所有 workspace 和 model 之间跟踪 Anthropic API 的支出、token 使用量以及 rate limit headroom,而无需修改任何应用代码。新的 Elastic Anthropic Metrics 集成会按计划轮询 Anthropic 的 Admin API,并将组织级 usage、cost 和 rate limit 数据写入 Elasticsearch,同时提供开箱即用的 Kibana dashboards,可在几分钟内直接使用。如果你的团队曾经在生产环境中排查过 429 错误,或者在事后对 Claude 账单进行对账,那么这个功能就是解决方案。
Elastic 中的 Anthropic API 监控
我们很高兴宣布新的 Elastic Anthropic metrics 集成(Elastic Anthropic metrics integration),现已在 Elastic Observability 中提供。该集成通过 Anthropic Admin API 采集 Claude API 平台的组织级 telemetry,包括 token 使用量、成本和速率限制配置,并写入 Elasticsearch,同时提供预构建 Kibana dashboards 和开箱即用的告警能力。只需一个 Admin API key,平台团队就可以获得跨所有 workspace、model 和 service tier 的 Claude 使用统一视图,并与 Elastic 中已有的其他监控数据一起关联分析。
Anthropic 的两个产品,两种监控视角:该集成覆盖什么
Anthropic 通过两个不同产品提供 Claude。Claude apps(Claude.ai、Claude Code、Cowork、Claude Design)面向组织内部员工使用,关注的问题是“谁在使用 Claude,以及用于什么场景”。而 Claude API platform(Claude API platform)用于企业在其应用中调用 Anthropic 模型,负责这些系统的开发团队和成本方关心的是“我们的软件消耗了多少,以及是否在成本与容量边界内”。
该集成聚焦第二种场景 —— Claude API platform,通过 Anthropic Admin API 拉取组织级 usage、cost 和 rate limits 数据,覆盖所有 workspace 和 model。
Claude API 运行时团队需要监控什么?
对于运行 Claude API 生产工作负载的团队,有三类运维需求反复出现。
成本归因
一个 Anthropic 组织通常会服务多个内部团队和产品,每个团队都有自己的 workspace,不同的 model 组合(Opus 用于最复杂的推理任务,Sonnet 作为日常主力,Haiku 用于更简单、高吞吐的任务),以及不同的 service tier 选择(standard、batch、priority)。当月度账单到来时,平台团队需要知道每一笔费用分别来自哪个 workspace、model 和 tier,从而把成本分摊回正确的团队,并决定哪些工作负载应该迁移到更便宜的模型或 batch tier。
速率限制 headroom
Anthropic 在 model 级别强制执行速率限制,包括每分钟请求数(RPM)、每分钟输入 tokens(ITPM)和每分钟输出 tokens(OTPM)。团队第一次意识到接近上限,通常是在生产流量开始被 throttled(限流)的时候。将已配置的限制与实际消耗一起展示,可以让平台团队提前看到 headroom(余量),提前规划容量,并在用户感知影响之前申请提升限制。
面向不同角色的数据粒度
同一份数据需要服务不同节奏的需求。SRE 需要分钟级精度来捕捉突发流量并触发告警。平台工程师需要小时级视图用于容量规划。财务需要日级汇总,用于与 Anthropic 账单进行对账。一套统一的集成同时提供这三种粒度,可以避免为不同团队维护多套独立数据管道。
Elastic 如何轮询 Anthropic Admin API 获取 usage、cost 和 rate limit 数据
该集成运行在 Elastic Agent 上,并使用 CEL input 按计划轮询 Anthropic 的 Admin API。认证使用单个 Admin API key,该 key 会以加密形式存储在 Fleet secret 中,并在 agent 日志中脱敏。
通过一套配置,该集成将三类数据流写入 Elasticsearch:
-
Usage(
metrics-anthropic_metrics.usage-*):按时间 bucket 的 token 消耗(1 分钟、1 小时或 1 天),并按 model、workspace、service tier 和 inference geography 进行拆分。 -
Cost(
metrics-anthropic_metrics.cost-*):按天统计的成本(在 dashboard 中转换为 USD),并按 workspace、model、service tier、cost type、token type、context window 和 inference geography 拆分。 -
Rate limits(
metrics-anthropic_metrics.rate_limit-*):每个 model group 的配置限额快照,包括 RPM、ITPM(支持 cache 感知)和 OTPM,在每次轮询时刷新。
Ingest pipelines 会处理解析与字段映射,使数据可以直接查询、用于 dashboard,并与 Elastic Observability 的其他数据保持一致。由于数据是从组织级 Admin API 拉取的,因此无需任何应用侧埋点或 SDK 改动即可获得完整可见性。
在 Elastic 中设置 Anthropic API 监控需要什么
要开始使用 Elastic Anthropic Metrics 集成,需要:
-
一个 Elastic 部署:
-
Elastic Cloud Hosted(ECH):9.4.0 或以上版本
-
Elastic Serverless:无需版本限制,即开即用
-
-
一个 Anthropic 组织(Team 或 Enterprise 计划),并具备 Admin API 访问权限(Free / Pro / Max 账户不支持创建 Admin API key)
-
由组织管理员在 Claude Console(Claude Console admin keys)中创建的 Admin API key(
sk-ant-admin...) -
在主机上运行 Elastic Agent,并允许 outbound HTTPS 访问
api.anthropic.com
如何配置 Anthropic Metrics 集成
-
在 Claude Console 生成 Admin API key(以
sk-ant-admin...开头)。 -
在 Kibana 的 Management → Integrations 中搜索 Anthropic Metrics 并点击 Add。
-
选择部署模式:agentless(零安装)或使用自建主机的 Elastic Agent。
-
按需调整默认配置(每个数据流都有合理默认值):
-
Usage:每 5 分钟轮询一次,1 小时时间 bucket,按 model、workspace、service tier 和 inference geography 分组。可切换 bucket 粒度为
1m(实时告警)或1d(财务级汇总)。也可增加 grouping 维度如api_key_id、context_window或speed。 -
Cost:每 1 小时轮询一次。Anthropic API 返回的是按天的成本 bucket,因此更高频轮询不会产生新数据。
-
Rate Limits:每 15 分钟轮询一次,属于 snapshot API,每次返回当前所有 model group 的 RPM、ITPM 和 OTPM 配置。
-
-
打开 integration assets:几分钟内数据开始流入 Elasticsearch,同时预构建 dashboards 和 alerts 可立即使用。
完整配置参考见 Anthropic Metrics integration 文档。
Anthropic dashboards 展示什么
该集成提供预构建 Kibana dashboards,让你可以直接查看 Claude API 使用情况的整体视图。executive overview 会汇总关键指标(总支出、总 token、活跃 workspace、top models),用于快速判断组织级 Anthropic 使用状态。

从概览中,你可以进入更细的视图,以回答前面提到的三类运维需求。
按 model、workspace 和 service tier 的 token 使用情况
usage dashboard 会按 model、workspace 和 service tier(standard、batch、priority)拆分 token 消耗,包括 uncached input、cached input、cache-creation 和 output。
这个视图可以帮助你判断 token 预算到底流向了哪里,哪些工作负载从 prompt caching 中获益最多,以及哪些 teams 或 models 在驱动大部分消耗。
你可以按 workspace 或 model 进行筛选,把视图收敛到单个团队或产品级别。

成本报告与发票对账
cost 和 billing dashboard 会按天以 USD 统计支出,并按 workspace、model、cost type、token type、context window 和 inference geography 进行拆分。
一个 invoice reconciliation 表会将支出映射回你的 Anthropic bill 上的具体 line items,这样 finance 和 engineering 可以在不依赖 spreadsheet 复杂操作的情况下对齐数据。
inference geography 视图支持 data residency 跟踪,适用于需要了解 inference 运行位置的团队。

Rate limit headroom:RPM、ITPM、OTPM
Rate limit dashboard 会展示每个 model group 的已配置上限(requests per minute、input tokens per minute、output tokens per minute),并与从 usage stream 拉取的实际消耗进行对比。
Headroom 视图会告诉你每个 model 距离上限还有多近,从而让 platform teams 可以提前规划容量,并在流量开始被 throttled 之前申请提升限额。

Anthropic API 成本与使用量的预构建告警规则
该集成提供 6 个开箱即用的预构建告警规则模板,覆盖 cost、usage efficiency 以及 routing。
成本与预算告警
-
Cost Anomaly(成本异常):当日支出超过可配置阈值时触发,用于在 runaway workloads 累积之前提前发现。
-
Monthly Budget Spend Limit(每月预算支出上限):跟踪当前自然月的累计支出,当超过预算上限时触发告警。
-
Per-Workspace Daily Cost Spike(按 workspace 的每日成本突增):当某个 workspace 的日支出超过阈值时触发,避免单个团队的成本激增被组织级总量掩盖。
使用与效率告警
-
Token Consumption Spike(token 消耗突增):当某个 model 的小时 token 数超过阈值时触发,并按 model 分组,便于快速定位来源。
-
Cache Hit Rate Drop(缓存命中率下降):当 input token cache hit ratio 低于 30% 时触发,提示 prompt 变更或配置问题可能导致成本和延迟上升。
-
Single Model Dominance(单模型占比过高):当某个 model 占总 token 消耗超过 90% 时触发,可能意味着 routing 配置存在问题。
所有阈值都可以在 Kibana 中实例化模板时,通过 ES|QL 的 WHERE 子句直接调整。

面向不同用例的数据粒度
同一份数据会支撑不同的时间粒度与使用场景。1 分钟级 usage buckets 用于在 workspace 出现流量突增或接近 rate limit 时触发实时告警。小时级视图用于运维监控与容量规划。日级聚合则可以干净地汇总给财务报表,并与 Anthropic invoice 进行对账。系统自带开箱即用的 usage 和 spend 阈值告警,因此无需从零构建这些能力。
开始使用 Elastic 中的 Anthropic API 监控
Elastic Anthropic Metrics 集成(Elastic Anthropic Metrics integration)现已在 Elastic Cloud 中提供(包括 Elastic Cloud Hosted 与 Elastic Serverless)。你可以通过 Elastic Cloud 免费试用(Elastic Cloud free trial),在 Claude Console 中创建 Admin API key(Claude Console admin keys),然后在 Kibana 的 Management → Integrations 中添加 Anthropic Metrics 集成。
几分钟内,你就可以在 Elasticsearch 中看到 token usage、cost 和 rate limit 数据流入,并立即使用预构建 dashboards 与开箱即用的告警规则。
原文:https://www.elastic.co/observability-labs/blog/anthropic-claude-api-monitoring
更多推荐

所有评论(0)