GitHub Copilot 下月改按量计费，我算了一周的 token 账单

微软上个月官宣：6月1日起，GitHub Copilot 全部计划转向按量计费（usage-based pricing）。原来每月19美元的订阅费变成19美元的token额度，用完就得充。我用了一周时间，把自己日常开发中 Copilot、Claude Code、Cursor 三个工具的实际 token 消耗量记下来，算了一笔账。结果挺扎心的——按新定价算，我一个月大概要花 47 美元，比原来贵了一

baidu_32885171

888人浏览 · 2026-05-22 11:09:22

baidu_32885171 · 2026-05-22 11:09:22 发布

微软上个月官宣：6月1日起，GitHub Copilot 全部计划转向按量计费（usage-based pricing）。原来每月19美元的订阅费变成19美元的token额度，用完就得充。

我用了一周时间，把自己日常开发中 Copilot、Claude Code、Cursor 三个工具的实际 token 消耗量记下来，算了一笔账。结果挺扎心的——按新定价算，我一个月大概要花 47 美元，比原来贵了一倍多。

下面是具体数据和我找到的几个省钱办法。

按量计费到底怎么算

先搞清楚规则。微软的计费逻辑是按 token 收费，不再按"请求次数"。一次代码补全可能消耗几百 token，一次 Agent 模式的多轮对话可能吃掉几万 token。

关键变化：

月费19美元变成19美元额度，花完自动按单价续扣
不同模型单价不同，GPT-4o 比 GPT-4o-mini 贵大约 6 倍
Agent 模式（多步推理 + 工具调用）消耗远高于普通补全
没有"无限用"了，重度用户直接受冲击

微软自己说这叫"迈向可持续的 Copilot 业务"。翻译过来就是：之前每个用户平均亏20美元，个别重度用户亏80美元，扛不住了。

一周实测数据

我记录了5个工作日的使用情况。开发场景是一个 Next.js + Python 后端的项目，日常工作包括写新功能、改 bug、写测试、做 code review。

工具用量记录

日期	Copilot 补全	Copilot Agent	Claude Code	Cursor
周一	约 8,000 token	约 45,000 token	约 120,000 token	未使用
周二	约 6,500 token	约 62,000 token	约 85,000 token	约 35,000 token
周三	约 9,200 token	约 38,000 token	约 210,000 token	未使用
周四	约 7,100 token	约 71,000 token	约 95,000 token	约 42,000 token
周五	约 5,800 token	约 55,000 token	约 150,000 token	约 28,000 token
周合计	约 36,600	约 271,000	约 660,000	约 105,000

几个发现：

普通代码补全消耗不大，一天不到一万 token
大头在 Agent 模式——让 Copilot 帮你"从头写一个模块"或者"重构这个文件"，一次对话就是几万 token
Claude Code 用量最高，因为它默认带上下文窗口比较大，一次任务会把相关文件都读进去

换算成钱

按微软公布的 token 单价（GPT-4o: 输入 $2.5/百万 token，输出 $10/百万 token，输入输出大约 3:1）估算：

Copilot 补全：周消耗约 36,600 token ≈ $0.15
Copilot Agent：周消耗约 271,000 token ≈ $1.90
月度总额（×4周）：约 $8.20

看起来没超 19 美元？别急。上面是"正常节奏"的一周。实际开发中总有那么几天要大改架构、批量重构、或者让 Agent 跑自动化测试。我翻了下周三的记录——那天我让 Copilot Agent 把一个模块从 REST 改成 GraphQL，单次对话消耗了 62,000 token。

如果一个月里有 4-5 天这样的密集使用，月度消耗轻松翻倍。Anthropic 自己估计 Claude Code 的开发者平均日消耗是 $13-30。按这个数算，一个月 token 开支可以到 $300-600。

三个控制成本的办法

办法一：给 Agent 模式设 token 上限

Copilot 的 VS Code 扩展可以在 settings.json 里配限制：

{
  "github.copilot.chat.maxTokens": 4096,
  "github.copilot.chat.agent.maxIterations": 5
}

maxTokens 控制单次回复的最大 token 数。默认没有限制，AI 会一直生成到它觉得"说完了"。设成 4096 能砍掉大量无效输出。

maxIterations 控制 Agent 模式的最大迭代轮数。Agent 模式下 Copilot 会循环执行"思考→调用工具→检查结果"，每多一轮就多消耗一波 token。5 轮足够完成大多数单文件任务。

办法二：按任务选模型

不是每个场景都需要最贵的模型。配置方法：

{
  "github.copilot.chat.models": {
    "default": "gpt-4o-mini",
    "agent": "gpt-4o"
  }
}

日常补全和简单问答用 gpt-4o-mini（价格约 GPT-4o 的六分之一），只在 Agent 模式下用 GPT-4o。这一个配置就能砍掉大约 40% 的费用。

Claude Code 也有类似的思路。在 ~/.claude/settings.json 里：

{
  "model": "claude-sonnet-4-20250514",
  "thinkingBudget": 8192
}

Sonnet 比 Opus 便宜不少，大多数编程任务 Sonnet 够用。thinkingBudget 限制推理 token 的消耗，防止模型在复杂问题上"想太久"。

办法三：用本地模型兜底简单任务

Ollama + Continue.dev 可以在本地跑一个补全模型，处理变量命名、简单函数补全这种不需要"智能"的活。装好之后在 Continue 的配置文件里加：

{
  "models": [
    {
      "title": "Local Qwen",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Local Autocomplete",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

本地跑 Qwen2.5-Coder 7B，补全速度够快，7B 参数在 M 系列 Mac 上推理延迟大约 50-80ms。复杂任务再切到云端模型。

我实测了一下：把简单补全切到本地之后，Copilot 的日均 token 消耗从 8,000 降到 2,000 左右。一个月能省大概 $1.5，不多，但积少成多。

Google 和 Anthropic 的定价对比

既然 Copilot 改了计费方式，顺便看看其他工具的价格：

Google 在上周 I/O 上发了 Antigravity 2.0 和 Gemini 3.5 Flash。3.5 Flash 的输出速度是同类模型的 4 倍，价格不到一半。Google 给出的数据是，如果把 80% 的 token 负载从其他前沿模型迁到 3.5 Flash，一年能省超过 10 亿美元（企业规模）。对个人开发者来说，Gemini 3.5 Flash 的 API 单价大约是 GPT-4o 的三分之一。

Anthropic 的 Claude Code 按 API 调用收费，没有月费打包。Sonnet 4 的输入价 $3/百万 token，输出 $15/百万 token。Opus 翻倍。好处是用多少付多少，坏处是没有上限保护——真遇到大项目，一天烧 $30 不是开玩笑的。

Cursor 目前还是 $20/月订阅制（Pro 版），包含每月 500 次"快速请求"。超出后降速但不额外收费。对中等强度使用者来说，Cursor 的订阅制目前是最可预测的成本。

简单总结：

工具	计费方式	月度成本（中度使用）	月度成本（重度使用）
Copilot（6月后）	按量	$15-25	$50-100+
Claude Code	按量	$20-40	$100-300+
Cursor Pro	订阅	$20（固定）	$20（固定，降速）
Antigravity 2.0	按量	待定	待定