微软上个月官宣:6月1日起,GitHub Copilot 全部计划转向按量计费(usage-based pricing)。原来每月19美元的订阅费变成19美元的token额度,用完就得充。

我用了一周时间,把自己日常开发中 Copilot、Claude Code、Cursor 三个工具的实际 token 消耗量记下来,算了一笔账。结果挺扎心的——按新定价算,我一个月大概要花 47 美元,比原来贵了一倍多。

下面是具体数据和我找到的几个省钱办法。

按量计费到底怎么算

先搞清楚规则。微软的计费逻辑是按 token 收费,不再按"请求次数"。一次代码补全可能消耗几百 token,一次 Agent 模式的多轮对话可能吃掉几万 token。

关键变化:

  • 月费19美元变成19美元额度,花完自动按单价续扣
  • 不同模型单价不同,GPT-4o 比 GPT-4o-mini 贵大约 6 倍
  • Agent 模式(多步推理 + 工具调用)消耗远高于普通补全
  • 没有"无限用"了,重度用户直接受冲击

微软自己说这叫"迈向可持续的 Copilot 业务"。翻译过来就是:之前每个用户平均亏20美元,个别重度用户亏80美元,扛不住了。

一周实测数据

我记录了5个工作日的使用情况。开发场景是一个 Next.js + Python 后端的项目,日常工作包括写新功能、改 bug、写测试、做 code review。

工具用量记录

日期 Copilot 补全 Copilot Agent Claude Code Cursor
周一 约 8,000 token 约 45,000 token 约 120,000 token 未使用
周二 约 6,500 token 约 62,000 token 约 85,000 token 约 35,000 token
周三 约 9,200 token 约 38,000 token 约 210,000 token 未使用
周四 约 7,100 token 约 71,000 token 约 95,000 token 约 42,000 token
周五 约 5,800 token 约 55,000 token 约 150,000 token 约 28,000 token
周合计 约 36,600 约 271,000 约 660,000 约 105,000

几个发现:

  1. 普通代码补全消耗不大,一天不到一万 token
  2. 大头在 Agent 模式——让 Copilot 帮你"从头写一个模块"或者"重构这个文件",一次对话就是几万 token
  3. Claude Code 用量最高,因为它默认带上下文窗口比较大,一次任务会把相关文件都读进去

换算成钱

按微软公布的 token 单价(GPT-4o: 输入 $2.5/百万 token,输出 $10/百万 token,输入输出大约 3:1)估算:

  • Copilot 补全:周消耗约 36,600 token ≈ $0.15
  • Copilot Agent:周消耗约 271,000 token ≈ $1.90
  • 月度总额(×4周):约 $8.20

看起来没超 19 美元?别急。上面是"正常节奏"的一周。实际开发中总有那么几天要大改架构、批量重构、或者让 Agent 跑自动化测试。我翻了下周三的记录——那天我让 Copilot Agent 把一个模块从 REST 改成 GraphQL,单次对话消耗了 62,000 token。

如果一个月里有 4-5 天这样的密集使用,月度消耗轻松翻倍。Anthropic 自己估计 Claude Code 的开发者平均日消耗是 $13-30。按这个数算,一个月 token 开支可以到 $300-600。

三个控制成本的办法

办法一:给 Agent 模式设 token 上限

Copilot 的 VS Code 扩展可以在 settings.json 里配限制:

{
  "github.copilot.chat.maxTokens": 4096,
  "github.copilot.chat.agent.maxIterations": 5
}

maxTokens 控制单次回复的最大 token 数。默认没有限制,AI 会一直生成到它觉得"说完了"。设成 4096 能砍掉大量无效输出。

maxIterations 控制 Agent 模式的最大迭代轮数。Agent 模式下 Copilot 会循环执行"思考→调用工具→检查结果",每多一轮就多消耗一波 token。5 轮足够完成大多数单文件任务。

办法二:按任务选模型

不是每个场景都需要最贵的模型。配置方法:

{
  "github.copilot.chat.models": {
    "default": "gpt-4o-mini",
    "agent": "gpt-4o"
  }
}

日常补全和简单问答用 gpt-4o-mini(价格约 GPT-4o 的六分之一),只在 Agent 模式下用 GPT-4o。这一个配置就能砍掉大约 40% 的费用。

Claude Code 也有类似的思路。在 ~/.claude/settings.json 里:

{
  "model": "claude-sonnet-4-20250514",
  "thinkingBudget": 8192
}

Sonnet 比 Opus 便宜不少,大多数编程任务 Sonnet 够用。thinkingBudget 限制推理 token 的消耗,防止模型在复杂问题上"想太久"。

办法三:用本地模型兜底简单任务

Ollama + Continue.dev 可以在本地跑一个补全模型,处理变量命名、简单函数补全这种不需要"智能"的活。装好之后在 Continue 的配置文件里加:

{
  "models": [
    {
      "title": "Local Qwen",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Local Autocomplete",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

本地跑 Qwen2.5-Coder 7B,补全速度够快,7B 参数在 M 系列 Mac 上推理延迟大约 50-80ms。复杂任务再切到云端模型。

我实测了一下:把简单补全切到本地之后,Copilot 的日均 token 消耗从 8,000 降到 2,000 左右。一个月能省大概 $1.5,不多,但积少成多。

Google 和 Anthropic 的定价对比

既然 Copilot 改了计费方式,顺便看看其他工具的价格:

Google 在上周 I/O 上发了 Antigravity 2.0 和 Gemini 3.5 Flash。3.5 Flash 的输出速度是同类模型的 4 倍,价格不到一半。Google 给出的数据是,如果把 80% 的 token 负载从其他前沿模型迁到 3.5 Flash,一年能省超过 10 亿美元(企业规模)。对个人开发者来说,Gemini 3.5 Flash 的 API 单价大约是 GPT-4o 的三分之一。

Anthropic 的 Claude Code 按 API 调用收费,没有月费打包。Sonnet 4 的输入价 $3/百万 token,输出 $15/百万 token。Opus 翻倍。好处是用多少付多少,坏处是没有上限保护——真遇到大项目,一天烧 $30 不是开玩笑的。

Cursor 目前还是 $20/月订阅制(Pro 版),包含每月 500 次"快速请求"。超出后降速但不额外收费。对中等强度使用者来说,Cursor 的订阅制目前是最可预测的成本。

简单总结:

工具 计费方式 月度成本(中度使用) 月度成本(重度使用)
Copilot(6月后) 按量 $15-25 $50-100+
Claude Code 按量 $20-40 $100-300+
Cursor Pro 订阅 $20(固定) $20(固定,降速)
Antigravity 2.0 按量 待定 待定

我自己的方案

折腾了一周,我最后的配置是这样的:

  1. 日常代码补全:本地 Qwen2.5-Coder(Continue.dev + Ollama),零成本
  2. 中等复杂度任务:Cursor Pro,$20/月固定,心里踏实
  3. 重度重构和多文件任务:Claude Code + Sonnet 4,按量计费但限制 thinkingBudget
  4. Copilot 保留但调低优先级,等6月看实际账单再决定要不要续

这套方案跑下来,月均开支大约 $45-60,比纯用 Copilot Agent 或纯用 Claude Code 都便宜。

一句话总结:AI 编程工具的"免费午餐"阶段结束了。谁先学会控制 token 用量,谁的开发成本就更低。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐