北京时间 5 月 20 日凌晨,谷歌在 Google I/O 2026 开发者大会上正式发布了 Gemini 3.5 Flash

伴随着“每秒 289 tokens 极速响应”、“在智能体和编程基准测试中超越上一代旗舰 3.1 Pro”等铺天盖地的公关宣传,不少开发者和技术团队开始跃跃欲试,甚至考虑将现有的业务工作流或 Agent 驱动大脑切换到 3.5 Flash 上。

然而,作为一名天天与 API 账单和生产代码打交道的后端架构师,在通宵看完发布会并仔细研读了官方的 Developer Guide 之后,我必须给各位同行泼一盆冷水。

Gemini 3.5 Flash 远没有宣传中那么香。在盲目重构你的代码库之前,请先看完这篇避坑指南。

一、 程序员的直觉违和:谁会用 Flash 模型写生产代码?

谷歌这次最大的噱头,就是将 3.5 Flash 标榜为“最强编程和智能体模型”。

但凡是有过实际开发经验的程序员,看到这个定位都会觉得违和:

  • 命名认知:在 LLM 的命名体系中,FlashHaikumini 代表的都是“轻量、低成本、低延迟、低智商”的代名词。通常只用来做基础的数据清洗、分类或格式化。
  • 开发心理:写代码、重构、Debug 是一项极其严谨且需要深度推理的工作。在实际生产环境中,没有任何一个程序员敢把核心业务代码交给一个“Flash”模型去写,尝试都不敢尝试。

如果谷歌真的对自己的代码能力有信心,它应该单独推出一个类似 Codex 的分支,命名为 Gemini Code。如今强行把“写代码”和“Flash”绑定,更像是 3.5 Pro 难产之后,为了抢占市场而做出的妥协。

事实也确实如此:本次 I/O 大会谷歌并未发布 Gemini 3.5 Pro。这直接说明其 3.5 世代的中高端模型根本 NOT Ready 或 NOT Good Enough。

至于 3.5 Pro,目前还在内测中,预计下个月放出

Terminal-Bench 2.1 编码: 76.2%(3.1 Pro 70.3%)。GDPval-AA 真实任务: 1656 Elo(3.1 Pro 1314),跳了一档。MCP Atlas 工具调用: 83.6%(3.1 Pro 78.2%)。CharXiv 多模态推理: 84.2%。几乎所有指标都超过了自家上一代旗舰 3.1 Pro

输出速度 289 tok/s,是同级别 frontier 模型的四倍。在 Antigravity 内部经过联合优化后,达到 12 倍

二、 算一笔硬账:API 定价暴涨 3 倍,能效比倒挂

我们不看 PPT,直接看官方公布的 API 账单定价。

模型版本 输入价格(per 1M Tokens) 输出价格(per 1M Tokens)
Gemini 3 Flash (Preview) $0.50 $3.00
Gemini 3.5 Flash (GA) $1.50 $9.00
Gemini 3.1 Pro $3.00 (128k内) $12.00 (128k内)

发现问题了吗? Gemini 3.5 Flash 的单价相比前代直接暴涨了 3 倍!

这导致了一个非常滑稽的“能效比倒挂”现象: 在实际的智能体(Agent)多轮对话或复杂代码重构任务中,因为 3.5 Flash 的单价暴涨,你用它跑完一整套工作流,最后算下来的 Token 账单居然比直接用 3.1 Pro 还要贵!

花更多的钱,买来的却是 Flash 级别的逻辑严谨度。在面对竞品 GPT-5.5 medium 时,3.5 Flash 在复杂代码架构设计上更是被断档碾压。

API 定价 $1.50 / $9.00 per 1M token(输入/输出),缓存输入 $0.15。上下文窗口 1M token。这个价格比同水平 frontier 模型便宜一半以上,Google 给出的算法: 头部 Cloud 客户如果把 80% frontier 工作负载切到 3.5 Flash,每年省超 10 亿美元

 目前国内一些响应极快的 API 中转已经光速同步上线了该模型,不得不讲,速度真快,试试这个也不错

三、 开发者必须注意的“隐藏限制”

除了价格暴涨,谷歌这次还悄悄加入了一些对开发者极不友好的限制:

  1. 5 小时频次限制机制: 好东西不学,坏的学得贼快。谷歌这次在 3.5 Flash 的 API 调用中引入了严格的 5 小时调用频次限制。一旦你在本地跑高频的 Agent 循环测试,极易触发 Rate Limit 被直接卡死。
  2. Spark 锁死付费墙: 发布会上吹得天花乱坠的 24 小时个人 AI 助手 Spark,对不起,仅限 Ultra 付费用户使用。
  3. Antigravity 2.0 的刷榜水分: 号称“让 93 个 Agent 在 12 小时内从零构建操作系统”。听起来很震撼,但实际开发中,谁会为了写个小功能去部署 93 个 Agent 跑 12 小时?这完全是实验室里的“刷榜玩具”,对实际生产力提升微乎其微。

总结

Gemini 3.5 Flash 是一次极具商业阳谋的发布。谷歌用“高速度+高定价”的组合拳,变相收割 API 消耗。

对于真正要把 AI 落地到生产力、跑自动化工作流的开发者来说,不要盲目跟风重构。建议先在中转站(如 iThinkAPI)上进行小规模的能效比和代码质量测试,算清楚账单后,再决定是否在生产环境中用它替代 3.1 Pro。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐