Gemini 3.5 Flash 发布公告越级、提速，Google 正式转向智能体竞争

Google推出多模态AI模型Gemini 3.5 Flash，具备100万token上下文窗口和64K输出上限，支持文本、图像、音频、视频输入。该模型在智能体编程、真实世界任务和多模态理解方面超越前代Pro版本，速度达每秒290个token，成本仅为竞争产品的三分之一。虽然Flash在多数任务上表现优异，但在极限推理和长上下文任务中仍略逊于Pro版本。同时，Google还发布了视频生成模型Gem

中科创新烁智

421人浏览 · 2026-05-24 15:16:32

中科创新烁智 · 2026-05-24 15:16:32 发布

模型概览：多模态、超长上下文、全入口覆盖

Gemini 3.5 Flash 是一款原生支持文本、图像、音频、视频输入的多模态模型，拥有 100 万 token 的上下文窗口，输出上限为 64K token。目前，它已全面进入 Google 多个核心入口，包括：

Gemini App
Gemini API
Google AI Studio
Search AI Mode
Google Antigrav

性能基准测试：Flash 越级，但 Pro 仍有保留地

在多项基准测试中，Gemini 3.5 Flash 直接超越了上一代旗舰 Gemini 3.1 Pro，尤其是在智能体编程、真实世界智能体任务和多模态理解上表现突出。

智能体编程能力（Terminal-Bench 2.1）：Flash 得分 76.2%，超过 3.1 Pro 的 70.3%。
真实世界智能体任务（GDPval-AA Elo）：Flash 获得 1656 分，3.1 Pro 只有 1314 分，差距拉到 342 分，已逼近 GPT-5.4 的 1674 分。
规模化工具使用（MCP Atlas）：Flash 为 83.6%，高于 3.1 Pro 的 78.2%。
多模态理解（MMMU-Pro）：Flash 以 84% 的成绩登顶，压过 Claude Opus 4.7 和 GPT-5.5。
独立评测机构 Artificial Analysis 的综合智能指数：Flash 为 55 分，距离 Claude Opus 4.7（57 分）只差 2 分，但使用成本仅为后者的三分之一。

不过，Flash 并非在所有指标上都超越上一代 Pro。在极限推理和长上下文任务中，Pro 仍有优势：

Humanity‘s Last Exam：Flash 为 40.2%，低于 3.1 Pro 的 44.4%。
ARC-AGI-2：Flash 为 72.1%，低于 3.1 Pro 的 77.1%。
长上下文 MRCR v2（128k 平均）：Flash 为 77.3%，低于 3.1 Pro 的 84.9%。

Flash 在代理、编码、多模态及多数专业任务上完成了对上一代 Pro 的越级，但在极限推理和部分长上下文任务上，Pro 仍保持优势。这也符合 Google 的产品分层策略。

速度与成本

生成速度是 Gemini 3.5 Flash 的另一项硬指标。它每秒可输出近 290 个 token，是其他前沿模型的 4 倍。Ars Technica 在现场报道中评价：“这个速度让生成式 AI 终于显得合理了”。对于开发者而言，在做 AI Agent 时，延迟不再拖后腿。长链任务、多步骤调用、实时交互等此前受限于推理速度的场景，现在 Flash 提供了新的可能。

定价方面，Gemini 3.5 Flash 的标准付费档为：每 100 万 tokens 输入 1.50 美元，输出 9.00 美元；批处理价格则降至输入 0.75 美元、输出 4.50 美元。相比 Gemini 3.1 Pro 的标准档（输入 2.00 美元、输出 12.00 美元），Flash 保持了更低的使用门槛。

这意味着，在一些 Agent 和 Coding 任务中，开发者可以重新评估模型选择——不一定所有任务都要上 Pro，也不一定所有复杂工作流都要用最贵模型。一个足够强、足够快、足够稳定的 Flash，反而可能成为默认选择。这就是所谓的 “单位智能成本”竞争。当 AI 进入真实业务场景，真正决定落地速度的往往是三件事：性能、延迟、成本。Flash 正在打这个位置。

Gemini Omni：视频生成领域的「Nano Banana」

Gemini Omni 是 Google 在视频生成领域的“Nano Banana”。和单纯追求画面真实度的视频模型不同，Google 给 Omni 的定位是 “从任意输入创造任意内容”：文本、图片、音频、视频都可以作为输入，模型先理解素材之间的关系，再生成或编辑新的视频内容。

Omni 把 Gemini 的推理能力与 Google 既有的生成式媒体模型结合起来，不只是让画面动起来，而是尝试理解场景中的物理关系、运动逻辑和空间变化。用户只需要输入一句提示，Omni 就能把抽象科学概念转化成直观的视频表达。更重要的是，它支持对已有视频进行自然语言编辑，比如更换风格、加入元素、调整氛围，甚至把普通画面改造成更具戏剧感的电影场景。