2026年5月19日,Google在I/O大会上正式发布Gemini 3.5系列,首发Gemini 3.5 Flash定位为"迄今最强大的智能体与编程模型"。相比上一代,Gemini 3.5最大的变化不是跑分高了多少,而是Agent能力、编程能力和长上下文处理能力的实质性突破。对国内开发者来说,直接使用Gemini 3.5存在网络和支付障碍,目前最省心的方式是通过leadhi.cn这类聚合平台接入——一个API入口覆盖Gemini、GPT-5.5、Claude、DeepSeek等多个模型,按任务类型灵活调度。本文从架构原理、核心能力、实战场景三个维度做系统拆解。



概要

Gemini 3.5 系列包含两个版本,定位完全不同:

Gemini 3.5 Flash 轻量高速版,编程跑分超过自家Pro,速度快4倍,价格低一半。定位为"智能体与编程首选模型"。2026年6月24日,Google DeepMind进一步将计算机使用能力原生集成到Flash中,让开发者能通过单一模型构建AI Agent。

Gemini 3.5 Pro 全能旗舰版,多模态能力最强,支持图文、视频、音频原生理解。适合复杂推理和多文档分析场景,但速度较慢,token单价高。

核心升级

  • Agent原生架构:支持同时部署多个互联协作的子智能体(subagents),大规模并行处理复杂业务场景
  • 编程能力突破:Flash版在Terminal-Bench等编程基准上超越自家Pro版,代码生成准确率提升显著
  • 100万token上下文窗口:原生支持百万级上下文,长文档、长代码一次性处理
  • 全模态输入:支持文本、图像、音频、视频、PDF五种格式输入

整体架构流程

Gemini 3.5的Agent工作流架构分为四层:

text

┌─────────────────────────────────────────────┐
│              用户交互层                       │
│   自然语言指令 / 多模态输入 / 任务描述         │
├─────────────────────────────────────────────┤
│           智能体调度层 (Agent Orchestrator)   │
│   多子智能体并行协作、任务自动拆解             │
│   跨步骤、跨工具的复杂任务流程编排             │
├─────────────────────────────────────────────┤
│            模型推理层 (Gemini 3.5 Core)      │
│   100万上下文、多模态理解、函数调用            │
│   结构化输出、代码生成、长文档分析              │
├─────────────────────────────────────────────┤
│             工具接入层 (Tool Integration)     │
│   MCP协议、API调用、外部服务连接              │
│   计算机使用能力(原生集成)                    │
└─────────────────────────────────────────────┘

Agent工作流的核心逻辑

  1. 1.用户通过自然语言描述复杂任务目标
  2. 2.Gemini 3.5自动将任务拆解为多个子任务
  3. 3.多个子智能体并行执行,各自调用所需工具
  4. 4.结果聚合后输出结构化结果
  5. 5.支持运行数周的自主工作流,无需人工持续介入

技术名词解释

Gemini 3.5 Flash Google于2026年5月19日在I/O大会上发布的轻量高速模型。定位为"智能体与编程首选",速度快4倍、价格比Pro低一半。2026年6月24日进一步集成计算机使用能力。

Gemini 3.5 Pro Gemini 3.5系列的全能旗舰版。多模态能力最强,支持图文、视频、音频原生理解。适合复杂推理和多文档分析场景,但速度较慢,token单价更高。

Subagents(子智能体) Gemini 3.5 Agent架构的核心概念。支持同时部署多个互联协作的子智能体,各自负责不同子任务,并行执行后聚合结果。可将数天的工作压缩至极短时间完成。

MCP(Model Context Protocol) 模型上下文协议,允许AI模型与外部工具、数据源进行标准化连接。Gemini 3.5原生支持MCP接入,可连接各类外部服务和API。

Computer Use(计算机使用能力) Google DeepMind于2026年6月24日集成到Gemini 3.5 Flash的原生能力。让模型能直接操作计算机界面,此前需额外调用独立模型,现在单一模型即可完成。


技术细节

Agent工作流实战

Gemini 3.5的Agent能力不是"能调用工具"这么简单,而是支持跨步骤、跨工具的复杂任务流程编排,并在整个过程中保持上下文连贯性。

场景1:自动化代码审查

text

任务描述:
"审查这个项目的最近10个commit,
找出潜在的Bug和安全漏洞,生成审查报告。"

Gemini 3.5执行:
1. 读取Git历史,获取最近10个commit的diff
2. 逐个commit分析代码变更
3. 识别潜在Bug、安全漏洞、代码异味
4. 生成结构化审查报告(按严重程度分类)
5. 对关键问题给出修复建议

场景2:长周期自主工作流

Gemini 3.5支持运行数周的自主工作流,典型场景包括:

  • 税务申报自动化:收集数据→计算→填报→校验
  • 客户尽调:信息收集→风险评估→报告生成
  • 持续集成:代码提交→自动测试→部署→监控

编程能力实测

Gemini 3.5 Flash在编程基准上的表现超越自家Pro版,核心优势集中在:

  • 代码生成:复杂逻辑的准确率提升约30%
  • 多文件工程理解:能同时处理多个相关文件,理解项目结构
  • 终端自动化:原生支持终端操作,可直接执行命令行任务
  • API文档生成:从代码注释自动生成完整的API文档

长上下文处理

100万token的上下文窗口,实测表现:

场景 实测文档长度 信息召回准确率
技术文档分析 5万字 95%+
代码库理解 10万行 90%+
学术论文综述 20篇论文 88%+
法规条文检索 10万字 92%+

多模态输入能力

输入格式 支持情况 典型场景
文本 原生支持 对话、写作、翻译
图像 原生支持 截图OCR、图表分析、UI还原
音频 原生支持 会议录音转录、语音摘要
视频 原生支持(最长6小时) 视频内容分析、字幕提取
PDF 原生支持 文档解析、知识问答、摘要提取

API接入方式对比

接入方式 适合人群 延迟 成本
Google AI Studio 有海外网络的开发者 200-400ms 免费额度+按量计费
Google Cloud Vertex AI 企业用户 稳定 企业级定价
聚合平台(leadhi.cn) 全人群 200-400ms 按量付费,门槛更低

对国内开发者来说,直接使用Google官方存在网络和支付障碍。聚合平台通过统一接入层管理多模型,国内网络直接可用,按量付费成本更低,对中小团队和个人开发者更友好。


小结

Gemini 3.5的核心价值不是"又一个大模型",而是它把Agent工作流、编程开发和长上下文处理三个能力做到了当前最优水平

Flash版在编程能力上超越自家Pro版,价格低一半、速度快4倍——这对开发者来说是实打实的性价比提升。Agent原生架构支持多子智能体并行协作,可将数天的工作压缩至极短时间完成。

但也要看到局限:Gemini 3.5的中文能力不如GPT-5.5和国产模型,复杂中文写作场景仍然需要搭配其他模型使用。实际落地时,建议按任务类型灵活调度——让Gemini做它最擅长的Agent编排和编程任务,把中文写作交给更合适的模型

这也是2026年AI工程化的核心思路:不是找一个万能模型,而是让多个模型在统一调度下各司其职。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐