Google 正式发布 Gemini 3.5 Flash！百万级上下文 + 智能体原生支持，国内接入实战指南

5月19日，Google 正式发布了 Gemini 3.5 Flash（GA版本）。Gemini 3 系列我从预览版就开始跟踪，之前总感觉差口气——功能有但不够稳。这次改动挺大，我第一时间接上测了几天，聊聊实际感受。先说结论：这是目前最值得接的 Flash 模型之一，特别适合做智能体和编码任务。Gemini 3.5 Flash 这次 GA 更新幅度不小，thinking_level 调整和思维保留

kkevinnn1

582人浏览 · 2026-05-21 13:52:33

kkevinnn1 · 2026-05-21 13:52:33 发布

一、前言

5月19日，Google 正式发布了 Gemini 3.5 Flash（GA版本）。Gemini 3 系列我从预览版就开始跟踪，之前总感觉差口气——功能有但不够稳。这次改动挺大，我第一时间接上测了几天，聊聊实际感受。

先说结论：这是目前最值得接的 Flash 模型之一，特别适合做智能体和编码任务。

二、Gemini 3.5 Flash 到底更新了什么？

2.1 模型规格一览

模型 ID 现在是 gemini-3.5-flash，取代了预览版的 gemini-3-flash-preview。上下文窗口还是 100 万 tokens，输出提升到 65,000 tokens。思考功能原生支持，多模态（文本/图片/音频/视频）都在。最大的变化是——正式 GA 了，可以上生产了。

2.2 这次最大的几个变化

1. 默认 thinking_level 从 high 改为 medium

这个改动官方文档里特意强调了。预览版默认 high，推理深但慢。现在默认 medium，大部分场景下质量没什么差别，速度反而快不少。

官方给了 4 档：

minimal：最快，聊天和快速回复
low：代码和简单智能体任务，延迟低效果好
medium（默认）：大多数任务的最佳平衡点
high：复杂推理、数学、高难度编程

我试了几天，medium 编码表现和 high 差距很小，延迟低了大概 30%-40%。日常用不用折腾这个参数，碰到极难的问题再切 high 就行。

2. 思维保留（Think Retention）

这个挺实用。以前模型多轮对话里每次都要从头推理，现在 Gemini 3.5 Flash 会在对话历史里保留中间推理上下文。你调代码的时候，上一轮的思路它会记住，迭代修复顺滑很多。Interactions API 默认开启了，GenerateContent API 传完整对话历史就行。

3. 不再推荐 temperature 等采样参数

这个有点颠覆习惯。官方说 Gemini 3 的推理能力是针对默认设置优化的，不建议再改 temperature、top_p、top_k。需要确定性输出的话，用系统指令来控制，而不是调这些参数。

所以之前一直写的 temperature=0.7，可以删了。

4. 函数调用更严格了

每个 FunctionResponse 必须带上对应的 FunctionCall id 和 name，数量也得一一匹配。代码里之前没传 id 的话，升级后要改一下。

2.3 性能亮点

官方定义是"最智能的 Flash 模型"。我的实测感受：

编码：迭代重构思路连贯，表现亮眼
智能体执行：子代理调度、多步工具调用很稳
长文本理解：100 万上下文精度不错

一个坑：Gemini 3.5 Flash 目前不支持 Computer Use，有需要的话继续用 3 Flash 预览版。

三、国内开发者怎么接入？

这个估计是大家最关心的。官方 API 在国内直接调有两个问题：网络连不上，支付需要海外信用卡。

目前主流方案就几种：

方案一：官方 API（适合海外部署）

直接 pip install google-genai 调官方 SDK，模型名 gemini-3.5-flash。好处是最新最快，缺点也很明显——网络不稳定还得搞定海外支付。

方案二：国内 API 中转平台

这是我目前在用的方案。国内中转站调 Gemini API，不需要魔法，直接用 OpenAI SDK 的格式接入。

关键就一行：base_url 改掉就行，Cursor、Claude Code 这类工具配置里换一下 API endpoint 也能直接用。

import openai

client = openai.OpenAI(
    api_key="你的key",
    base_url="https://www.aifast.club/v1"
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "用三句话解释多智能体并行执行的原理"}
    ]
)

print(response.choices[0].message.content)