Google 正式发布 Gemini 3.5 Flash!百万级上下文 + 智能体原生支持,国内接入实战指南
5月19日,Google 正式发布了 Gemini 3.5 Flash(GA版本)。Gemini 3 系列我从预览版就开始跟踪,之前总感觉差口气——功能有但不够稳。这次改动挺大,我第一时间接上测了几天,聊聊实际感受。先说结论:这是目前最值得接的 Flash 模型之一,特别适合做智能体和编码任务。Gemini 3.5 Flash 这次 GA 更新幅度不小,thinking_level 调整和思维保留
一、前言
5月19日,Google 正式发布了 Gemini 3.5 Flash(GA版本)。Gemini 3 系列我从预览版就开始跟踪,之前总感觉差口气——功能有但不够稳。这次改动挺大,我第一时间接上测了几天,聊聊实际感受。
先说结论:这是目前最值得接的 Flash 模型之一,特别适合做智能体和编码任务。
二、Gemini 3.5 Flash 到底更新了什么?
2.1 模型规格一览
模型 ID 现在是 gemini-3.5-flash,取代了预览版的 gemini-3-flash-preview。上下文窗口还是 100 万 tokens,输出提升到 65,000 tokens。思考功能原生支持,多模态(文本/图片/音频/视频)都在。最大的变化是——正式 GA 了,可以上生产了。
2.2 这次最大的几个变化
1. 默认 thinking_level 从 high 改为 medium
这个改动官方文档里特意强调了。预览版默认 high,推理深但慢。现在默认 medium,大部分场景下质量没什么差别,速度反而快不少。
官方给了 4 档:
- minimal:最快,聊天和快速回复
- low:代码和简单智能体任务,延迟低效果好
- medium(默认):大多数任务的最佳平衡点
- high:复杂推理、数学、高难度编程
我试了几天,medium 编码表现和 high 差距很小,延迟低了大概 30%-40%。日常用不用折腾这个参数,碰到极难的问题再切 high 就行。
2. 思维保留(Think Retention)
这个挺实用。以前模型多轮对话里每次都要从头推理,现在 Gemini 3.5 Flash 会在对话历史里保留中间推理上下文。你调代码的时候,上一轮的思路它会记住,迭代修复顺滑很多。Interactions API 默认开启了,GenerateContent API 传完整对话历史就行。
3. 不再推荐 temperature 等采样参数
这个有点颠覆习惯。官方说 Gemini 3 的推理能力是针对默认设置优化的,不建议再改 temperature、top_p、top_k。需要确定性输出的话,用系统指令来控制,而不是调这些参数。
所以之前一直写的 temperature=0.7,可以删了。
4. 函数调用更严格了
每个 FunctionResponse 必须带上对应的 FunctionCall id 和 name,数量也得一一匹配。代码里之前没传 id 的话,升级后要改一下。
2.3 性能亮点
官方定义是"最智能的 Flash 模型"。我的实测感受:
- 编码:迭代重构思路连贯,表现亮眼
- 智能体执行:子代理调度、多步工具调用很稳
- 长文本理解:100 万上下文精度不错
一个坑:Gemini 3.5 Flash 目前不支持 Computer Use,有需要的话继续用 3 Flash 预览版。
三、国内开发者怎么接入?
这个估计是大家最关心的。官方 API 在国内直接调有两个问题:网络连不上,支付需要海外信用卡。
目前主流方案就几种:
方案一:官方 API(适合海外部署)
直接 pip install google-genai 调官方 SDK,模型名 gemini-3.5-flash。好处是最新最快,缺点也很明显——网络不稳定还得搞定海外支付。
方案二:国内 API 中转平台
这是我目前在用的方案。国内中转站调 Gemini API,不需要魔法,直接用 OpenAI SDK 的格式接入。
关键就一行:base_url 改掉就行,Cursor、Claude Code 这类工具配置里换一下 API endpoint 也能直接用。
import openai
client = openai.OpenAI(
api_key="你的key",
base_url="https://www.aifast.club/v1"
)
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "user", "content": "用三句话解释多智能体并行执行的原理"}
]
)
print(response.choices[0].message.content)
方案三:Google AI Studio
免费体验,但要魔法。
四、接入踩坑记录
测了几天,碰到几个坑记下来:
1. temperature 参数会导致输出异常
从旧版 SDK 升级上来,一定要把 temperature/top_p 去掉。我一开始没注意,带着 temperature=0.7 调,发现输出偶尔出现奇怪的重复。去掉之后一切正常。
2. thinking_level 不是越低越好
有人觉得 medium 太慢切 minimal,但 minimal 在复杂任务上降智很明显——代码生成跳步骤、逻辑不完整。我的建议:简单问答用 minimal,编码和智能体用 medium,数学推理用 high。
3. 函数调用反馈必须匹配
Function Calling 升级后务必检查每个 FunctionResponse 是否带了 id。不带的话模型可能返回空响应(finish_reason: STOP),让人以为代码写错了。
4. 上下文 token 用量会涨
思维保留好归好,但多轮对话的 token 用量会增加。简单问答的场景建议清掉推理上下文省点费用。
五、值不值得升?
看你现在的场景:
- 已经在用 Gemini 3 Flash 预览版:建议升。GA 版本稳定的多,默认参数也优化了。
- 做智能体/编码相关:强烈推荐。3.5 Flash 在 agent 场景的表现确实领先。
- 做简单文本生成/翻译:可以观望,3 Flash 或 2.5 Flash 在这个场景下性价比可能更高。
- 需要 Computer Use:别升,继续用 3 Flash 预览版。
价格方面,比预览版贵了一些,但考虑到性能提升,我觉得差价值。
六、最后说两句
Gemini 3.5 Flash 这次 GA 更新幅度不小,thinking_level 调整和思维保留明显是冲着生产环境去的。对国内开发者来说,接入门槛主要卡在网络和支付上,绕过了这两个问题,这个模型还是很香的。
更多推荐



所有评论(0)