一、前言

5月19日,Google 正式发布了 Gemini 3.5 Flash(GA版本)。Gemini 3 系列我从预览版就开始跟踪,之前总感觉差口气——功能有但不够稳。这次改动挺大,我第一时间接上测了几天,聊聊实际感受。

先说结论:这是目前最值得接的 Flash 模型之一,特别适合做智能体和编码任务。

二、Gemini 3.5 Flash 到底更新了什么?

2.1 模型规格一览

模型 ID 现在是 gemini-3.5-flash,取代了预览版的 gemini-3-flash-preview。上下文窗口还是 100 万 tokens,输出提升到 65,000 tokens。思考功能原生支持,多模态(文本/图片/音频/视频)都在。最大的变化是——正式 GA 了,可以上生产了。

2.2 这次最大的几个变化

1. 默认 thinking_level 从 high 改为 medium

这个改动官方文档里特意强调了。预览版默认 high,推理深但慢。现在默认 medium,大部分场景下质量没什么差别,速度反而快不少。

官方给了 4 档:

  • minimal:最快,聊天和快速回复
  • low:代码和简单智能体任务,延迟低效果好
  • medium(默认):大多数任务的最佳平衡点
  • high:复杂推理、数学、高难度编程

我试了几天,medium 编码表现和 high 差距很小,延迟低了大概 30%-40%。日常用不用折腾这个参数,碰到极难的问题再切 high 就行。

2. 思维保留(Think Retention)

这个挺实用。以前模型多轮对话里每次都要从头推理,现在 Gemini 3.5 Flash 会在对话历史里保留中间推理上下文。你调代码的时候,上一轮的思路它会记住,迭代修复顺滑很多。Interactions API 默认开启了,GenerateContent API 传完整对话历史就行。

3. 不再推荐 temperature 等采样参数

这个有点颠覆习惯。官方说 Gemini 3 的推理能力是针对默认设置优化的,不建议再改 temperature、top_p、top_k。需要确定性输出的话,用系统指令来控制,而不是调这些参数。

所以之前一直写的 temperature=0.7,可以删了。

4. 函数调用更严格了

每个 FunctionResponse 必须带上对应的 FunctionCall id 和 name,数量也得一一匹配。代码里之前没传 id 的话,升级后要改一下。

2.3 性能亮点

官方定义是"最智能的 Flash 模型"。我的实测感受:

  • 编码:迭代重构思路连贯,表现亮眼
  • 智能体执行:子代理调度、多步工具调用很稳
  • 长文本理解:100 万上下文精度不错

一个坑:Gemini 3.5 Flash 目前不支持 Computer Use,有需要的话继续用 3 Flash 预览版。

三、国内开发者怎么接入?

这个估计是大家最关心的。官方 API 在国内直接调有两个问题:网络连不上,支付需要海外信用卡。

目前主流方案就几种:

方案一:官方 API(适合海外部署)

直接 pip install google-genai 调官方 SDK,模型名 gemini-3.5-flash。好处是最新最快,缺点也很明显——网络不稳定还得搞定海外支付。

方案二:国内 API 中转平台

这是我目前在用的方案。国内中转站调 Gemini API,不需要魔法,直接用 OpenAI SDK 的格式接入。

关键就一行:base_url 改掉就行,Cursor、Claude Code 这类工具配置里换一下 API endpoint 也能直接用。

import openai

client = openai.OpenAI(
    api_key="你的key",
    base_url="https://www.aifast.club/v1"
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "用三句话解释多智能体并行执行的原理"}
    ]
)

print(response.choices[0].message.content)

方案三:Google AI Studio

免费体验,但要魔法。

四、接入踩坑记录

测了几天,碰到几个坑记下来:

1. temperature 参数会导致输出异常

从旧版 SDK 升级上来,一定要把 temperature/top_p 去掉。我一开始没注意,带着 temperature=0.7 调,发现输出偶尔出现奇怪的重复。去掉之后一切正常。

2. thinking_level 不是越低越好

有人觉得 medium 太慢切 minimal,但 minimal 在复杂任务上降智很明显——代码生成跳步骤、逻辑不完整。我的建议:简单问答用 minimal,编码和智能体用 medium,数学推理用 high。

3. 函数调用反馈必须匹配

Function Calling 升级后务必检查每个 FunctionResponse 是否带了 id。不带的话模型可能返回空响应(finish_reason: STOP),让人以为代码写错了。

4. 上下文 token 用量会涨

思维保留好归好,但多轮对话的 token 用量会增加。简单问答的场景建议清掉推理上下文省点费用。

五、值不值得升?

看你现在的场景:

  • 已经在用 Gemini 3 Flash 预览版:建议升。GA 版本稳定的多,默认参数也优化了。
  • 做智能体/编码相关:强烈推荐。3.5 Flash 在 agent 场景的表现确实领先。
  • 做简单文本生成/翻译:可以观望,3 Flash 或 2.5 Flash 在这个场景下性价比可能更高。
  • 需要 Computer Use:别升,继续用 3 Flash 预览版。

价格方面,比预览版贵了一些,但考虑到性能提升,我觉得差价值。

六、最后说两句

Gemini 3.5 Flash 这次 GA 更新幅度不小,thinking_level 调整和思维保留明显是冲着生产环境去的。对国内开发者来说,接入门槛主要卡在网络和支付上,绕过了这两个问题,这个模型还是很香的。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐