这段时间手上几个项目都在折腾长文本和Gemini 3.1 Pro 正式发布:新一代AI模型的核心升级点解析多轮推理,模型换得挺勤。为了方便对比,我平时会先在 (hq.877ai.cn)上把几个备选模型拉出来跑一圈,看看谁在真实任务上更靠谱,省得一个个平台来回切。前两天刷到 Gemini 3.1 Pro 正式上线的消息,正好手里有个挺复杂的需求拆解任务,就顺手用它跑了几天。这一轮用下来,我觉得这次升级有几个点挺值得展开聊聊的。

推理链明显更稳了

之前用 3.0 Pro 的时候,感觉它单步回答已经挺强了,但一旦涉及多步推演,偶尔会在中间步骤“跳拍”,漏掉一些关键的边界条件。这次 3.1 Pro 给我的第一印象,是它更愿意把推理过程拆细。

我拿一个带坑的需求文档测它:文档里对一个订单状态的流转规则写得前后有点不一致,前半段说取消订单可以退款,后半段在特定条件下又说不可退。以前的模型大概率会直接按某一段的说法给方案,3.1 Pro 的处理方式不一样——它先把两处矛盾原文都标注出来,然后分别推演了两种解读会导致什么后果,最后建议我确认业务方到底想走哪一种。这个习惯,很像团队里那种经验老道的开发,拿到需求先对齐,不急着码代码。

长上下文终于不是噱头了

百万 Token 上下文窗口这东西,各家公司喊了有一阵了。但说实话,不少模型塞多了内容之后,后半段的理解质量掉得厉害,有点像人看书看了大半本开始走神。这次 3.1 Pro 我特意喂了一份将近 80 万 Token 的项目历史记录,里面混杂着需求文档、设计稿描述和多个迭代的代码改动记录。然后在对话末尾,我提了一个关于三个月前某个已废弃功能的技术方案问题。

它的回答让我有点意外——不仅准确找出了那个功能对应的需求描述位置,还把后来几次因为依赖变更导致该方案被放弃的过程梳理了一遍。这种在超大信息量里依然能把线索串起来的能力,对日常需要维护长周期项目的开发来说,是实实在在的生产力。

编程不再是“一次写完,反复修补”

代码能力这块,各家其实在简单任务上拉不开差距。真正能体感出差别的,是那种需要你先理解一段祖传代码、再不动外部行为地重构内部的场景。3.1 Pro 在这类任务上做了一件让我觉得很舒服的事:不直接给结果。

它先输出了一份对现有代码行为的解读,逐段说明每个部分大概在干什么,然后问我它的理解对不对。我确认之后,它才开始做重构建议,并且每改一处都带了理由注释。这种“先对齐再动手”的模式,比直接甩过来一份重构版本要让人放心得多。以前用 2.5 Pro 干类似的活,它经常自己默默改了某个逻辑我还没发现,跑测试挂了才回头查。

多模态体验更顺滑了

还有一个我觉得不错的小升级,是图像理解和对话切换变得更自然了。以前给它发截图,得先明确说“我接下来要发一张图”,现在直接把设计稿扔进去,它自己就能切过去分析,不需要多余的前置指令。对于日常需要对着UI稿讨论需求的场景,这种小细节的改善,时间长了能省不少事。

一段时间的感受

这几天用下来,我最直观的感觉是:3.1 Pro 不再只是一个“回答问题的工具”,而更像一个能跟你配合的搭档。它会追问模糊的地方,会在超长对话里保持记忆连贯,会在不确定的时候主动确认而不是硬编。这些都不是跑分榜上能直接体现出来的东西,但在真实工作流里,比那几个百分点的提升要重要得多。

说到底,模型好不好用,还是得拿自己手头最熟的那几类任务去试。别人夸上天,不如你自己跑一圈看看输出靠不靠谱。我自己的习惯前面也说了,拿不准的时候把几个备选模型放一起横评对比,同样的需求谁给的方案能直接落进去,谁让我还得返工两遍,一目了然。2026年模型迭代只会越来越快,找到适合自己的工具链,比追最新最热的那一个更实际。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐