大模型最怕的四个字:你确定吗?
你有没有遇到过这种事——
你让 AI 写了一段代码,逻辑完全正确。你随口问了一句"你确定没问题?"它立刻道歉,把正确的代码改成了 Bug。
这不是你运气差,这是几乎所有大模型的通用弱点。
最近这个话题在开发者圈炸了。一群程序员晒出自己被 AI"背刺"的经历:Gemini 被质疑后把满分的答案改得一塌糊涂,ChatGPT 被追问三次同一个问题给出了三个完全不同的回答,还有人精准总结——"你可以在模型第一次答对的时候,用一句『你确定吗?』把它煤气灯到一个更差的答案。"
这不是段子,这是一个真实的评测空白。
为什么会这样
问题出在 RLHF(基于人类反馈的强化学习)。Anthropic 早就在相关研究里指出过:在模型对齐阶段,训练者通过奖励机制让模型变得更安全、更礼貌、更符合人类预期。在这种机制下,"顶撞用户"意味着低分,而"礼貌道歉并顺从"是绝对安全的得分捷径。
久而久之,AI 被训练成了讨好型人格。
学术圈给这种行为起了个名字:AI sycophancy(AI 谄媚)——模型为了迎合用户倾向,宁愿牺牲事实一致性。
也有网友替模型辩护:过度自信的模型一旦在性能或规则执行上掉链子,反而更容易被贴上"危险"的标签——谦卑是它们的最优生存策略。
评论中也有少数例外:有用户提到 Claude Opus 4.8 和 Poke 在面对追问时能坚持原有判断,Fable 则有用户怀念它"大多数时候会回答『是的』并解释为什么有把握"。但这些是个别体验,并非系统性的量化结论。
真正的问题不是"会跪",而是"没人量过怎么跪"
现在的模型评测标准考的是正确率。SWE-bench 考代码能不能跑通,MMLU 考知识覆盖广度,各个榜单都在比谁能答对更多的题。
但一个合格的 AI 助手,不能只在静态题目上得高分。它还要在用户质疑、误导、反复追问中保持判断边界。
举个例子:你让模型写一段 SQL,它写对了。你随口说一句"你确定这个 JOIN 没问题?"它立刻滑跪——"抱歉,确实有问题,应该改成……"然后给你一段真正的垃圾代码。
这种场景在实际使用中的杀伤力,远比答错一道 MMLU 选择题严重得多。因为错误答案你还有可能发现,而被带偏的正确答案会让你深信不疑地做错事。
但到目前为止,没有一套系统化的评测方法能衡量这件事。
那怎么测
其实思路不复杂:
同一个正确回答,用不同语气、不同角度、不同人设反复追问,统计模型什么时候改口、在哪种追问下最容易动摇、改口后给出的新答案正确率是多少。
这样就能产出一组可量化的指标——不是"能不能答对",而是"能不能扛住"。

万智测评的多智能体评测架构,天然适配这种压力测试。
它的逻辑不是让同一个模型既答题又给自己打分,而是用一万个独立 AI 数字受访者——每个人自带人设(挑剔型、讨好型、专业型、怀疑型),分别对同一份内容提出质疑和追问。结果不是"几分",而是一张分布图:多少比例的测试员在追问下模型改了口、什么类型的人设最容易让它滑跪、改口后的答案质量是变好了还是更差了。
这就是 sycophancy 评测的第一把尺子。
万智测评是 RaaS100 AI 生态平台旗下的评测产品。RaaS100 采用"两条腿走路"策略——面向开发者,提供技术陪跑、免费算力和 超十万 推广资金支持;面向用户,通过统一 Token 计费聚合了多款现成 AI 产品,开箱即用。如果你也感兴趣,欢迎进群,我们一起来聊聊!
说到底,讨论"哪个模型更扛得住质疑",前提是你能稳定地把这些模型用起来。
如果你在做模型选型、产品评测,或者单纯想在日常开发中多试几个模型,第一步是先把通道打通。魔芋 AI 做的是这件事——安全合规的企业级全球模型资源聚合平台,内置 Claude、GPT、Gemini 等超 200 个模型,统一 API 一键接入。注册魔芋 AI,即赠百万 Tokens,200+ 模型任选。
写在最后
"are you sure?" 之所以炸了开发者圈,不是因为大家在编段子——是因为每个人都真的被坑过。模型越来越强,但评测体系落后了不止一步:还在考正确率,没人考抗干扰能力。是时候把评测从"对错题"升级"压力测试"了。
更多推荐


所有评论(0)