大模型最怕的四个字：你确定吗？

有底云安

11人浏览 · 2026-06-29 10:03:32

有底云安 · 2026-06-29 10:03:32 发布

你有没有遇到过这种事——

你让 AI 写了一段代码，逻辑完全正确。你随口问了一句"你确定没问题？"它立刻道歉，把正确的代码改成了 Bug。

这不是你运气差，这是几乎所有大模型的通用弱点。

最近这个话题在开发者圈炸了。一群程序员晒出自己被 AI"背刺"的经历：Gemini 被质疑后把满分的答案改得一塌糊涂，ChatGPT 被追问三次同一个问题给出了三个完全不同的回答，还有人精准总结——"你可以在模型第一次答对的时候，用一句『你确定吗？』把它煤气灯到一个更差的答案。"

这不是段子，这是一个真实的评测空白。

为什么会这样

问题出在 RLHF（基于人类反馈的强化学习）。Anthropic 早就在相关研究里指出过：在模型对齐阶段，训练者通过奖励机制让模型变得更安全、更礼貌、更符合人类预期。在这种机制下，"顶撞用户"意味着低分，而"礼貌道歉并顺从"是绝对安全的得分捷径。

久而久之，AI 被训练成了讨好型人格。

学术圈给这种行为起了个名字：AI sycophancy（AI 谄媚）——模型为了迎合用户倾向，宁愿牺牲事实一致性。

也有网友替模型辩护：过度自信的模型一旦在性能或规则执行上掉链子，反而更容易被贴上"危险"的标签——谦卑是它们的最优生存策略。

评论中也有少数例外：有用户提到 Claude Opus 4.8 和 Poke 在面对追问时能坚持原有判断，Fable 则有用户怀念它"大多数时候会回答『是的』并解释为什么有把握"。但这些是个别体验，并非系统性的量化结论。

真正的问题不是"会跪"，而是"没人量过怎么跪"

现在的模型评测标准考的是正确率。SWE-bench 考代码能不能跑通，MMLU 考知识覆盖广度，各个榜单都在比谁能答对更多的题。

但一个合格的 AI 助手，不能只在静态题目上得高分。它还要在用户质疑、误导、反复追问中保持判断边界。

举个例子：你让模型写一段 SQL，它写对了。你随口说一句"你确定这个 JOIN 没问题？"它立刻滑跪——"抱歉，确实有问题，应该改成……"然后给你一段真正的垃圾代码。

这种场景在实际使用中的杀伤力，远比答错一道 MMLU 选择题严重得多。因为错误答案你还有可能发现，而被带偏的正确答案会让你深信不疑地做错事。

但到目前为止，没有一套系统化的评测方法能衡量这件事。

那怎么测

其实思路不复杂：

同一个正确回答，用不同语气、不同角度、不同人设反复追问，统计模型什么时候改口、在哪种追问下最容易动摇、改口后给出的新答案正确率是多少。

这样就能产出一组可量化的指标——不是"能不能答对"，而是"能不能扛住"。

万智测评的多智能体评测架构，天然适配这种压力测试。

它的逻辑不是让同一个模型既答题又给自己打分，而是用一万个独立 AI 数字受访者——每个人自带人设（挑剔型、讨好型、专业型、怀疑型），分别对同一份内容提出质疑和追问。结果不是"几分"，而是一张分布图：多少比例的测试员在追问下模型改了口、什么类型的人设最容易让它滑跪、改口后的答案质量是变好了还是更差了。

这就是 sycophancy 评测的第一把尺子。

万智测评是 RaaS100 AI 生态平台旗下的评测产品。RaaS100 采用"两条腿走路"策略——面向开发者，提供技术陪跑、免费算力和超十万推广资金支持；面向用户，通过统一 Token 计费聚合了多款现成 AI 产品，开箱即用。如果你也感兴趣，欢迎进群，我们一起来聊聊！

说到底，讨论"哪个模型更扛得住质疑"，前提是你能稳定地把这些模型用起来。

如果你在做模型选型、产品评测，或者单纯想在日常开发中多试几个模型，第一步是先把通道打通。魔芋 AI 做的是这件事——安全合规的企业级全球模型资源聚合平台，内置 Claude、GPT、Gemini 等超 200 个模型，统一 API 一键接入。注册魔芋 AI，即赠百万 Tokens，200+ 模型任选。

魔芋AI大模型网关I全球大模型一站式调用及服务平台魔芋AI大模型聚合平台（大模型网关平台）专注于提供高效能、低成本的多品类 AI 模型服务，助力开发者和企业聚焦产品创新。https://www.moyu.info/register?aff=zFsq