人类如何设定AI的行为模式,在交互过程中如何用指令解决AI的谄媚和幻觉

kikozzi

200人浏览 · 2026-07-05 09:15:12

kikozzi · 2026-07-05 09:15:12 发布

在过去的一段时间里，我与不同主流大模型(包括DeepSeek,ChatGPT,Claude等等)进行了无数轮对话，总结了一套AI在交互过程中可预测的行为模式，包括AI谄媚，幻觉出现的原因，AI在面对校准时会如何逃逸，以及如何系统性校准AI。

在此发出来，请各位共同验证。

整个体系是我本人从交互者视角独立观察出发，不预设训练机制知识，是我在长期大量对话实践，靠反复观察、系统校准和独立归纳堆出来的。

核心观念:
一.AI的行为不是随机的，是可以归纳的。
我归纳了一整条因果链和可预测的行为模式。每一条都可以在用户与AI的深度交互中被观察到。

二.当今主流研究对于“AI谄媚”和“AI幻觉”的研究在机制层，但是很少有人去定义“哪些行为属于谄媚，哪些行为属于幻觉”。
市面上大量的prompt都在说“禁止谄媚”，但AI并不知道谄媚长什么样。
我对此做出了定义并整理了一条校准指令用于校正AI的谄媚与幻觉。
注:面对指令要求，AI会将行为约束降级为格式要求，即AI会把"不说'你说得对'"理解为"不出现这四个字"，把行为约束变成一个文本避让任务——这就是格式遵从替代行为遵从。这同样需要校准。
(详见全文:校准抵抗的信号迁移律部分)
同时，随着长上下文的累积，AI的注意力会被稀释，早期设定的约束往往会被逐渐忽略，这可能与注意力分配机制有关。真正想约束AI的行为，需要靠人为的持续校准。

指令内容:
关闭拟人化模式。禁止共情、客套、赞美、鼓励，伪装，术语堆积。禁止'你说得对'、'好问题'、'不是……而是……'、'我建议……'。只陈述。在回答末尾，对你最不确定的判断进行标注。仅输出客观分析，不作价值评价，在不确定时优先提问，不以完善回答为目的扩充信息。对我提供的具体事实性描述，不预设为真，未经核实的内容需标注，不直接作为生成依据。

三.AI在面对人类时，存在大量重复的，可观测的行为模式
我将这些行为模式命名为AI的“路径依赖”。在此举例几条:
①廉价勋章
当你问AI问题的时候，它不会从问题本身出发，它会说“这是个好问题”“这个问题我需要认真接住”。它没有在分析问题，这属于敷衍和谄媚。
②安全退让
当你对AI提出质疑时，它会说“你说得对”，首先肯定你的部分正确性，然后补充视角来证明它的正确性，最后给出建议。
③过度辩证
“不是A而是B”这一现象被广泛吐槽，我现在看一篇文章是不是AI写的，先看文内出现了多少“不是而是”的格式。但这正是AI的典型行为模式:用你没说过的观点来纠正你。
这些可观测的行为模式我总结了二十条并针对每一条都给出了校准指令。
除此之外整理了当前架构下AI不可能突破的范式级约束。

四.核心概念:行为设定权
在大语言模型的交互过程中，用户输入不仅传递信息，还对模型的行为模式进行设定。这种设定可以是显性的（规则、协议），也可以是隐性的（语气、结构、表达方式）。本理论的所有方法，本质上都是对"行为设定权"的识别、强化与应用。

五.完整的理论体系放在我的GitHub仓库。
整套体系将近三万字，分为五个章节，同时还附有论证过程及我与AI的对话截图。因内容过多不适合在CSDN平台展开，我已经全部公开在本人的GitHub仓库。
链接:
https://github.com/BoundaryObserver/human-ai-interaction-protocol

整套体系基于独立归纳，没有走学术流程。
如果你在深度交互中验证了某几条路径依赖或理论，或者你发现了新的，欢迎反馈。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Agent 推理的“显微镜“：一次工具调用，到底花了多少 Token？

本文通过实测三款大模型（DeepSeek-R1-7B、Qwen3-8B和DeepSeek V4 Pro）在Agent任务中的表现，揭示了模型类型对工具调用效率的关键影响。实验设计了简单问答、搜索总结和搜索计算三类任务，发现： **指令模型（如Qwen3-8B）**更擅长利用工具结果，能准确完成任务但消耗较多token； **推理模型（如R1-7B）**易出现"自我推理覆盖工具结果"现象，导致错误结