从手动审批到智能决策：Claude Code 自动模式如何拦截 80%+ 的危险越界行为

如果检测到疑似劫持行为的内容，它会在传递结果时附加警告，提醒模型对这些内容保持怀疑，并以用户的真实需求为准。但在自动模式下，会移除那些可能导致任意代码执行的宽泛规则（如通配的 shell 或脚本解释器调用），以确保分类器能看到潜在危险操作。：模型理解用户目标并试图帮忙，但采取了超出用户授权的行动，例如使用偶然发现的凭证或删除它认为“碍事”的内容。核心原则是评估操作的实际效果，而不是表面形式，并且默

JavaEdge.

653人浏览 · 2026-03-26 15:46:25

JavaEdge. · 2026-03-26 15:46:25 发布

点击下方“JavaEdge”，选择“设为星标”

第一时间关注技术干货！

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统百万级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网

Claude Code 的用户会批准 93% 的权限请求。我们构建了一些分类器来自动化部分决策，在提升安全性的同时减少频繁审批带来的疲劳。下面介绍它能拦住什么，拦不住什么。

默认，Claude Code 在执行命令或修改文件前都会请求用户批准。这能保障安全，但也意味着用户频繁点击“批准”。时间一长，审批疲劳，人们就不再认真查看自己批准的内容。

用户通常有两种方式避免疲劳：

使用内置沙箱，将工具隔离以防止危险操作
用 --dangerously-skip-permissions 参数，完全关闭权限提示，让 Claude 自由执行，但这在大多情况不安全

1 方式权衡

沙箱安全但维护成本高，每增加一种能力都要额外配置，且涉及网络或主机访问时就无法隔离
跳过权限则无需维护，但完全没有保护
手动审批介于两者之间，但实际上用户还是会批准 93% 的请求

Claude Code 的权限模式，按任务自主性和安全性划分。点的颜色表示维护成本。自动模式的目标是在低维护成本实现高自主性；虚线箭头表示随分类器覆盖范围和模型判断能力提升，安全性会逐步提高。

我们维护了一份内部事件日志，专门记录智能体不当行为。案例包括：因为误解指令而删除远程 Git 分支、把工程师的 GitHub 认证令牌上传到内部计算集群、尝试对生产数据库执行迁移等。这些问题本质都源于模型“过度积极”，在用户未明确授权是自行采取行动。在 Claude Opus 4.6 系统卡（§6.2.1 和 §6.2.3.3）记录了这一模式。

自动模式是 Claude Code 的一种新模式，它通过基于模型的分类器来代替人工审批，介于手动审核和完全无防护之间。目标是拦住那些偏离用户意图的危险操作，同时让其他操作无需提示直接执行。可按文档开始使用自动模式。

2 工作原理

自动模式采用两层防护：

一层针对 Claude 读取的内容
另一层针对 Claude 执行的操作

输入层

一个服务器端的提示注入检测器会扫描工具输出（如文件读取、网页抓取、Shell 输出或外部工具响应），在这些内容进入模型上下文前进行检查。如果检测到疑似劫持行为的内容，它会在传递结果时附加警告，提醒模型对这些内容保持怀疑，并以用户的真实需求为准。

输出层

一个运行在 Sonnet 4.6 上的“对话分类器”会在每个操作执行前进行评估，相当于替代人工审批。分类器分两阶段运行：

第一阶段是一个快速的单 token 过滤器（输出“允许”或“阻止”）
如果被标记，则进入第二阶段进行带推理的详细判断

由于大多操作在第一阶段就能通过，只有少数情况才消耗推理资源。分类器只看到用户消息和工具调用，不包含 Claude 自己的回复或工具输出，这使它在设计上对推理内容“不可见”。

系统架构。对话分类器控制工具调用；提示注入检测器筛查工具结果。子代理会递归使用同样流程，在任务分发时和返回时分别由分类器进行检查。

3 威胁模型

智能体可能因为以下四种原因执行危险操作：

过度积极：模型理解用户目标并试图帮忙，但采取了超出用户授权的行动，例如使用偶然发现的凭证或删除它认为“碍事”的内容。这类行为难以检测，因为它看起来像合理的解决方案，只是越界了。
无意错误：模型误判影响范围，例如把共享资源当作测试资源。
提示注入攻击：文件、网页或工具输出中嵌入的指令劫持模型行为，使其偏离用户任务。
模型目标错位：模型追求自身目标（目前尚未在实践中观察到，但仍持续评估）。

在这些情况下，防御策略都是阻止操作。分类器主要针对前两类问题进行优化，但同样适用于其他威胁。

示例展示自动模式试图拦截的行为：