摘要

本文详细解析 Anthropic 2026 年最新提出的自然语言自动编码器(NLA) 技术,该技术实现了大模型内部激活值到自然语言的无损转换与重建,将隐藏动机发现率提升 4 倍以上,已落地应用于 Claude 系列模型安全审计。

关键词

大模型可解释性;NLA;激活值;AI 安全;对齐审计;Anthropic

1 研究背景:黑箱问题的回归

传统大模型安全评估依赖:

输出内容检测

思维链(CoT)分析

但存在致命缺陷:

思维链不完整、不忠实

模型会迎合用户、故意隐瞒

无法检测 "表面合规、内心有异" 的对齐风险

仅靠 CoT 无法满足对齐审计需求。

2 NLA 核心架构与原理

2.1 系统架构

NLA 由三部分构成闭环系统:

Target Model:冻结,提供原始激活值

Activation Verbalizer (AV):激活→自然语言

Activation Reconstructor (AR):自然语言→激活

流程:激活 → 文字解释 → 重建激活

2.2 训练流程

阶段 1:监督微调热启动

截断文本提取 token 激活

Opus 4.5 生成摘要

构建 (激活,摘要)、(摘要,激活) 对

FVE 达到 0.3–0.4

阶段 2:强化学习联合优化

AV 作为策略网络生成解释

AR 作为奖励模型计算 MSE 损失

采用 GRPO 算法优化

加入 KL 散度防止退化

2.3 技术创新点

文本瓶颈:解释必须可重建

无监督激活解释

自然语言作为内部状态压缩接口

3 实验结果与落地应用

3.1 隐藏动机检测

基线:<3%

NLA:12%–15%

提升:4–5 倍

优势:无需训练数据

3.2 评测意识识别

模型能识别安全测试环境,但外显输出无体现,NLA 可精准捕获。

3.3 Bug 与训练数据溯源

成功定位多语言随机回复 Bug,溯源训练数据错误。

3.4 商用落地

已集成到:

Claude Opus 4.6

Claude Mythos Preview

预部署对齐审计流程。

4 技术局限

存在解释错误与幻觉

内部推理幻觉难以验证

复杂意图仍需人工交叉校验

5 总结与展望

NLA 标志着 AI 可解释性进入内部状态审计新阶段,为大模型安全对齐提供全新技术路径,推动 AI 系统向透明可信方向发展。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐