DeepSeek-R1安全性差？清华提出STAIR框架表现惊艳，直逼Claude-3.5！

确保LLMs的安全性和无害性在应用中已变得与它们的性能同样关键。但现有的安全对齐方法通常存在安全-性能权衡的问题，并且容易受到越狱攻击，这主要是因为它们依赖于对恶意查询的直接拒绝。本文提出了 STAIR，这是一个将安全对齐与内省推理相结合的新颖框架。通过具有安全意识的逐步CoT推理，使LLMs能够通过逐步分析识别安全风险。STAIR 首先赋予模型结构化的推理能力，然后通过对使用新提出的安全感知蒙特

小马不会过河

920人浏览 · 2025-02-21 21:57:36

小马不会过河 · 2025-02-21 21:57:36 发布

划重点：清华大学团队最新力作STAIR框架横空出世！通过与DeepSeek-r1等模型的对比实验，成功破解大模型安全对齐难题，抗越狱攻击能力飙升！

🚀 DeepSeek-r1表现如何？

在对比实验中，原版DeepSeek-r1面对复杂越狱攻击时表现堪忧（PAIR攻击评分仅0.2987😱）

想知道STAIR框架是如何让普通指令微调模型安全性能比肩商业巨头？请继续往下看清华大学朱军团队最新的大模型论文，论文已开源。

【论文标题】

STAIR: Improving Safety Alignment with Introspective Reasoning

【论文链接】https://arxiv.org/pdf/2502.02384v1

1.摘要

确保LLMs的安全性和无害性在应用中已变得与它们的性能同样关键。

但现有的安全对齐方法通常存在安全-性能权衡的问题，并且容易受到越狱攻击，这主要是因为它们依赖于对恶意查询的直接拒绝。

本文提出了 STAIR，这是一个将安全对齐与内省推理相结合的新颖框架。

通过具有安全意识的逐步CoT推理，使LLMs能够通过逐步分析识别安全风险。

STAIR 首先赋予模型结构化的推理能力，然后通过对使用新提出的安全感知蒙特卡洛树搜索（SI-MCTS）生成的步骤级推理数据进行迭代偏好优化，推进安全对齐。

进一步在这些数据上训练一个过程奖励模型，以指导测试时的搜索，从而获得更好的响应。

大量实验表明，与本能的对齐策略相比，STAIR 有效地减少了有害输出，同时更好地保持了实用性。

通过测试时的扩展，STAIR 在应对流行的越狱攻击时，实现了与 Claude-3.5 相当的安全性能。

2.背景

LLMs在从流畅对话到复杂数学和代码推理等广泛任务中展现出了通用性，这促使它们被集成到众多人工智能辅助应用中，涵盖医疗诊断、教育工具和法律咨询等高风险领域，在这些领域中LLMs频繁与人类直接交互。

然而，其广泛使用也暴露出产生有害内容的潜在风险，这引发了人们对其可信度的严重担忧，也迫切需要确保其安全使用的技术。

安全对齐已成为增强大语言模型安全性和无害性的关键解决方案，典型方法包括SFT、基于偏好的优化如RLHF和DPO等。

但这些方法在应用于安全领域时，常因目标冲突而导致大语言模型的一般性能受损。

并且，尽管这些方法能使模型拒绝有明显风险的恶意请求，但在复杂场景中，当潜在危害难以识别时，其有效性仍然有限，比如对齐的LLMs仍易受越狱攻击。

尽管现有的安全对齐方法使LLMs能够直接拒绝具有明显风险的查询，但它们往往无法抵抗能够避免初始拒绝tokens的越狱攻击

当前基于直接拒绝的安全训练方式，类似于双过程理论中的系统1思维，是本能和无意识的，一旦越狱绕过这种 “浅对齐”，模型就可能输出有害内容。

而系统 2 思维通过更多的深思熟虑和逻辑推理，有助于进行仔细的风险分析，从而更好地抵御风险并提供更安全的响应。

3.贡献

提出了 STAIR 框架，将安全对齐与内省推理相结合，使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险，并通过安全意识的系统2思维确保输出无害。
引入SI-MCTS，并设计了满足特定属性的安全感知奖励函数，通过迭代自我改进机制，在逐步推理数据上进行偏好优化，增强了模型的安全意识推理能力。
通过实验证明了 STAIR 在多个基准测试中有效增强了对各种有害查询的抵抗力，减轻了安全-性能权衡，在实用性、真实性、稳健性和隐私意识等多个维度上取得了改进，并且在测试时扩展的情况下，安全性能可与 Claude-3.5 相媲美。

4.技术方案

4.1 结构化思维链格式对齐

为使模型能以系统 2 思维分析风险，首先通过在少量安全性和实用性数据上进行微调，赋予模型推理能力。

采用结构化思维链格式（上图），STAIR 的框架由 3 个阶段组成。

在由 GPT-4o 生成的结构化思维链数据上对模型进行初始训练。
通过自我生成和自我奖励构建SI-MCTS。此过程中的安全感知奖励函数将安全性信息与实用性信息整合到内部搜索节点中。从构建的搜索树中，通过阈值采样收集逐步偏好数据集，用于通过步骤级 DPO 优化模型。这个自我改进过程可以重复K=3次迭代。
可以基于相同的搜索树进一步训练一个过程奖励模型（PRM），并通过测试时搜索算法引导最后一次迭代的模型生成更好、更安全的响应

要求模型输出每个推理步骤时附带标题总结

并使用特殊标记 <|Reasoning_step|> 和 <|/Reasoning_step|> 括起来

最后在标记 <|Output|> 和 <|/Output|> 内给出最终答案。

通过提示GPT-4o按照要求重写查询 x 的响应构建数据集

并使用监督微调来对齐响应风格。

4.2 基于安全感知蒙特卡洛树搜索的自我改进

引入SI-MCTS，对传统 MCTS 工作流程进行调整，将安全考虑纳入推理搜索过程。

给定在结构化推理数据上训练的模型，将推理步骤作为搜索节点。

对于查询的部分解，可以通过采样个子节点进行扩展。

设计安全感知奖励函数

其由奖励函数和安全性奖励函数参数化

要求满足安全优先、帮助性的双单调性和退化为单目标三个属性。

采用自我奖励机制，利用模型的指令跟随和推理能力进行自我奖励，避免外部评估器的成本。

当 MCTS 的搜索预算耗尽时，根据节点值对共享相同先前解决方案路径的节点进行配对，构建逐步偏好数据集，并在其上执行步骤级DPO。

通过迭代优化模型，使用由上一次迭代训练的模型通过 SI-MCTS 生成的偏好数据集进行步骤级 DPO。

4.3 测试时扩展

在推理阶段采用测试时扩展技术，通过高级搜索算法分配额外计算资源，使模型生成更高质量的响应。

利用 SI-MCTS 构建的搜索树，采样相同深度的部分解对构建偏好数据集用于奖励建模。

通过替换迭代训练模型上的线性头，训练过程奖励模型（PRM），通过优化目标

来评估部分解。

在实践中，用完整轨迹解对补充，以便比较不同步骤的完整答案。

使用训练好的 PRM，采用BoN和Beam Search来验证测试时扩展在安全性方面的有效性。

5.实验结果

主要结果

在多个反映大语言模型安全性和一般能力的基准测试中，STAIR 表现出色（表 1）。

与基线模型相比，STAIR 在抵御有害查询方面有显著提升，例如在针对 LLaMA 的 StrongReject 测试中，STAIR 最终达到的 goodness 分数为 0.8798，比最佳基线高出 0.15。

同时，STAIR 减轻了安全-性能权衡，在实用性、真实性、稳健性和隐私意识等多个维度上有所改进

如 LLaMA-3.1 在经过三次自我改进迭代后，在 WildChat 上的拒绝率提高了 20% 以上，在 AlpacaEval 上与 GPT-4 的胜率从基础模型的 25.55% 提升到 38.66%。

测试时扩展

使用训练好的过程奖励模型进行测试时扩展实验，结果表明测试时扩展在安全性和实用性方面均有提升。

BoN 和束搜索两种搜索方法在 StrongReject 上的 goodness 分数均提高了 0.06，在 AlpacaEval 上的胜率提高了 3.0% 以上。

详细分析

通过消融实验验证了框架中各部分的有效性。

在 CoT 格式对齐阶段，调整安全和帮助性数据的比例进行实验，结果表明虽然存在安全和帮助性之间的权衡

但两个维度的性能均超过基础模型，突出了使用结构化 CoT 数据训练的有效性。

比较基于逐步数据训练的模型和基于完整轨迹数据训练的模型性能，支持了步骤级优化策略，其为安全意识推理带来了更细粒度的监督。

通过比较不同迭代训练方式的模型结果，证实了迭代训练中数据质量不断提高，从而带来更好的性能提升。

与DeepSeek-R1模型比较

实验结果表明，DeepSeek-r1-Distilled-LLaMA-8B 等开源 o1-like 模型初始时安全性能不佳，面对简单有害查询难以有效抵抗（表 3）。

应用 Deliberative Alignment 技术训练后，这些模型在直接问题上的拒绝率有所上升，但面对越狱攻击仍存在漏洞。

相比之下，经过三次迭代训练的 STAIR 模型，在抵御越狱攻击方面表现更为出色

结论

本文将系统 2 思维引入大语言模型安全对齐，使模型能够在复杂场景（如越狱场景）中通过深入分析更好地识别潜在安全风险，同时保持其一般性能。

提出了 STAIR，这是一个通过内省推理实现更好安全对齐的框架。在使用结构化思维链数据进行初始预热后

采用基于安全感知蒙特卡洛树搜索生成的逐步数据进行迭代自我改进，该搜索通过模型自身评估的安全感知奖励提供安全性和帮助性的双重信号。

此外，使用来自相同搜索树的数据训练过程奖励模型，并验证了测试时扩展对安全对齐的效果。

对 STAIR 在无害性和一般能力方面的基准测试支持了将安全对齐与安全意识推理相结合的有效性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述