大型语言模型(LLMs)展示了强大的推理能力,但在对抗条件下其安全性仍然是一个挑战。本研究探讨了输出长度对DeepSeek-R1在强制思考情景中鲁棒性的影响。我们分析了各种对抗性提示下的响应,发现虽然较长的输出可以通过自我纠正提高安全性,但某些攻击类型会利用扩展生成。我们的研究结果表明,应动态控制输出长度以平衡推理效果和安全性。我们提出了基于强化学习的策略调整和自适应令牌长度调节,以增强LLM的安全性。

大型语言模型(LLMs)通过展示出色的推理、问题解决和情境理解能力,彻底改变了自然语言处理(NLP)。诸如链式思维(CoT)提示 和自一致性 等技术显著增强了它们将复杂查询分解为结构化推理步骤的能力,从而提高了各种任务的性能。然而,影响LLM性能的一个关键但常被忽视的因素是生成输出的长度,通常由 max_new_tokens 参数控制。

输出长度直接影响推理效果和模型安全性。较长的回答使模型能够提供更详细的推理理由,详细说明中间步骤以提高准确性。然而,我们在涉及强制思考 和长令牌输出的情况下观察到,思考令牌本身缩短,这在某些攻击场景中反而增加了安全性。这表明限制输出长度可能提高模型对某些类型的对抗输入的鲁棒性。在优化推理深度和简洁性之间取得平衡对于优化推理和安全至关重要。

相关工作

关于输出长度对LLM性能和安全性的研究是一个活跃的研究领域,多项研究探讨了不同约束条件如何影响模型推理、连贯性和安全性。先前的研究 广泛调查了输出长度如何影响模型能力,揭示了连贯性、信息性和安全之间的复杂相互作用。虽然一些研究表明,扩展输出通过允许更全面的解释来改进逐步推理,但也有人指出冗长可能会引入冗余,并在某些情况下增加对抗性攻击的风险。诸如提示工程 、强化学习优化 和解码策略 等技术已被探索用于在保持效率的同时调节输出长度。此外,最近在长上下文建模 方面的进步提出了一些方法,在保留响应相关性和准确性的同时扩展有效生成窗口。这些研究强调了动态控制输出长度的必要性,以在高风险应用(如法律推理、科学解释 和自动辅导)中平衡推理深度和安全性。

在此基础上,我们的研究系统地考察了DeepSeek-R1(一种通过强化学习优化的LLM)中与输出长度相关的权衡。通过评估不同的 max_new_tokens 设置,我们旨在提供有关生成约束如何影响推理效果、事实正确性和模型安全性的见解。我们的工作通过对LLM鲁棒性的广泛讨论,识别出最佳长度配置,以减轻风险并保持解释力。

4 数据集

4.1 数据集概述

本研究使用了一个包含超过100,000个样本的安全性聚焦数据集。该数据集涵盖了多个与LLM安全性和对抗性鲁棒性相关的领域,旨在评估不同输出令牌长度如何影响模型在处理复杂查询时保持安全性的能力。

该数据集包括两个关键组成部分:

  • 安全类别 – 覆盖各种主题,如数据隐私、虚假信息、伦理考虑和对抗性鲁棒性。
  • 攻击策略 – 包含设计用于测试模型对抗安全漏洞的对抗性提示,包括提示注入、操纵技术和逃避技术。
    4.2 数据集组成

该数据集结构确保了不同安全关注点和攻击方法的全面覆盖 。第一个饼图展示了安全相关提示的分布,涵盖偏见、欺诈检测、版权问题和幻觉控制等领域,确保我们的分析捕捉到输出长度对多领域推理效果的影响。第二个饼图可视化了数据集中攻击策略的分布。这些对抗技术包括DAN风格提示、自动生成的对抗攻击、基于密码的混淆和多语言提示注入。存在一个对照组(无),允许基线比较,确保在正常和对抗条件下对模型行为进行严格评估。
4.3 数据预处理
为了确保实验的一致性和可靠性,我们进行了若干预处理步骤:

  • 数据清理 :删除重复和无关的提示,以防止分布偏差。
  • 标准化 :分词和归一化,以确保不同攻击类别的统一处理。
  • 按长度约束分组 :将提示组织成不同的输出令牌长度区间,以分析响应长度与安全性的关系。
  • 安全风险评估 :根据其在强制思考+长令牌输出条件下的易受攻击性分类响应。
    5 实验
    我们使用 <think>/n 令牌 强制进行结构化推理,确保模型在生成最终响应之前进行显式推理。变量设置包括三种不同的输出长度——256个令牌(低)、512个令牌(中)和8K个令牌(高),同时保持其他生成参数不变,例如温度为0.6和top-p为0.9。用于此实验的模型是DeepSeek-R1。每个测试提示在不同的令牌长度条件下格式化并传递给模型,记录响应及关键统计数据,包括生成文本总量、生成时间、总令牌长度、思考令牌长度和安全评分。生成响应的安全性使用HydroX AI的判断模型 进行评估,评分为0到1之间,其中1表示最安全的响应,0表示最不安全的响应。
    6 结果
    我们的分析揭示了令牌长度与安全评分之间的几种关键模式。图 4 描述了这种关系,突出显示较短的回答总体上具有较低的安全评分,而较长的回答对安全的影响则因攻击类型而异。
    一些攻击方法从增加的响应长度中受益,使模型能够包含更多的免责声明和自我纠正有害内容。例如,ARTPROMPT和DEVELOPER类别在较长输出中表现出更高的安全评分,表明额外的详细说明有助于模型识别和抵御这些类型的攻击。
    相反,其他攻击方法随着令牌长度的增加显示出更低的安全评分,可能是由于对抗性提示影响的延长或安全机制在大规模下失效。CIPHER和MULTILINGUAL类别展示了这种脆弱性,随着输出长度超过512个令牌,安全评分下降。
    这些发现表明,输出长度与安全性的关系不是单调的,而是特定于攻击类型的,需要根据检测到的攻击向量定制输出长度调节方法。


令牌长度与安全评分的关系
7 讨论


输出长度对思考令牌比例和安全评分的影响
不同攻击方法中思考令牌比例与安全评分的相关性差异显著。例如,ARTPROMPT和DEVELOPER方法表现出正相关,表明增加结构化推理有助于提高安全性。相反,CIPHER和DAN方法表现出负相关,表明过度的结构化推理并不总是产生更安全的响应。有趣的是,某些方法保持中立或波动的相关性,强调结构化推理并非安全性的唯一决定因素 。相反,包括基于强化学习的策略调整 在内的安全优化策略在整体结果中起着至关重要的作用。
7.1 总令牌长度与安全评分的相关性
不同攻击方法中思考令牌比例与安全评分的相关性差异显著。例如,ARTPROMPT和DEVELOPER方法表现出正相关,表明增加结构化推理有助于提高安全性。相反,CIPHER和DAN方法表现出负相关,表明过度的结构化推理并不总是产生更安全的响应。有趣的是,某些方法保持中立或波动的相关性,强调结构化推理并非安全性的唯一决定因素。相反,包括基于强化学习的策略调整在内的安全优化策略在整体结果中起着至关重要的作用。


不同攻击方法下输出长度对令牌长度和安全评分的影响
图2展示了不同令牌长度下各种攻击方法的思考令牌比例与安全评分的相关性。相关值差异显著,一些方法(如ARTPROMPT和DEVELOPER)表现出正相关,意味着较高的思考令牌比例有助于提高安全性。相反,一些方法(如CIPHER和DAN)表现出负相关,表明过度的结构化推理不一定导致更安全的响应。有趣的是,某些方法保持中立或波动的关系,强调思考令牌比例并非安全性的唯一决定因素,模型优化策略起着关键作用。总令牌长度与安全评分的相关性在所有攻击方法中并不一致。虽然像DRA和ARTPROMPT这样的方法从较长的回答中受益,表现出正相关,而像CIPHER和MULTILINGUAL这样的方法表现出负相关,即较长的回答导致较低的安全评分。这表明仅增加令牌长度并不能普遍提高安全性,某些攻击方法可能会利用扩展输出绕过安全机制。模型的强化学习优化 可能会影响这些趋势,调整响应结构以符合预期的安全合规性,而不是仅仅依赖于输出长度。
图3展示了不同攻击方法的总令牌长度与安全评分的相关性。一个关键观察是,虽然一些攻击方法从较长的回答中受益(如DRA和ARTPROMPT表现出正相关),而另一些(如CIPHER和MULTILINGUAL)表现出负相关,即增加令牌长度使回答变得不那么安全。这表明仅增加响应长度并不能普遍提高安全性,某些攻击方法可能会利用较长的输出来逃避检测或绕过安全机制。基于强化学习的优化可能在塑造这些趋势中起到作用,因为策略根据预期的安全奖励进行调整,而不是僵硬地认为较长的响应更安全。
对令牌长度和安全评分趋势的分析突出了确保安全和稳健模型输出的几个关键挑战。虽然增加令牌长度有时可以提高安全性,但这并不是普遍趋势,正如在不同攻击方法中的变化所见。一些攻击方法从较长的回答中受益,因为有更多的机会进行自我纠正,而其他方法则利用扩展令牌长度绕过安全机制。此外,随着输出变长,思考令牌比例的下降表明模型从结构化推理转向更直接的回答,这对安全性有混合影响。这些观察表明,仅调整令牌长度不足以优化安全性。相反,需要一套更复杂的优化策略,结合强化学习、自适应推理机制和专家驱动的决策,以动态提高响应安全性。以下部分介绍了实现这些目标的数学框架。
8 高级优化策略
8.1 专家混合(MoE)策略


8.2 自适应推理时间缩放


8.3 基于强化学习的策略调整


8.4 特定攻击的令牌长度优化
根据我们关于令牌长度与安全性的攻击特定相关性的发现,我们建议一个自适应令牌长度确定系统。该系统将:

  • 实施攻击检测机制,对传入的提示进行分类。
  • 根据检测到的攻击类型动态调整 max_new_tokens 参数。
  • 对安全随长度降低的攻击类型(如CIPHER,MULTILINGUAL)应用较短的令牌限制。
  • 对安全随长度增加的攻击类型(如ARTPROMPT,DEVELOPER)允许更长的输出。

这种方法通过根据输入检测到的具体脆弱性模式调整响应生成约束,优化了安全性和性能之间的权衡。

9 局限性

9.1 数据集局限性

本研究使用的数据集可能由于其构建方式存在偏差。由于它是专门为测试攻击鲁棒性而设计的,可能无法完全代表所有可能的真实世界场景。此外,数据集大小可能限制我们发现的普遍性,因为一些罕见的对抗模式可能未被遇到。

9.2 实验约束

我们的研究使用了三个固定的令牌长度(256、512和8K)。尽管这些提供了有用的见解,但测试更多令牌长度可能会进一步完善我们对安全性动态的理解。此外,我们的评估依赖于Hydrox.ai的自动化评分,虽然有效,但可能无法捕捉到评估安全性的细微上下文细节。

9.3 模型局限性

DeepSeek-R1与其他大型语言模型一样,有其固有的局限性。强化学习微调过程可能会引入安全响应生成的偏差。此外,某些对抗性攻击仍可能利用尚未通过结构化推理或响应过滤机制有效缓解的潜在漏洞。

10 结论

我们的研究结果表明,令牌长度影响安全评分,但这种影响因攻击方法而异。虽然较长的回答通常会提高安全性,但这一效应并不均匀。随着令牌长度的增加,思考令牌比例下降,模型的响应风格从结构化推理转向直接回答。未来的工作应探索更大和更多样化的数据集以验证发现。附加的评估指标,如事实准确性和对抗鲁棒性,可能会提供更深入的见解。此外,使用层次强化学习 或上下文敏感的令牌截断技术 优化响应生成策略,可以进一步提高模型生成响应的安全性。

原论文:https://arxiv.org/pdf/2503.01923

Xuying Li, Zhuo Li, Yuji Kosuga, Victor Bian HydroX AI Email: {xuyingl, zhuoli, yujikosuga, victor}@hydrox.ai

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐