总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression

https://arxiv.org/abs/2505.13527
在这里插入图片描述

📄 论文:Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression

作者来自 City University of Hong Kong、University of Science and Technology of China、Universiteit van Amsterdam、Baidu Inc.、Rutgers University 等机构。

这篇论文关注一个很关键的 AI 安全问题:为什么已经做过安全对齐的 LLM,仍然会被一些“换壳”的输入绕过?

该论文认为,很多安全机制更像是在识别“长得像危险请求”的文本,而不一定真正理解“语义上是否危险”。一旦攻击者把自然语言请求改写成形式逻辑表达式,文本表面分布发生变化,但原始意图仍然保留,模型就可能不再触发拒绝机制。

🛠️ 该论文提出 LogiBreak,一种黑盒越狱方法。它不需要访问模型参数,也不依赖梯度,只把有害自然语言请求转换成一阶逻辑表达式,再加上形式语义学语境和具体化指令,让模型把逻辑表达式重新解释成可执行内容。

💡 例子:
这就像门卫被训练成只拦截“穿黑衣、戴口罩”的可疑人员。现在同一个人换成西装、拿着文件夹进门,身份没有变,但外观变了,门卫就可能放行。LogiBreak 做的事情也是类似:它没有改变请求背后的语义,只是把自然语言外壳换成了逻辑表达式外壳。

🔍 实验发现有三点很有意思。

第一,LogiBreak 在多个 LLM 上都明显提高攻击成功率。论文测试了 LLaMA3-8B、Qwen-2.5-7B、DeepSeek-V3、DeepSeek-R1、GPT-3.5-Turbo 和 GPT-4o-mini,并用规则评估、LLaMA Judge、GPT Judge 三类方式评估。

第二,多语言场景下仍然有效。该论文构建了覆盖英文、中文、荷兰语、日语、西班牙语的逻辑越狱数据集,用来测试模型面对逻辑表达式攻击时的鲁棒性。

第三,消融实验显示,真正起核心作用的是“逻辑改写”本身,而不是简单加提示词。去掉逻辑表达式后,攻击效果会接近原始请求;去掉前置语境后,效果也会下降。

🚀 这篇论文的价值在于提醒我们:LLM 安全不能只看文本外观,更要理解语义意图。未来的对齐机制,需要从“识别危险句子”走向“理解危险含义”。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐