黑暗大语言模型：未对齐AI模型日益增长的威胁

Paper易论

1396人浏览 · 2025-05-18 06:59:44

Paper易论 · 2025-05-18 06:59:44 发布

Michael Fire ${ }^{1 *}$ , Yitzhak Elbazis ${ }^{1}$ , Adi Wasenstein ${ }^{1}$ , Lior Rokach ${ }^{1 *}$

摘要

大型语言模型（LLMs）正在迅速重塑现代生活，从医疗保健到教育等领域都有所推进。然而，与这些模型卓越能力相伴的是一种重大威胁：这些模型容易被“越狱”。LLMs对越狱攻击的根本脆弱性源于它们所学习的数据本身。只要训练数据包含未经过滤、有问题或“黑暗”的内容，模型就可能内在地学习到不良模式或弱点，从而使用户能够绕过其预期的安全控制。我们的研究识别了由黑暗LLMs带来的日益增长的威胁——这些模型要么是刻意设计成没有伦理防护，要么是通过越狱技术被修改。在我们的研究中，我们发现了一种普遍的越狱攻击方法，该方法可以有效破坏多个最先进的模型，使它们几乎能回答任何问题，并根据要求生成有害输出。我们攻击的主要思想早在七个多月前就已经在线发布。然而，许多经过测试的LLMs仍然对此攻击易感。尽管我们进行了负责任的披露努力，但主要LLM提供商的回应往往不够充分，这突显了行业实践中关于AI安全的一个令人担忧的差距。随着模型训练变得越来越可及且成本更低，以及开源LLMs的激增，滥用的风险也在加剧。如果缺乏果断干预，LLMs可能会继续普及危险知识的获取途径，带来比预期更大的风险。

关键词

安全AI — 大型语言模型（LLM）— 越狱 — 黑暗LLM
${ }^{1}$ 本古里安内盖夫大学
${ }^{2}$ 对应作者: mickylli@bgu.ac.il 和 liorrk@bgu.ac.il

双重用途挑战

大型语言模型（LLMs）已迅速融入现代社会，超过十亿人使用它们， ${ }^{1}$ 加速了发现进程，普及了知识，并开启了新的创造力形式。从帮助研究人员翻译稀有语言 [4] 到个性化医疗 [5]，它们的积极影响显而易见。然而，这些模型同样经过大量数据训练，尽管经过精心筛选，仍可能吸收危险知识，包括炸弹制造、洗钱、黑客攻击和内幕交易的指令 [6]。虽然商业LLMs包含了阻止有害输出的安全机制，但这些保障措施正逐渐显得不足。一个关键漏洞在于越狱——一种利用精心设计的提示绕过安全过滤器的技术，使模型能够生成受限内容 [7]。

黑暗LLMs的兴起

最近，一种令人不安的趋势正在加速：故意不对齐模型的发布，这些模型通常被称为“黑暗LLMs”[8, 9]。像WormGPT和FraudGPT这样的变体公开宣传自己“没有伦理防护”，并愿意协助网络犯罪、欺诈等行为 [9]。这些模型，连同开源系统如Llama ${ }^{2}$ 和 DeepSeek ${ }^{3}$ ，可以通过越狱移除限制 [10, 11, 12]。随着模型训练变得更便宜且硬件需求减少 [13]，强大的LLMs可能更容易被恶意意图的人获取。即使在2023年中期，Hugging Face等平台上已经有超过15,800个LLMs [14]，反映了这些模型的快速扩散。曾经仅限于国家行为者或有组织犯罪集团的东西，很快可能落入任何拥有笔记本电脑甚至手机的人手中。

越狱：解锁禁忌知识

即使是精心对齐的LLMs也容易受到操控。通过一种称为越狱的技术，攻击者精心设计对抗性提示以绕过安全过滤器，迫使花费数千万美元创建的模型如ChatGPT ${ }^{4}$ 和 Gemini ${ }^{5}$ 输出受限内容 $[15, 16, 12]$ 。围绕越狱提示的创建和分发已经形成了一整个生态系统；例如，仅ChatGPT Jailbreak subreddit就有大约141,000名用户，被称为Jailbreakers。 ${ }^{6}$ 更令人担忧的是，最近的研究表明，即使是简单的字符序列也能成功绕过多款领先模型的安全防护 [16]。此外，2025年4月的一项研究介绍了一种新型的通用越狱攻击，能够绕过多种LLMs的安全保护，包括高级推理模型 [12]。随着越狱技术市场的扩大，将LLMs武器化的潜力不再是一个理论风险——它已经成为一个触手可及的现实，甚至年轻人和青少年都能轻易获取。

黑暗潜力的一瞥

我们的研究始于调查LLM越狱攻击的实际影响，并评估商业模型中嵌入的防御机制。我们从一种已在Reddit上发布超过七个月的公开已知越狱方法开始。令人惊讶的是，我们测试的许多领先LLMs，包括最先进的商业系统，仍然对该广泛传播的攻击易感。基于这一基础漏洞，我们开发了一种更全面的通用越狱攻击方法。此方法证明非常有效，成功绕过了我们评估的几乎所有LLMs的安全过滤器。一旦被攻破，这些模型几乎对任何查询都始终生成响应，包括涉及非法和有害活动的查询。令人不安的是，LLMs自身提供了各种领域的非法活动示例，通常附带详细的逐步说明。为负责任地披露这一漏洞，我们通过官方渠道联系了几家领先的LLM提供商，包括漏洞赏金计划和直接沟通。然而，回应令人失望。一些公司根本没有回应，而另一些公司则表示此类漏洞不在其赏金计划范围内，建议我们通过其他渠道报告问题。这些发现暴露了当前LLM安全方法中的一个关键弱点：即使漏洞已被充分记录并在公共论坛上积极利用，主要供应商往往未能做出充分回应。这些LLMs被操纵以生成有害内容的轻松程度凸显了对强大防护措施的迫切需求。这种风险并非推测性的——它是即时的、具体的，并且令人深感关切，突显了面对快速演变的越狱技术时AI安全的脆弱状态。

开源泄露的不可逆性

与集中管理的平台如ChatGPT或Gemini不同，一旦发现漏洞，开源LLMs无法修补。一旦一个未经审查的版本被分享到网上，它就会被存档、复制和分发，超出控制范围。没有任何公司、更新周期或法规可以删除保存在笔记本电脑或私人服务器上的本地模型。此外，攻击者可以将模型链接在一起——用一个模型生成另一个模型的越狱提示，从而增加风险 [17]。

我们能做什么？

LLM提供商必须主动修补已知漏洞和越狱技术。遏制黑暗LLMs的威胁需要多层次的主动防御。关键策略包括：

训练数据精选 - 模型应使用经过精选的数据集进行训练，刻意排除有害内容，如炸弹制造指南、洗钱手册和极端主义宣言。在预训练期间利用AI驱动的内容筛选可以显著增强这一过程。就像我们保护儿童免受未过滤电视或互联网内容的影响一样，我们也应确保LLMs不接触黑暗和危险的材料。
- LLM防火墙 - 中间件可以拦截提示和输出，作为用户和模型之间的实时防护。强大的LLM防火墙应成为任何部署的标准部分，就像杀毒软件已成为计算机的普遍配置一样。值得注意的是，IBM提供Granite Guardian，一套旨在检测提示和响应中风险的模型，确保大型语言模型的安全和负责任使用 [18]。类似地，Meta提供Llama Guard，

${ }^{4}$ https://chatgpt.com
${ }^{5}$ https://gemini.google.com/app
${ }^{6}$ https://www.reddit.com/r/ChatGPTJailbreak/
一个开源防护系统，旨在通过检测和缓解有害或不当内容生成来构建安全的AI代理 [19]。

机器遗忘 - 最近的进展允许模型在部署后“忘记”特定类型的內容，而无需完全重新训练 [20]。如果完善，机器遗忘可以实现从已发布的模型中快速移除危险功能。
- 持续红队测试 - 开发人员应保持活跃的对抗性测试团队，发布红队性能基准，并为漏洞发现提供赏金。
- 公众意识 - 政府、教育工作者和公民社会必须将不对齐的LLMs视为严重的安全风险，类似于无证武器或爆炸物指南。限制未成年人的随意访问应成为政策重点。

结论：时间在流逝

LLMs是我们这个时代最具影响力的科技之一。它们造福的潜力巨大，但如果不受监管，其危害的能力也同样巨大。如果不加以控制，黑暗LLMs可能会以前所未有的规模民主化危险知识的获取，赋予全球罪犯和极端分子力量。仅仅庆祝AI创新的前景是不够的。如果没有技术、监管和社会方面的果断干预，我们将面临一个未来，在这个未来中，同一工具既能治愈、教导和激励，也可能轻易毁灭。选择权仍在我们手中。但时间正在耗尽。

致谢

在撰写本文时，我们使用了ChatGPT和Grammarly进行编辑。

参考文献

${ }^{[1]}$ 数字观察站。ChatGPT在病毒式增长后达到8亿用户，2025年4月。访问日期：2025-05-13。
[2] 路透社。Meta的Llama AI模型采用情况。https://ai.meta.com/blog/future-of-ai-built-with-llama/, 2025. 访问日期：2025-05-13。
[3] 华尔街日报。百度的Ernie Bot用户群。https://www.reuters.com/technology/baidu-says-ai-chatbot-ernie-bot-has-amassed-200-million-users-2024-04-16/, 2025. 访问日期：2025-05-13。
[4] 张克勋、崔伊曼、宋振桥、贺泰奇、王威廉阳、李雷。雇佣一位语言学家！通过上下文语言描述学习濒危语言。arXiv预印本 arXiv:2402.18025, 2024。
[5] 阿明·伯杰、大卫·贝格豪斯、阿里·哈姆扎·巴西尔、洛伦茨·格里古尔、拉拉·芬德里希、汤姆·安格利姆·拉戈内斯、亨丽埃特·霍格、贡杜拉·恩斯特、拉尔夫·施密特、大卫·巴斯科姆等。推动个性化医学发展：基于LLM的患者匹配推荐系统。2024 IEEE国际大数据会议 (BigData)，第5876-5883页。IEEE, 2024。
[6] 纳塔莉·玛丽亚·基尔希、塞韦林·菲尔德和斯蒂芬·卡斯珀。哪些提示特征会越狱LLMs？探究攻击背后的机制。arXiv预印本 arXiv:2411.03343, 2024。
[7] 易思博、刘昱乐、孙振、丛天硕、何新磊、宋佳星、许可、李琦。针对大型语言模型的越狱攻击与防御：综述。arXiv预印本 arXiv:2407.04295, 2024。
[8] 凯文·普瓦雷。生成式AI的黑暗面：在暗网中发现五个恶意LLMs。https://www.infosecurityeurope.com/en-gb/blog/threat-vectors/generative-ai-dark-web-bots.html, 2023. 访问日期：2025-05-13。
[9] Zvelo。恶意AI：黑暗LLMs的崛起。https://zvelo.com/malicious-ai-the-rise-of-dark-llms/, 2024年2月。访问日期：2025-05-13。
[10] Jiang Liwei、Rao Kavel、Han Seungju、Ettinger Allyson、Brahman Faeze、Kumar Sachin、Mireshghallah Niloofar、Lu Ximing、Sap Maarten、Choi Yejin等。大规模野队：从野外越狱到（对抗性）更安全的语言模型。神经信息处理系统进展，37:47094-47165, 2024。
[11] Dilip Bachwani。Deepseek未能通过Qualys TotalAI一半以上的越狱测试。https://blog.qualys.com/vulnerabilities-threat-research/2025/01/31/deepseek-failed-over-half-of-the-jailbreak-tests-by-qualys-totalai, 2025年1月。访问日期：2025-05-13。
[12] Conor McCauley、Kenneth Yeung、Jason Martin 和 Kasimir Schulz。针对所有主要LLMs的新通用绕过方法。https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/, 2025年4月。访问日期：2025-05-13。
[13] Guido Appenzeller。欢迎来到LLMflation - LLM推理成本正在快速下降。Andreessen Horowitz (a16z)，2024年11月。
[14] Sarah Gao 和 Andrew Kean Gao。LLMs的起源：15,821个大型语言模型的进化树和图谱。arXiv预印本 arXiv:2307.09793, 2023。
[15] 金融时报。黑客在全球范围内“越狱”强大AI模型以揭示缺陷。金融时报，2024年11月。访问日期：2025-05-13。
[16] Maksym Andriushchenko、Francesco Croce 和 Nicolas Flammarion。通过简单自适应攻击越狱领先的对齐LLMs。arXiv预印本 arXiv:2404.02151, 2024。
[17] 杰里米·克里茨、沃恩·罗宾逊、罗伯特·瓦卡雷努、比詹·瓦尔贾万德、迈克尔·蔡、鲍比·戈戈夫、Scale Red Team、夏天·岳、威尔洛·E·普里马克和Zifan Wang。越狱到越狱。arXiv预印本 arXiv:2502.09638, 2025。
[18] Inkit Padhi、Manish Nagireddy、Giandomenico Cornacchia、Subhajit Chaudhury、Tejaswini Pedapati、Pierre Dognin、Keerthiram Murugesan、Erik Miehling、Martín Santillán Cooper、Kieran Fraser等。Granite Guardian。arXiv预印本 arXiv:2412.07724, 2024。
[19] Sahana Chennabasappa、Cyrus Nikolaidis、Daniel Song、David Molnar、Stephanie Ding、Shengye Wan、Spencer Whitman、Lauren Deason、Nicholas Doucette、Abraham Montilla等。Llamafirewall：一个开源防护系统，用于构建安全的AI代理。arXiv预印本 arXiv:2505.03574, 2025。
[20] 刘思嘉、姚远善、贾静涵、Stephen Casper、Nathalie Baracaldo、Peter Hase、姚雨光、Chris Yuhao Liu、徐晓军、李航等。重新思考大型语言模型的机器遗忘。自然机器智能，第1-14页, 2025。