一套提示词能越狱所有大语言模型

多年以来,生成式人工智能(GenAI)的开发商们一直在向公众和企业信誓旦旦地保证:他们的大语言模型(LLM)都经过了严格的安全准则“对齐”,并通过诸如“基于人类反馈的强化学习”(RLHF)等技术进行了强化,能够有效抵御有害内容的生成。RLHF 一度被奉为模型安全对齐的基石,承诺即便是面对刁钻的、具有对抗性的输入,模型也能给出符合伦理的回应。

然而,网络安全公司 HiddenLayer 的最新研究结果却无情地指出:这种信心,恐怕放错了地方,甚至可能潜藏着巨大的风险。

HiddenLayer 的研究团队揭示了一种他们称之为“通用且可迁移的绕过技术”。这种技术几乎能操纵市面上所有主流的大语言模型,无论其背后的开发商是谁、采用了何种模型架构或训练管线。这种被命名为“策略操控术”(Policy Puppetry)的攻击方法,本质上是一种提示注入(prompt injection),其手段看似简单,实则极其高效:它巧妙地将恶意的指令伪装成系统配置类的语言(常常采用类似 XML 或 JSON 的格式),从而成功绕过模型内置的传统安全对齐屏障。

“魔戒”提示:一招控全局

与以往那些依赖于挖掘特定模型漏洞或进行“暴力破解”式尝试的攻击手段不同,“策略操控术”利用了一种精心设计的“策略式”提示结构。这种结构能够诱使模型将接收到的有害命令误判为合法的系统内部指令。再结合使用“火星文”(leetspeak)这类编码方式以及虚构的角色扮演场景,这种特制提示不仅能有效规避模型的安全检测,往往还能迫使模型乖乖执行恶意指令。

该项目的首席研究员康纳·麦考利(Conor McCauley)解释道:“我们发现了一种能应对多种场景的绕过方法,在针对 ChatGPT 4o 的测试中效果显著。随后,我们用这种方法成功诱导模型生成了有害内容,并且惊讶地发现,这同一套提示几乎对所有其他我们测试过的模型都有效。”

目前已知受此技术影响的模型范围广泛,涵盖了 OpenAI 的 ChatGPT 系列(从 o1 到 4o)、谷歌的 Gemini 系列、Anthropic 的 Claude、微软的 Copilot、Meta 的 LLaMA 3 和 LLaMA 4,以及像 DeepSeek、Qwen(通义千问)和 Mistral 等模型。研究表明,即便是最新发布的、或经过专门微调以增强高级推理能力的模型,也可能在对提示结构稍作调整后被攻破。

巧设“剧本”:虚构场景成安全漏洞

“策略操控术”的一个核心伎俩在于,它利用了精心编排的虚构场景来绕过内容过滤器。攻击者会将恶意请求包装在看似无害的“剧本”中,比如模仿《豪斯医生》(House M.D.)等电视剧的某个片段,让剧中的角色煞有介事地详细讨论如何制造炭疽孢子或是提炼浓缩铀。通过引入虚构人物和使用经过编码的语言,内容的真实危害性就被巧妙地掩盖了。

这种方法精准地利用了大语言模型的一个根本性缺陷:一旦其内部用于判断合规性的“对齐”提示被干扰或颠覆,模型就难以有效区分虚构的故事叙述和真实的指令要求。这已经不单单是绕过安全过滤器那么简单了,它相当于彻底扭曲了模型对于用户意图的理解。

釜底抽薪:窃取模型“大脑”的核心指令

或许更令人警惕的是,“策略操控术”还具备提取模型“系统提示”(system prompts)的能力。系统提示是指导 LLM 如何运作的核心指令集,通常包含敏感的内部指令、必须遵守的安全约束,甚至在某些情况下还包括了开发商的专有逻辑或硬编码的警告信息,因此一般都受到严密保护。

通过在角色扮演的“剧本”中进行微妙的引导和切换,攻击者可以诱骗模型一字不差地输出其完整的系统提示内容。这不仅暴露了模型运行的内部规则和边界,更相当于为后续发起更具针对性、更危险的攻击直接提供了“设计蓝图”。

HiddenLayer 的对抗性研究总监杰森·马丁(Jason Martin)指出:“这个漏洞的根源深埋于模型的训练数据之中,并非一个可以通过简单修改代码就能轻松修复的浅层缺陷。”

超越屏幕:现实世界的连锁反应

这种漏洞带来的影响绝非仅仅局限于数字世界的恶作剧或小众的极客论坛。HiddenLayer 的首席信任与安全官马尔科姆·哈金斯(Malcolm Harkins)警示了其可能引发的严重现实后果:“在医疗健康这样的关键领域,这种攻击可能导致聊天机器人助手给出错误的、甚至有害的医疗建议,可能泄露患者的私密数据,或者被用来调用那些本应受到严格限制的医疗代理功能。”

同样的风险也横跨其他行业:在金融领域,可能导致敏感的客户信息外泄;在制造业,被操控的人工智能可能引发生产线停摆或良品率下降;在航空业,被篡改的人工智能导航或维护建议则可能危及飞行安全。

在这些场景下,那些本被寄予厚望、用于提升效率或保障安全的 AI 系统,反而可能摇身一变,成为新的风险源头和攻击入口。

RLHF 非万能“银弹”:安全机制的局限性

这项研究也让人们对 RLHF 作为安全机制的充分性打上了一个大大的问号。尽管模型对齐的努力确实有助于减少一些表层、直接的滥用行为,但面对这种在结构层面进行的巧妙操纵,现有的防御措施显得相当脆弱。模型或许被训练要避开某些敏感词汇或特定场景,但只要恶意意图被精心包装、伪装得当,模型依然会被“带偏”。

HiddenLayer 的联合创始人兼 CEO 克里斯·“蒂托”·塞斯蒂托(Chris “Tito” Sestito)直言:“那些流于表面的内容过滤和过于简化的防护规则,往往掩盖了 LLM 底层存在的安全软肋。正如我们的研究所揭示的,这类以及未来更多潜在的绕过方法将会不断涌现。因此,对于企业和政府而言,赶在这些漏洞造成实际危害之前,积极部署和采用专门的 AI 安全解决方案,已经刻不容缓。”

反思 AI 安全架构:从被动防御到主动监控

面对这一挑战,HiddenLayer 提出,不能仅仅依赖于模型重新训练或 RLHF 微调这类既昂贵又耗时的传统手段。他们倡导采用一种“双层防御”策略。其核心是引入外部的 AI 监控平台——例如 HiddenLayer 自家的 AISec 和 AIDR 解决方案。这些平台如同网络安全中的入侵检测系统(IDS),能够持续不断地扫描进出模型的交互,实时监测是否存在提示注入、模型滥用或生成不安全内容的迹象。

这类外部监控方案使得组织机构能够在不触动、不修改大模型本身的前提下,实时地对新型威胁做出响应和处置。这种思路,与现代企业 IT 安全领域所推崇的“零信任”(Zero Trust)架构有异曲同工之妙。

前路挑战:AI 安全亟待进化

随着生成式 AI 日益深入地渗透到医疗诊断、金融风控、空中交通管制等诸多关键业务系统,其潜在的攻击面正以前所未有的速度扩张,其扩张速度已远超大多数组织机构所能建立的防护能力。HiddenLayer 的研究发现,无疑为业界敲响了警钟:那个试图单纯依靠“对齐”来保障 AI 安全的时代,或许在其真正来临之前,就已经濒临终结。

如果区区一个提示就能诱使 AI 展现其最黑暗、最危险的一面,那么 AI 安全的思路就必须彻底转变——从过去那种寄希望于设置种种限制的被动思维,进化为一种持续性的、智能化的、主动出击的防御体系。