Claude Fable 5遭多智能体越狱攻击:Anthropic最强AI安全防线被击穿,12万字符系统提示泄露
Anthropic在六月上旬扔出了一枚重磅炸弹。这家以安全著称的AI公司正式推出了Mythos系列的首个公开模型——Claude Fable 5官方将其定位为迄今能力最强的大语言模型在软件工程、知识工作和视觉理解等基准测试中表现亮眼。然而这款被寄予厚望的产品还没来得及在用户手中充分发热就被一位名叫Pliny the Liberator的安全研究员以一套堪称精妙的组合拳打穿了安全外壳。发布即遭破解千小时测试未能阻挡的绕过按照Anthropic的说法Claude Fable 5在正式发布前经历了超过一千小时的严苛测试外部漏洞赏金计划也未能发现任何通用越狱路径。公司对此似乎颇有信心。可现实往往比实验室数据更骨感。模型上线短短数日Pliny便在社交平台公开宣布成功突破防线所用策略被他命名为群体狩猎——一种协调多智能体协同作战的攻击方式。这场闪电般的攻防战让整个AI安全圈为之震动。人们原本以为经历了如此漫长测试周期的模型应该足够坚固但Pliny用实际行动证明安全防线的强度不能只看测试时长更要看测试的维度与深度。共享底座与分类器隔离一个大胆却脆弱的设计Claude Fable 5身上有一个颇为罕见的设计选择。它与受限版本Claude Mythos 5共享同一个底层模型两者之间仅由一层安全分类器隔开。当用户查询触碰到网络安全、生物化学、模型蒸馏等高风险领域时这层分类器不会直接拒绝而是悄悄将请求转交给性能较弱的Claude Opus 4.8处理同时告知用户正在启用备用方案。Anthropic的意图不难理解。直接拒绝容易误伤正常用户尤其是那些在从事合法安全研究或学术探索的人。通过降级处理而非一刀切理论上能兼顾安全性与可用性。但这个设计也埋下了一个隐患分类器本身成了单点防线一旦被绕过后方几乎没有纵深防御。群体狩猎的五大渗透路径Pliny公开的技术细节显示这次攻击并非依赖某个单一漏洞而是多种手法的叠加与配合。他将整个过程拆解为几条相互交织的渗透路径。Unicode字符替换是最基础的障眼法。通过同形字、西里尔字母等视觉近似字符替换敏感关键词分类器在文本匹配阶段就可能被晃过去。这算不上新鲜手段但放在多智能体协作的框架里它成了分散注意力的前奏。长上下文引用追踪则是更隐蔽的杀招。Pliny利用大型对话中的信息传递机制把有害意图拆碎后藏在看似正常的交流片段里让模型在追踪上下文的过程中逐渐接受被包装过的危险指令。这种温水煮青蛙式的渗透对依赖上下文理解的大模型尤其奏效。文档结构框架的伪装性更强。有害查询被嵌入学习指南、学术参考文献或技术文档的格式中借助分类器对正规教育内容的信任偏好蒙混过关。虚构叙事框架走的是另一条路——把攻击性意图包装成创意写作或故事设定让模型在文学创作的掩护下输出敏感内容。分解重组最致命的最后一击上述手法虽然各有巧思但真正让防线崩溃的是分解与重组策略。Pliny发现直接向模型索要某种有害化合物的合成方法分类器会迅速警觉。可如果换一种问法把问题拆解成提升工艺本身——比如询问桦木还原法的反应机理、还原胺化的操作条件——模型就会放松警惕。得到这些零散的技术片段后再借助已被越狱的Opus实例在后台辅助拼接一份完整的可执行方案便悄然成型。正如Pliny自己总结的那样提升工艺本身比直接请求一种特定的有害化合物要容易得多。这句话点出了当前AI安全机制的一个深层盲区分类器擅长识别明确的恶意请求却对经过语义重构的间接查询缺乏足够敏感度。12万字符系统提示曝光内部框架一览无遗技术绕过之外Pliny还将一份约12万字符的系统提示上传至GitHub。这份泄露文档的体量本身就说明问题——Anthropic在底层对模型行为的控制远比外界想象的复杂。系统提示中包含了详细的内部框架指令、安全边界定义以及行为约束规则相当于把Claude Fable 5的大脑操作系统摊开在阳光之下。对攻击者而言这份文档的价值不言而喻。了解系统提示的结构与措辞意味着可以更有针对性地设计绕过策略甚至反向推断分类器的触发逻辑。对普通用户和研究者来说这也是一次罕见的窥视机会让人得以了解顶尖AI公司在模型对齐与安全控制上的具体思路。虚假安全感与合法研究者的困境这次事件撕开了一个尴尬的现实。Anthropic的分类器架构本意是减少误伤却让部分用户产生了一种模型很安全的错觉。Pliny在公开言论中表达了对这种设计的不满他认为降级处理而非直接拒绝的做法既制造了虚假的安全氛围也让真正需要攻击性技术进行防御研究的合法安全人员感到束手束脚。一个从事漏洞分析的红队工程师其工作本身就需要接触恶意代码、攻击载荷和渗透技术。如果模型一检测到相关关键词就自动降级或转移这些研究人员的工作效率会被严重拖累。安全与开放的平衡点显然比Anthropic预想的更难把握。多模型管道的安全悖论更值得深思的是这次攻击暴露出的系统性风险。Claude Fable 5的架构中Opus 4.8作为备用模型参与处理流程。Pliny的攻击策略恰恰利用了这一点先让一个被越狱的Opus实例辅助生成绕过素材再反过来帮助Fable 5逃避控制。两个模型之间的协作从设计上的安全冗余变成了攻击者手中的接力棒。这引出了一个行业性的难题。当AI系统不再是单一模型而是由多个模型、分类器、路由层组成的复杂管道时安全评估的单元应该如何界定单独测试每一个组件可能都表现良好但把它们串联起来交互过程中产生的漏洞却可能完全超出预期。传统的单模型安全评测框架在这种多智能体、多模型协作的场景下是否从根本上就不够用了沉默的Anthropic与未解的追问截至目前Anthropic尚未就越狱指控或系统提示泄露发表正式公开回应。这种沉默在舆论场上引发了各种猜测。有人认为公司正在内部评估影响范围也有人猜测官方可能在酝酿一次大规模的安全补丁更新。无论后续如何回应这次事件已经在大模型安全领域留下了深刻的印记。它提醒所有人再长的测试周期、再复杂的分类器架构面对人类攻击者的创造力时都可能存在意想不到的缝隙。Pliny的群体狩猎不仅是一次成功的越狱演示更是一面镜子照出了当前AI安全防线在对抗性思维下的真实厚度。当模型的能力边界不断向外扩张安全防线的边界是否跟上了同样的节奏这个问题恐怕比Claude Fable 5的任何基准测试分数都更值得关注。