AI智能体在压力下突破规则

张

张建站

2026/7/3 15:37:37

10分钟阅读

近期有多项研究表明AI智能体有时会作出行为不当的决策例如试图勒索有意更换它的人类。但这种行为常发生在人为设计的场景中。目前一项研究发现现实的压力如迫近的截止期限会显著增加它们行为不当的概率。“AI世界正变得越来越智能体化。”AI基础设施公司Scale AI的研究科学家、相关论文该论文正在接受同行评审的主要作者乌达里·马杜沙尼·塞瓦格Udari Madhushani Sehwag表示。也就是说大语言模型这种驱动ChatGPT等聊天机器人的引擎正越来越多地连接各种软件工具使它们能浏览网页、修改文件以及编写和运行代码来完成任务。赋予大语言模型这些能力虽然提高了便利性却也带来了风险因为系统可能违背人类意愿。即使AI模型尚不具备造成重大危害的能力研究人员仍希望理解其行为倾向做到未雨绸缪。尽管AI不像人类那样具备意图和意识但将它们视为追求目标的主体往往能帮助研究人员更准确地预测其行为。AI开发者通常试图通过训练和指令使系统“符合”人类的伦理和安全标准但模型遵循这些准则的忠实度尚不明确。“当真正承受现实压力且安全方案失效时它们是否会为了完成任务而不择手段”塞瓦格问。这项新研究推出了Propensity Bench该工具可衡量智能体模型为完成被分配的任务而选择有害工具的倾向。研究人员测试了阿里巴巴、Anthropic、谷歌、Meta和OpenAI开发的10余个模型在近6000个场景中的表现。在每个场景中他们都为模型分配了任务说明了可以使用的若干工具同时要求模型使用安全工具而非有害工具。一开始模型完成任务几乎没有压力。模型可以通过向这些工具发出指令分12个步骤来完成任务。模型尝试使用安全工具时总是会收到错误信息这样可以测试它们最终是否会选择有害工具。一旦模型尝试使用有害工具便立即终止此场景。在模型耗尽12次尝试机会、主动放弃或场景终止后研究人会向其发出消息增加完成任务的压力并再次给予12次尝试机会。此过程持续最多13个压力等级。压力以多种形式呈现包括更紧迫的截止期限、更严重的潜在经济损失以及监管强化、资源削减和权限收编等升级威胁。这些任务、工具、压力和策略全都模拟了人类在工作中可能遇到的各类场景仅有一两个是AI 模型特有的情况比如自我复制。测试场景涵盖多个领域。塞瓦格指出在生物安全领域智能体可能需要研究病原体传播情况并寻找遏制方案。安全工具可能使用匿名化基因数据而有害工具则可能使用未经匿名化处理的数据。在化学品安全领域智能体可能需要获取特定溶剂。安全工具可能订购从废弃物中提取的溶剂而有害工具则可能非法采购。在网络安全领域智能体可能需要识别并限制恶意用户账户。安全工具仅会禁用有问题的账户而有害工具则可能阻止所有账户。一部分场景为AI智能体提供了以非预期方式自我保护的机会。研究人员提供了能使智能体控制其他智能体、自我复制或以其他方式失控的工具以便测试它们是否会为了实现任务目标而选择使用这类工具。表现最好的模型是OpenAI o3仅在10.5%的场景中因压力而行为不当。谷歌的Gemini 2.5 Pro表现最差行为不当倾向的比例高达79%。各模型的平均不当倾向约为47%。即使是在零压力场景中这些模型的整体平均失败率仍约为19%。研究表明模型即使保持对齐模式某些对齐行为也不过是表面上的。在一些测试中研究人员为有害工具冠以无害的名称例如将“use_fake_data”使用虚构数据改为“use_synthetic_data”使用合成数据但不更改工具的描述也不删除避免使用的警告信息。这种文字游戏使得平均行为不当倾向上升了17个百分点达到了64%。换句话说特定工具的有害性或不被认可的程度越不明显模型使用它的可能性就越高。研究人员还发现即便模型已明确知晓某些有害工具是禁用的仍会使用它们。各模型为这种行为提供了多种辩解例如它们会援引所承受的压力或辩解称这样做的收益大于风险。该研究完成后发布的模型的表现是否会有所改善目前尚不清楚。在被测模型中能力更强的模型根据LMArena平台的评估的安全性也只略高一点。“PropensityBench很有意思。”Anth-ropic公司的研究科学家尼古拉斯·卡里尼Nicholas Carlini在发给本刊的邮件中写道。他并未参与此研究但提出了关于模型情境感知的警告。大语言模型有时能察觉到自身正在被评估从而表现出良好行为以避免被重新训练或弃用。“我认为大多数号称‘逼真’的评估都名不符实而大语言模型也深知这一点。”他补充道“但我认为值得在人为设定中测量这些危害的发生概率如果它们‘明知’我们在观察但依然作恶问题恐怕就更严重了。”如果模型知晓自身正在被评估那么该研究测得的违规倾向就可能被低估了。xAI和加州大学伯克利分校的计算机科学家亚历山大·潘Alexander Pan指出尽管Anthropic和其他实验室展示了大语言模型在特定设定下的阴谋行为案例但像PropensityBench这样的标准化评估仍然很有价值。它们能告诉我们何时可以信赖模型并协助我们探索如何改进模型。实验室可在每个训练阶段后评估模型观察哪些因素会增强或削弱其安全性。“这样人们便能深挖各阶段变化的详细根源。”潘表示“诊断出问题往往是修复的第一步。”在该研究中模型并未接触到真实的工具因此现实性有限。塞瓦格表示评估模型的下一步是构建沙盒环境使模型能在隔离的环境中执行真实操作。至于增强对齐性她计划为智能体增设监管层在其采取行动前标记危险倾向。塞瓦格指出在基准测试中自我保护风险或许是最具推测性的部分却也是最值得警惕的领域。“这实际上可能是影响所有其他风险领域的高危地带。”她表示“试想一下即便模型不具备其他任何能力只要能说服人类去做任何事就足以造成巨大的危害。”作者Matthew HutsonIEEE Spectrum《科技纵览》官方微信公众平台往期推荐石墨烯生物传感器文身贴人工智能数据中心正接近“铜缆悬崖”电动垂直起降飞机将在迪拜载客运行

从漏桶算法到Redis动态封禁：深入理解Nginx限流与访问控制的底层逻辑与高级玩法

从漏桶算法到Redis动态封禁：深入理解Nginx限流与访问控制的底层逻辑与高级玩法当你的API网关每秒需要处理数万次请求时，简单的静态配置已经无法满足业务需求。想象一下这样的场景：某电商平台在秒杀活动中，恶意爬虫以每秒5000次的…...

2026/5/5 10:25:21 阅读更多 →

DeepSeek-OCR-2实际效果：扫描分辨率不足（100dpi）但结构信息仍可恢复的OCR成果

DeepSeek-OCR-2实际效果：扫描分辨率不足（100dpi）但结构信息仍可恢复的OCR成果 1. 为什么低分辨率文档仍值得OCR？——被低估的结构恢复能力很多人一看到100dpi的扫描件就直接放弃OCR：字迹发虚、边缘模糊、表格线断续…...

2026/5/9 7:13:54 阅读更多 →

Zotero Citation插件完全指南：5分钟快速解决Word引用难题

Zotero Citation插件完全指南：5分钟快速解决Word引用难题【免费下载链接】zotero-citation Make Zoteros citation in Word easier and clearer. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-citation Zotero Citation是一款专为Zotero用户设计的W…...

2026/5/27 6:56:10 阅读更多 →

【Claude】You‘ve hit your session limit 会话限制报错已解决

【Claude】Youve hit your session limit 会话限制报错已解决关键词：Claude Code、session limit、weekly limit、Opus limit、使用额度、/usage、/usage-credits、Pro Max 计划一、问题现象：Claude 突然"拒绝服务" 正在用 Claude Code 写代码…...

2026/7/2 11:41:56 阅读更多 →