收藏！轻松上手大模型Agent开发：Anthropic Managed Agents揭秘高效运行时

张

张建站

2026/5/11 23:41:44

10分钟阅读

收藏！轻松上手大模型Agent开发：Anthropic Managed Agents揭秘高效运行时

本文探讨了Anthropic如何将复杂的agent runtime转化为开发者可直接调用的基础设施。文章指出agent开发的关键难点在于运行时环境而非模型本身并介绍了Anthropic的Managed Agents如何通过将系统拆分为大脑模型harness、“双手”sandbox和工具和会话持久化日志三个部分实现脑手分离。这种设计不仅提升了系统的稳定性和恢复能力还增强了安全性例如通过将凭证与执行环境隔离来降低风险。Managed Agents为开发者提供了更灵活、高效的agent开发方式特别适合需要长期运行、恢复、追踪事件历史以及接入自定义资源的应用场景。Anthropic 正在把最难做的 agent runtime变成开发者可以直接调用的基础设施。Agent 的真正难点不在模型在“脏活累活”你有这种感觉吗做一个 Agent Demo其实已经不难了。给模型一个 system prompt配几个工具接上代码执行或者浏览器一个下午就能跑起来。可一旦你想把它真正用到生产里问题马上就来了• 跑了 40 分钟容器挂了之前的状态全没了• 想连你自己的 VPC、数据库、内部服务发现整个运行时耦死了• Agent 需要 Git、OAuth、MCP 凭据但你又不敢把 token 暴露给它执行的代码• 上下文一长模型记不住你做了压缩又怕把关键细节压没了问题出在哪儿很多人以为难点在 prompt不全对。真正难的是 Agent 外面那层“壳”。Anthropic 在这篇工程文章里用的词是harness。你可以把它理解成 Agent 的运行时总控层怎么调模型、怎么接工具、怎么记状态、怎么恢复、怎么隔离安全边界都是它在管。只靠更强模型行吗不行。模型变强了旧 harness 里的假设会过时甚至变成累赘。只靠多堆几个容器行吗也不行。状态、权限、恢复、调试还是一团乱。今天我想聊的就是 Anthropic 最近放出来的新东西Managed Agents。它不是“又一个 Agent Demo SDK”更像是把 agent runtime 这层基础设施正式产品化了。01 Managed Agents 到底是什么按官方文档Claude Managed Agents 主要围绕 4 个对象展开对象它负责什么Agent模型、system prompt、tools、MCP servers、skillsEnvironment运行容器模板比如安装什么包、能不能联网、挂载什么文件Session一次正在运行的 agent 实例负责跨多轮保留历史Events你的应用和 agent 之间交换的事件比如用户消息、工具结果、状态更新这个拆法很关键。以前很多团队写 agent习惯把这些东西揉成一坨提示词在代码里容器跟状态绑在一起工具调用和日志混在一起出问题只能进容器里“抢救现场”。Managed Agents 的想法是反过来把“Agent 定义”“运行环境”“运行过程”“事件日志”拆成稳定接口。这样一来你不是每次都重新造一套 agent 系统而是在官方抽象上组装它。02 Anthropic 这次真正拆掉的是“宠物容器”这篇工程文章里我最喜欢的一段是他们承认自己一开始也踩了经典坑他们最早把 session、harness、sandbox 全塞进同一个容器里。短期看很省事。Claude 改文件是直接 syscall也没有复杂的服务边界。但很快这个容器就从“牛群”变成了“宠物”。也就是说它变成了那个你不能丢、挂了得人工抢救、出问题难排查的关键单点。一旦容器失联• session 可能一起丢• 调试只能看 WebSocket 事件流• 你分不清是 harness 卡住了、网络掉包了还是容器本身死了• 工程师真要排查还得进容器开 shell这对托管式 Agent 服务来说太重了。所以 Anthropic 最终做的是把整个系统拆成 3 层•brainClaude harness•handssandbox 和各种 tools•session持久化事件日志这就是文章标题里那句很形象的话Decoupling the brain from the hands。简单讲就是让“大脑”别再住在“手”里面。03 为什么“脑手分离”这么重要1. 出故障时不用再救容器Anthropic 把 sandbox 看成一个标准工具接口本质上像这样execute(name, input) - string如果容器挂了harness 只会把它当成一次工具调用失败。Claude 可以选择重试系统也可以重新按配方去 provision 一个新环境。换句话说容器终于从“宠物”变回“牛”了。2. Harness 挂了也能从日志里醒过来session log 被挪到了 harness 外面。这意味着 orchestrator/harness 本身可以是无状态的。哪怕某个 brain 进程崩了也可以重新wake(sessionId)再从getEvents()拿回事件流继续干。这个设计特别像成熟分布式系统里的思路进程可以死状态要活。3. 凭据不再暴露给 Agent 自己写的代码这部分是我觉得最有价值的地方。过去如果 Claude 生成的代码和凭据在同一个 sandbox 里一次 prompt injection 成功后攻击者真正想拿的往往不是你的文件而是 token。Anthropic 的结构性修复是让 token 永远碰不到 sandbox。官方给了两种模式• Git token 在环境初始化时就配置好让git pull/push能用但 agent 看不到 token 本身• OAuth/MCP 凭据放在 sandbox 外的 vault 里通过代理去调用外部服务这不是“小心一点别泄露”的问题而是直接从架构上把风险面缩小了。4. Session 不等于上下文窗口这也是文章里一个很强的观点。长任务最怕什么不是模型不会做而是做着做着窗口满了。你可以压缩、裁剪、摘要但这些动作很多都是不可逆的。一旦压错了后面就会越来越偏。Managed Agents 的做法是把session当成一个在上下文窗口外部存在的“可追溯状态对象”。Claude 需要什么不是全塞进当前窗口而是按需从事件流里重新读取。也就是说• 上下文窗口是“工作台”• session log 是“仓库”工作台可以随时整理仓库不能说丢就丢。04 它带来的不只是更稳还有更快Anthropic 在文中给了一个很具体的数据当他们把 brain 从容器里拆出来之后p50 的 TTFT 下降了大约 60%p95 下降超过 90%。为什么因为不是每个 session 一上来都需要起容器、拉代码、装环境。以前是先把整套环境准备好模型才能开始推理。现在变成• 先让无状态 brain 开始工作• 真要动手的时候再去 provision 对应的 hands这对很多“先思考、后执行”的任务特别重要。有些任务前 5 分钟都在读需求、拆计划、决定去哪儿执行。你如果强迫它一开始就把所有容器都准备好纯属空转。05 开发者怎么上手官方 quickstart 已经给出了很清晰的路径创建Agent创建Environment创建Session往Session里发送user.message事件流式读取 agent 产生的后续事件像这样ant beta:agents create \ --name Coding Assistant \ --model claude-sonnet-4-6 \ --system You are a helpful coding assistant. \ --tool {type: agent_toolset_20260401}ant beta:environments create \ --name quickstart-env \ --config {type: cloud, networking: {type: unrestricted}}然后创建 session并往里发事件。需要注意的是官方文档当前要求带上 beta headeranthropic-beta: managed-agents-2026-04-01如果你用 SDK这部分会自动处理。我自己的理解是Managed Agents 更适合下面这类任务• 要连续跑很久的 coding / research / ops 任务• 需要恢复、重试、追踪完整事件历史• 要接自定义 MCP、VPC 内资源、外部工具系统• 你不想自己维护一整套 agent harness如果你只是做一次性问答或者短链路工具调用普通 Messages API 依然更轻。06 我对这次发布的判断我觉得 Anthropic 这次最重要的不是“又开放了一个新 API”。而是它把一个原本只属于内部 agent 工程团队的经验变成了平台能力。说白了Managed Agents 想解决的不是“怎么让模型多会一步”而是当模型已经越来越会了你的运行时还能不能别掉队。这也是为什么他们在文中反复强调harness 里编码的很多假设都会随着模型能力提升而过时。今天你为了防“上下文焦虑”加的机制明天可能就是负担。今天你为了方便把凭据塞进容器明天可能就是最大风险点。所以他们没有把某一种 harness 写死而是做了一个更像“meta-harness”的东西• 对接口有明确主张• 对具体内部实现尽量少做假设• 允许未来换模型、换工具、换 sandbox、换 orchestration 方式如果你最近正好在折腾 AI Agent这个产品最值得你学的不只是 API 用法而是这套设计思路把 prompt 当能力把 harness 当系统。前者决定它聪不聪明后者决定它能不能活着跑完。如果你最近也在做 Agent 基础设施欢迎留言聊聊你现在最头疼的是上下文、权限、恢复还是多环境执行如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

iOS加固哪家好？实测对比：性能影响、防护效果与上架兼容性

市场上号称提供iOS加固服务的厂商不下十家，但技术方案参差不齐。对于技术负责人或产品经理来说，最头疼的不是找不到供应商，而是如何从“哪家好”这个模糊问题中，找到一套可量化、可验证的评估方法。本文基于我们服务多个金融、游戏…...

2026/5/11 23:40:50 阅读更多 →

5分钟掌握VinXiangQi象棋连线工具：让AI成为你的私人象棋教练

5分钟掌握VinXiangQi象棋连线工具：让AI成为你的私人象棋教练【免费下载链接】VinXiangQi Xiangqi syncing tool based on Yolov5 / 基于Yolov5的中国象棋连线工具项目地址: https://gitcode.com/gh_mirrors/vi/VinXiangQi 你是否经常在象棋对局中感到困惑&…...

2026/5/11 23:38:36 阅读更多 →