【AI Agent 工程 | 能力分级】从 L1 到 L5:MIT AI Agent Index 分级系统完全拆解
摘要MIT AI Agent Index用L1-L5五级框架定义AI Agent自治水平但工程团队常把模型能力、工具数量与自主性混为一谈。测试报告跑了三天Pass Rate 98.7%延迟 P99 压到了 400 毫秒以内——数据漂亮到可以给投资人做 PPT。但产品经理问了一句「它到底是 L3 还是 L4」整个团队沉默了半分钟。这不是 KPI 汇报翻车这是一个真实的工程评估真空大家以为把工具接上去、让模型做决策就算 Agent 了却没有一套共同语言来定义什么叫「自主」什么叫「自动化」。MIT AI Agent Index 给出的答案是一套 L1 到 L5 的五级自治框架。和很多「能力等级表」不一样的是这套框架的核心逻辑不是「你的模型有多强」而是「你的系统在做决策时需要多频繁地回头找人类确认」——换句话说它量化的不是智力而是自主边界。L1 到 L5MIT AI Agent Index 的五级自治框架分级的核心逻辑不是能力堆叠是自主决策边界大多数团队在做 Agent 评估时习惯性地把「接了多少个工具」「上下文窗口有多大」「有没有 RAG」这些技术参数当成分级标准。但 MIT 这套框架的出发点完全不同它问的不是「Agent 能做什么」而是「当 Agent 在做的时候谁在为最终结果负责」。L1 到 L5 的每一级对应的是人类介入频率从「全程陪同」到「完全放手」的一个区间。这意味着一个接了 50 个工具、上下文窗口 200K 的 L2 系统在自治水平上并不比一个只有 3 个工具的 L3 系统更「高级」——前者只是在执行更复杂的工具编排而后者在真正做规划决策。这个区分在工程上是有代价的L3 以上的系统需要处理「我这一步做错了怎么回滚」和「下一步有好几条路我选哪条」这类问题而 L2 系统不需要。L0–L1工具执行与规则响应L0 是没有 Agent 的基线纯规则引擎或者脚本收到固定输入执行固定动作没有学习没有推理。Chatbot 里常见的「关键词匹配回复」就落在这个区间。L1 是最基础的 Agent 形态系统能够根据用户意图调用预定义的工具或 API完成单一目标后返回结果。这时候模型充当的是「意图解析 工具路由」的胶水层但它不会规划下一步要做什么也不会因为结果不好而调整策略。典型的 L1 系统一个查询天气的 Bot用户说「上海今天多少度」模型调用天气 API返回结果结束。这个流程里没有「如果 API 失败了怎么办」的分支处理也没有「用户可能还想知道明天」的后续推理。调 API 返回数据这不叫 Agent叫会说话的脚本L2记忆与推理增强L2 开始引入上下文记忆模型能够在前几轮对话的上下文里做推理不再是「一锤子买卖」。用户说「帮我查一下上海天气」然后说「如果下雨我就不出门了」L2 系统能够理解第二句依赖第一句的结果并据此调整回复策略。但 L2 的核心限制在于它仍然是被动的——用户给一个任务Agent 完成这个任务不会主动拆解目标、不会主动规划步骤、也不会在执行过程中自我反思「我这样做对不对」。代码生成场景里的 L2 典型形态用户描述一个函数需求模型生成代码。但如果第一次生成的代码有 bug用户说「跑不过报错了」L2 系统能根据错误信息修正——这已经是上下文增强的价值但它仍然是在用户推动下往前走不会自己先去跑测试再交代码。L3自主规划与反思L3 是大多数工程团队追求的「真正 Agent」的起点系统能够把一个高层目标拆解成多个子步骤自己决定执行顺序在每一步执行完后评估结果并据此调整后续计划。MIT 框架里的 L3 有一个关键特征Agent 具备「反思」能力——不是模型本身在「思考」而是系统设计里包含了结果验证环节。当某一步的结果不符合预期时Agent 能够回退并尝试替代方案。举一个直观的例子用户说「帮我把这个 PRD 转成一个可运行的 React 组件」。L3 Agent 会先理解需求然后拆解成「提取功能点 → 设计组件结构 → 生成代码 → 自测 → 如有报错则修正」这个闭环而不需要用户一步步喂指令。L3 自动修了 bug结果修出了三个新 bugL4跨任务泛化与持续学习L4 的关键词是「跨任务」和「持续学习」。L3 系统在一个封闭任务域里可以自主规划和反思但如果换了一个它没见过的任务类型L3 可能就直接卡住或者乱来。L4 系统不一样它能够从已完成的多个任务中提取模式并把这种能力迁移到新的任务场景里。持续学习在这里不是说模型权重在运行时更新——那是模型训练的事。L4 的持续学习指的是 Agent 能够维护一个任务执行经验的记忆库并在新任务中主动检索类似经验来指导决策。Google 发布的 Agent Development Kit 里提到的 AutoGen 项目就尝试在多 Agent 协作场景里实现某种程度的跨任务泛化不同 Agent 在各自擅长的子任务上执行同时通过消息协议共享中间结果形成一种松耦合但有目标的协作网络。L5个性与多 Agent 协作L5 目前在 MIT 的框架里更接近一个研究方向而非工程现实。它的定义是Agent 能够展现出稳定的「个性」特征能够主动发起协作请求能够在没有任何人类指令的情况下基于长期目标驱动行动。Kimi K2.5 发布的 Agent Swarm 模式算是向 L5 靠拢的一个工程尝试一个主 Agent 能够动态生成最多 100 个子 Agent让它们并行执行各自的专业任务最后聚合结果。这已经不是单 Agent 的能力边界问题而是「一个调度者如何管理一个 Agent 集群」的系统设计问题。需要明确的是L5 不是「哪个模型更聪明」的问题它是「这套系统架构能不能支撑真正的多 Agent 自主协作」的问题。在 2026 年这个时间点绝大多数生产环境里的 Agent 系统还停在 L2 到 L3 之间L4 的案例以研究原型为主L5 基本上是论文里的定义。看完 L5 定义感觉自己在写的是 L2 的 CRUD六个评估维度拆解MIT AI Agent Index 的 L1–L5 框架要落地不能只靠「感觉它挺自主的」。MIT 把每个等级的认定拆成了六个可量化的评估维度团队可以针对每个维度打分再综合判断落在哪一级。这一把终于像样了这六个维度不是随意选的——它们对应的是工程团队在实际交付中最容易扯皮的六个问题任务谁来拆、工具谁来选、环境谁来管、卡住了谁来救、出事了谁负责、决策过程谁能看懂。下面逐一拆解每个维度的操作化定义。任务复杂度这个维度评估的是 Agent 需要处理的目标的开放程度而不是模型本身的推理能力。封闭型任务低复杂度输入格式固定、输出期望明确、异常分支可枚举。比如「查询天气并返回温度」或者「把 CSV 转成 JSON」——这类任务人类可以在 5 分钟内写完规格说明Agent 的价值主要是省重复劳动。半开放型任务中复杂度输入有一定结构但边界模糊需要 Agent 做判断才能继续。比如「帮我分析这个 PRD 的技术可行性」——PRD 的格式可能不规范Agent 需要先理解内容再推断哪些技术方案可行。开放型任务高复杂度目标本身是模糊的执行路径无法枚举结果质量没有唯一正确答案。比如「帮我把这套微服务从 Monolithic 拆成事件驱动架构」——这是一个涉及架构决策、技术选型、迁移路径规划的系统工程L4 以下的 Agent 基本上只能在子步骤里提供辅助而不是主导整个过程。任务复杂度和 LLM 的推理能力是两回事。一个再强大的模型如果被设计成每次只处理一个工具调用那它仍然是 L1/L2 的系统只是在一个复杂任务上做单步执行。工具使用深度这个维度评估 Agent 对工具的使用方式不是有多少个工具而是怎么用它们。L1 的工具使用是「路由式」用户说「查一下北京天气」Agent 调用天气 API返回结果。工具是预设的调用方式是固定的Agent 的作用是自然语言到 API 参数的映射。L2 的工具使用是「链式」Agent 能够根据前一步的结果决定下一步调用哪个工具形成简单的 if-then 链。比如先查天气再查交通再综合两个结果给出行建议。但这条链是预设好的不是动态规划的。L3 的工具使用是「规划式」给定一个高层目标Agent 动态决定需要调用哪些工具、以什么顺序调用、每个工具的参数怎么构造。工具的选择本身成为推理的一部分而不是预设好的路由表。L4 及以上则要求 Agent 能够发现和使用它从未见过的工具——给它一个新的 API 文档它能够自主理解其能力边界并将其纳入现有的任务执行计划里。这里有一个常见的工程误区团队觉得接了 50 个工具的 Agent 一定比只接了 5 个的更「高级」。但如果这 50 个工具都是预设路由式的调用那它仍然是 L1/L2 的工具使用深度只是在数量上做了堆积。环境交互频率这个维度关注 Agent 与外部环境的交互频次和信息交换深度。环境不一定是「物理世界」在软件工程语境下更多指的是代码库、数据库、CI/CD 系统、监控平台这些数字环境。低频交互Agent 执行过程中几乎不与外部环境交换信息。输入是一次性给定的输出是一次性返回的执行过程是黑盒的。这类系统在测试时可以完全靠离线数据集验证不需要沙盒环境。中频交互Agent 在执行过程中需要读取环境状态来调整下一步行动。比如代码生成的 Agent 需要先拉取代码仓库的当前状态再决定怎么改或者需要读取测试运行结果来判断代码是否可用。高频交互与闭环反馈Agent 在一个持续运行的循环里与环境不断交换信息。比如一个自动化调度的 Agent它需要持续监控任务队列的状态接收新任务更新执行结果重新评估优先级。这已经不是一个「请求-响应」的范式而是一个长期运行的自主进程。环境交互频率直接决定了系统的运维复杂度高频交互的 Agent 需要完整的日志记录、状态持久化和故障恢复机制而低频交互的系统可以更轻量。人工介入必要性这是 MIT 框架的核心维度系统在做决策时多大程度上必须回头找人类确认。强介入几乎每步都要每一轮工具调用都需要人类批准才能执行。这本质上是一个带 AI 辅助的审批流而不是真正的 Agent。好处是安全边界清晰坏处是省不了多少人力。条件介入特定阈值触发系统在正常流程里自主执行但当某个指标超过阈值时——比如风险评分 0.7或者涉及金额超过 10 万——自动暂停等待人类确认。这比全程介入灵活得多但阈值的设定本身就是一个需要反复校准的工程问题。弱介入结果交付前一次性确认Agent 自主完成整个任务链路在最终结果交付前做一次人工审核。这个模式对 L3 以上系统最常见核心挑战是如何让人工审核有足够的上下文来判断结果是否正确——而不是让审核变成盲目点「通过」。零介入可审计的完全自主系统在定义好的范围内完全自主运行定期输出可审计的操作日志供事后复盘不要求实时人工参与。这不代表系统可以不受监督而是把监督机制从「实时介入」改成了「审计回放」。人工介入必要性不是一个固定值它会随着任务类型和执行阶段动态变化。一个 L3 系统可以在常规子任务上零介入但在涉及安全边界的步骤上触发强介入。安全边界与失败处理这个维度评估的是 Agent 在遇到异常状况时的行为模式而不是「它会不会出错」——任何系统都会出错关键是出错之后怎么办。L1/L2 系统的失败处理通常是确定性的某个 API 超时了就重试一次格式不对就返回错误信息。这套机制可以写得非常完整但它是预设的不具备推理能力。L3 及以上的系统需要处理的是「非预设失败」Agent 走到了一个它的工具库里没有对应解法的状态或者它的规划路径被一个意外的环境变化打断了。这时候系统需要能够识别自己正在一个未知的困境里并做出「寻求帮助」而非「硬撞墙」的决策。安全边界在这里有两层含义一是系统不会执行超出权限的操作比如删库、改生产配置二是系统不会在不确定的状态下继续推进而是主动暴露不确定性。Google Antigravity 在其 AI IDE 的核心原则里提到了「Trust」这一设计理念Agent 的工作要给用户提供足够的上下文和验证结果让用户能够理解 Agent 做了什么、为什么做、结果是否可信[1]。这本质上是把安全边界从「Agent 不能做什么」扩展成了「Agent 要能说清楚自己做了什么」。透明度与可审计性这个维度是六个维度里最容易被工程团队忽视的但它恰恰是 Agent 系统能否进入生产环境的关键门槛。不透明的系统Agent 的决策过程不可追溯。用户得到一个结果但无法知道 Agent 是怎么得出这个结论的用了哪些工具绕过了哪些选项放弃了哪些替代方案。可部分追溯的系统系统保留了完整的工具调用记录和推理轨迹用户可以看到 Agent 在哪一步做了什么调用但无法理解推理过程的内在逻辑。完全可审计的系统Agent 的决策链路有完整的记录包括每一步的环境状态、工具参数、返回结果以及 Agent 对每一步结果的评估。审计日志不只是技术日志还包含业务语义——比如「Agent 选择方案 A 而非方案 B是因为方案 A 的预期成本低 23%」。可审计性在监管敏感场景金融、医疗、法律里不是加分项而是准入条件。但即便在普通的企业软件场景里审计日志也是调试和优化 Agent 行为的第一手资料——一个没有轨迹记录的 Agent出了问题你只能靠猜。实战评估给你的 Agent 画一张分级雷达图六个维度拆完了现在的问题是工程师在实际项目里怎么用这套框架MIT 官方没有提供一个标准化的评分卡但这不妨碍我们把它工程化。最直接的方法是把六个维度画成一张雷达图给自己的 Agent 打个分。自评检查清单可操作版本在做雷达图之前先用下面这个清单过一遍。每个维度回答三个问题它现在落在哪个区间它应该落在哪个区间差距在哪里任务复杂度你的 Agent 是在处理固定格式的单步任务还是需要在模糊目标下做多步推理用户下达指令时需要给多少上下文它才能开始工作工具使用深度Agent 是从预设列表里选工具还是自己判断需要哪些工具、怎么组合它们如果给它一个它没见过的 API它能在不重新开发的情况下自己学会调用吗环境交互频率Agent 运行时需要读取哪些外部状态它和 CI/CD 系统、代码仓库、数据库的交互是单向的还是闭环的这些交互有没有被完整记录人工介入必要性现在系统运行一次用户平均需要介入多少次介入点是预设的还是 Agent 自己触发的每次介入时用户是否有足够上下文做出判断安全边界与失败处理Agent 在遇到未预设的错误时会怎么办是静默失败、重试几次后放弃还是主动暴露问题等待人工处理有没有出现过 Agent 跳过安全检查直接执行的情况透明度与可审计性出了问题你能回溯到 Agent 的哪一步出了问题吗审计日志里有足够的业务语义还是只有技术调用记录这个清单不是为了打分好看而是为了找出「当前系统状态」和「目标分级」之间的工程 gap。每个 gap 背后都对应一个具体的开发任务。分级决策树把六个维度的评估结果综合成最终分级最直接的方式是一棵决策树Agent 分级决策树决策树里的关键分叉点在于「失败后能否识别未知困境」——这是 L2 和 L3 之间最硬的工程边界。决策树在实际使用时会遇到一个麻烦六个维度不是均衡的不同业务场景对不同维度的权重差异很大。比如一个金融风控 Agent环境交互频率可能权重极高而透明度几乎等同于合规性但一个内部工具类 Agent安全边界的权重就会相对降低而任务复杂度才是核心。所以雷达图的价值在于可视化把六个维度的当前得分和目标得分同时画在一张图上两个图形的差距也就是「Gap」一目了然。常见误判案例工具数量 ≠ 自治水平在分级评估里出现频率最高的误判是把「工具数量多」当成「自治水平高」。举一个具体的工程场景一个接了 40 个内部工具的代码审查 Agent可以自动审查 PR、做安全扫描、查测试覆盖率、生成变更摘要。从工具数量看这个系统相当「豪华」。但它的实际工作流是用户把 PR URL 发给 AgentAgent 按照预设顺序调用这 40 个工具每次调用完记录结果最后把结果汇总输出。这个系统是 L1/L2 的。它的「自主性」体现在一次调用完成了原来需要 40 次人工操作的串行工作但每一步的决策逻辑是预设的Agent 没有能力判断这 40 个工具里哪些是真正必要的也没有能力在某个工具返回意外结果时动态调整后续策略。真正让这个系统接近 L3 的标志是Agent 能够根据 PR 的内容动态判断需要调用哪些工具——一个纯配置变更的 PR 不需要跑端到端测试一个安全敏感的变更会自动触发额外的安全扫描而且这些策略不需要人工预设是 Agent 从历史审查记录里学到的。另一种常见误判是把「模型变强了」当成「系统自治水平提升了」。LLM 的能力升级更强的推理、更长的上下文可以让一个 L2 系统把事情做得更好但它不会自动把系统变成 L3。自治水平是系统设计属性不是模型能力属性。区分这两者的一个实操测试如果把模型换成一个小一个量级但 API 接口完全相同的版本系统还能在相同成功率下完成任务吗能就是自治水平高不能说明系统的成功依赖于模型能力而不是系统设计。给老板演示 L4结果跑崩在 L1 的那个 API 超时上MIT vs Google两套分级系统能不能互操作有了六个维度的评估基础我们再来看行业里最常见的两套分级体系MIT AI Agent Index 和 Google Research 的 AGI Levels。它们在目标和维度上都有差异混用时需要小心。Google AGI Levels三轴框架performance / generality / autonomyGoogle Research 在 2023 年发布的 AGI Levels 框架采用的是一个三维评估模型Performance性能在特定任务上达到或超过人类的水平。这是大多数 benchmark 在测的维度也是媒体最愿意拿来比较的那个数字——「模型在某个测试集上超过了 95% 的人类」。Generality泛化性系统处理新任务的能力。L1 系统只能在单一任务上超过人类L5 系统在所有任务上都超过人类。大多数模型目前处于 L2–L3 的水平在训练分布内的任务上表现出色但在分布外的新任务上急剧退化。Autonomy自主性系统在不依赖人类持续监督的情况下运行的能力。这个维度和 MIT 框架最接近关注的是「系统能自主运行多久、遇到问题是否需要人类介入」。Google 框架的问题在于它是一个静态切片用某一时刻的表现来定义等级而不是用持续运行的能力边界来定义。这对于评估一个模型的能力上限是有效的但对于评估一个正在运行的 Agent 系统——它的表现会随用户输入、环境状态、执行历史动态变化——就不够精准了。arXiv 2506.12469用户角色的五级自治视角另一套值得关注的框架来自 arXiv 2506.12469《Levels of Autonomy for AI Agents》它从「用户在 AI Agent 系统中的角色」这个视角重新定义了五级自治[2]L1用户主导AI 辅助执行等同于「带 AI 的工作流」 L2AI 主导用户批准关键决策 L3AI 主导用户在边界内定期审核 L4AI 主导用户仅在边界外介入 L5AI 完全自主用户不参与这套框架的优势在于它的可操作性强——每一级都可以直接对应到 UI 设计里的「审批按钮放在哪里」和「日志记录要求是什么」。但它的局限性也和 MIT 框架一样如果不结合具体任务类型单看「用户介入频率」并不能区分一个 L3 Agent 和一个 L2 Agent因为两者的用户介入频率可能完全相同但背后的实现机制完全不同。混用陷阱与对齐建议在实际项目里很多团队会同时参考 MIT、Google 和其他来源的分级体系然后混在一起用。这没问题但必须清楚每套框架在评估什么否则就会出现「MIT 框架下是 L3Google 框架下是 L2」这种让人困惑的结论——其实不是矛盾是两套框架在测不同的东西。对齐建议先用 MIT 的六维度模型做内部评估得到一个基于系统设计的自治水平判断再用 Google 的 performance/generality 框架评估模型本身的能力上限最后用 arXiv 2506.12469 的用户角色框架来定义产品交互层面的期望[2]。三者的结论可以共存不需要强行对齐成同一个数字。风险、边界与最佳实践来源时效性MIT Index 仍在活跃更新MIT AI Agent Index 在 2026 年这个时间点仍然是一个活跃更新的项目分级标准的细节可能随新的研究发布而调整。工程团队在引用 MIT 框架做技术决策时需要关注官方页面的最新版本而不是依赖某一次快照[1]1。在实际操作里这意味着不要把 L1–L5 的某个具体定义当成不可更改的公理。如果你的系统恰好落在某个定义的灰色地带那不是你的系统有问题而是框架本身还在演进。这也是为什么在「写给工程师的判断总结」里我特别强调「跑出来的结果」比「架构图上的声明」更可靠——框架在变但 Agent 系统在实际任务里的表现是相对稳定的锚点。Google AGI Levels追原始 PDF 还是看社区总结Google AGI Levels 最早发布时有大量社区文章做了二次解读和中文翻译。有些翻译质量不错但有些为了传播效果做了过度简化甚至出现了把「Generality 维度上的 L3」和「Autonomy 维度上的 L3」混淆的情况[4]。工程评估的严谨做法是追踪原始 PDF 或官方 Google Research 博客[5]把社区总结当作索引而不是最终答案。如果你在做一个需要向技术委员会或合规团队汇报的分级评估用二手来源是风险极高的——一旦有人追问「你这套 L3 的定义出处是哪一页」你拿不出原始来源就很被动了。一个实操建议把每次分级的依据文档化注明引用的框架版本和定义段落这样即便框架本身更新了你的评估结论也有迹可循。分级过度简化的系统性风险分级本身是一个有用的抽象但如果团队把分级当成 KPI 来追求就会产生扭曲激励。第一种扭曲L2 的系统硬凹成 L3——结果是系统被部署到它无法处理的场景里故障率上升用户失去信任而且没有人知道问题出在分级上。这不是假设GitHub 上大量开源 Agent 框架的 issue 里都能看到类似的反馈明明是 L2 水平的系统被文档描述成了 L3等到上线跑出问题团队才意识到是分级评估出了问题[6]。第二种扭曲分级高而工具使用深度低——系统有 L3 的自主决策能力但没有 L3 的工具生态支撑结果是 Agent 做了很多「聪明的决定」但这些决定在工程层面无法落地。防范这种风险的办法是把「目标分级」和「当前实现」分开追踪而不是混在一起说「我们要做一个 L3 系统」。正确的问题是「我们的工具生态能支撑 L3 的规划决策吗」「我们的人工审核流程能在 L3 的速度下有效工作吗」「系统失败时有没有明确的回退路径」这三个问题的答案比「我们要做 L3」这句话要有用得多。需求写着 L3 自治交付的时候发现工具文档只有两页不同业务场景的分级策略差异不是所有业务场景都需要追求高自治水平。客服场景的合适定位是 L2–L3。L3 的自主规划能力可以让 Agent 更自然地处理多轮对话但 L4 的持续学习能力在这个场景里可能没有必要——而且频繁学习更新的模型在客服场景里会引入一致性风险同一个问题上午和下午的回答逻辑可能不一致这在客服质检里是严重问题。CI/CD 场景更适合 L2。代码审查和自动化测试的 Agent 输入输出相对结构化自主规划的价值有限但每次执行的可靠性和一致性是核心——一个审查结果每次跑出来都不一样比一次审查没通过更麻烦。代码生成场景是 L3/L4 最值得投入的地方。这个判断来自具体数据Google Antigravity 的 AI IDE 在 SWE-bench Verified 测试集上达到了 76.2% 的解决率[5]Kimi K2.5 在同基准上通过 Agent Swarm 模式将端到端耗时降低了 80%[3]。任务边界明确修一个 GitHub Issue、成功标准清晰测试通过、CI 绿、失败代价可控最多打回重做——这三个条件让代码生成成为目前 L3/L4 投入产出比最清晰的场景。选对场景比追求高级更重要。一个 L2 的客服 Bot 如果能稳定运行、用户满意度高它的工程价值远超一个花了三个月搭起来、但每月都要修一次规划 bug 的 L4 代码生成 Agent。写给工程师的判断总结回到开头的那个场景测试报告 Pass Rate 98.7%PM 问「它到底是 L3 还是 L4」。现在你应该有了一个明确的判断路径先不要看模型能力先看系统设计——工具使用是路由还是规划失败处理是预设还是自发现人工介入是实时还是审计级别这三个问题的答案基本上能把你钉在 L2/L3 的分界线上。L4 及以上的判断需要更严格的证据有没有跨任务泛化的实际案例持续学习的记忆库有没有真实数据这些不是靠架构图能证明的需要跑出来的结果。一个开放问题留给你你现在的 Agent 系统在哪一级你是怎么判断的——还是根本没有判断过欢迎在评论区说说你的场景和判断依据。终于有人把分级这事说成人话了参考文献autogen -(How to fix) Fix 多Agent系统AI…延伸入口原文归档https://tobemagic.github.io/ai-magician-blog/posts/2026/05/13/ai-agent-工程-能力分级从-l1-到-l5mit-ai-agent-index-分级系统完全拆解/公众号计算机魔术师