和 Harness 工程一样Agent Infra 也是一个时常被从业者反复提起的 Buzzword。但关于 Agent Infra 应该包含什么大家在实践中还没有绝对的共识。今天2026 阿里云云峰会上阿里云智能首席技术官李飞飞分享了阿里云的 Agent Infra 长什么样包括六大基础设施能力包括 Agent 运行时、Agent 编排、Agent 治理、Agent 记忆、Agent 数据平面和 Agent 安全以应对 Agent 的六大挑战包括 Agent 无规律突发负载、Agent 大规模动态编排、Agent 短生命周期、Agent 数据模态和存储形式复杂、Agent 动态环境依赖、Agent 任务级安全可控。在 Agent Native 基础设施分论坛上阿里云智能云原生应用平台产品负责人李国强分享了团队在 Agent 工程化领域的完整思考与产品实践从构建、部署到规模化运行如何用一套 Agent Infra 覆盖智能体的开发-运行-治理-运维-优化全周期。以下是本次分享的核心内容。01企业构建 Agent 时的五大痛点当前企业投产 Agent 的热情空前高涨。Gartner 预测70% 的企业将在 2026 年底在生产环境运行 AI Agents40% 企业应用将嵌入 Agents 以获得新的业务增长而 2025 年初这一比例还不到 5%。但“大炼钢”似的加速落地过程中工程化的挑战开始进入真正的深水区。第一智能体架构依赖多如何快速构建部署。开发框架多、依赖多运行环境对隔离性和弹性要求极高。从本地 IDE 到生产上线中间要穿越沙箱、运行时、模型接入、凭证管理等多层链路。环节一多落地周期就被拉长。第二多智能体如何治理与协作。多智能体已经成为企业落地的趋势。但多个 Agent 各自为政、通信黑盒如何进行统一的治理及管控如何让人和 Agent、Agent 和 Agent 高效协同而非各自为战第三如何洞察运行状态做到成本可控。Agent 弹性高、依赖多、调用链长。一旦 Token 消耗失控成本便成“黑洞”。企业需要从运维和运营双重视角实时掌握 Agent 的运行态势。第四效果评估难不知道如何持续优化。Agent 效果是关键生命线但运行过程是黑盒传统的测试手段难以胜任。如何建立评估体系并驱动 Agent 自主进化是摆在所有团队面前的课题。第五复杂架构下运维问题发现慢、修复难。智能体进一步增加了系统的复杂性传统 SRE 方式已力有不逮。需要用智能化手段来保障新兴智能业务的连续性。这五大痛点分别指向 Agent 生命周期的不同阶段。而阿里云给出的回答是一套完整的 Agent Infra 产品矩阵。02Agent Infra 产品全景五大平台覆盖全周期阿里云 Agent Infra 的设计逻辑是让企业“聚焦效果工程交给基础设施”。围绕 Agent 开发、运行、治理、运维、优化五个阶段五大核心产品各司其职AgentRun一站式智能体开发构建平台AgentTeams多智能体治理与协作平台AgentLoop - 可观测智能体全栈可观测AgentLoop - 评估与优化Agent 持续优化STAROps全域智能运维平台接下来我们按照 Agent 生命周期从构建到运维的顺序逐一拆解。03AgentRun以高代码为核心的一站式 Agentic AI 基础设施AgentRun 基于函数计算Function Compute是一个以高代码为核心、生态开放、灵活组装的一站式 Agentic AI 基础设施平台为企业级 Agent 提供开发、调试、部署、运维的全生命周期管理。它的核心设计理念是“高代码灵活定制 低代码快速验证”双轨并行在高代码侧AgentRun 提供完整的运行时Runtime、沙箱Sandbox、可观测Observability、Agent 评估Evaluation、记忆与知识库Context Engineering、模型接入Model Connector以及凭证与安全管理Credential等模块开发者可以根据业务需求灵活组装。在低代码侧它兼容阿里云百炼、ModelScope 等无代码/低代码平台以及 MCP 协议和 SDK实现开箱即用的快速验证能力。同时通过 AI 网关 Higress 统一接入开源模型和微调模型on PAI FC ACS打通模型推理链路。一句话概括AgentRun 是让 Agent 从“能跑”到“跑好”的工程底座。04AgentTeams让 AI Agent 组成真正的团队如果说 AgentRun 解决的是“单个 Agent 怎么构建”的问题AgentTeams 回答的则是“多个 Agent 怎么协作”的命题。这是从微服务治理向多智能体治理的产品升级。2024-2025 年是单 Agent 试用期2025-2026 年进入部门级多 Agent 试点2026-2027 年将迎来企业级大规模部署。企业面临的新问题是各部门 Agent 散落无统一管控视角、Agent 间通信黑盒人类无法有效监督、Agent 直持凭证存在安全风险、Token 消耗无监控导致成本不可控。AgentTeams 是一站式企业多智能体治理与协作平台聚焦四大核心诉求统一治理多源 Agent 纳管不绑定单一厂商、协作编排Leader-Worker人在回路、安全合规企业级 SSO 集成全链路审计、成本可控按量计费Token 监控限额。多源 Agent 统一纳管所有 Agent 通信基于 Matrix 协议实现协议级解耦。一个 Team 可以混编 OpenClaw、QwenPaw、Claude Code、自研 Agent 等异构智能体消除框架绑定。Leader-Worker 协作编排基于 Leader-Worker 架构的协同底座Leader Agent 负责意图理解、任务拆解与进度监控Worker Agent 分工执行。Human-in-the-Loop 设计确保过程 100% 可见用户像看工作群聊一样洞悉 Agent 之间的交流随时干预纠偏。IM 原生集成内置 Matrix 原生 IM同时集成钉钉、飞书、企业微信等企业主流 IM 工具。员工在熟悉的聊天窗口即可发起任务、实时监督、审批干预Agent 执行结果回传 IM像“数字同事”一样协作。Agent 资产管理AI Registry统一注册 Skill、MCP Server、Agent 和 Team 模板按 Team 分配、版本化管理、安全审核、运行态热加载。REST 到 MCP 支持零代码转换现存业务无需改造即可接入。企业级安全治理采用零信任架构Agent 不持有凭证网关集中管控。身份权限、成本计量、审计合规、数据安全四维覆盖 Agent 全生命周期满足金融、医疗、制造等行业的合规要求。全链路可观测基于 OpenTelemetry Trace 实现从用户请求到模型调用、工具执行的全链路追踪。Token 成本按 Team / Agent / 模型维度分析联合 AgentLoop 驱动 Agent 持续进化。AgentTeams 覆盖四类核心场景其一企业数字员工用户通过企业 IM 发起任务AgentTeams 按部门调度 Agent Team 执行全程审计可追溯其二Agent Team 服务化管理员创建 Team 池按角色配置业务团队通过 RBAC 按需申请接入独立配额与计费其三SaaS Agent Team 赋能SaaS 厂商为不同租户分配独立 Agent Team按权限策略控制可访问的 Skills/MCP数据与调用隔离其四存量 Agent 纳管已部署运行的异构 Agent 无需改造即可统一纳管编排资产统一沉淀复用。AgentTeams 的管理层基于开源项目 HiClaw多智能体治理与协作开源框架实现智能体内核为阿里云自研的 Agent 引擎 QwenPaw兼顾灵活性与开箱即用。AgentTeams 当前处于邀测中。05AgentLoop数据飞轮驱动 Agent 持续进化效果是 Agent 的生命线。但与传统应用不同Agent 的“好不好用”很难通过一次上线就定论它需要一套持续运转的数据飞轮来驱动进化。AgentLoop 正是为此而生的 Agent 全生命周期观测与数据飞轮平台覆盖“可观测”和“评估与优化”两大领域。▍AgentLoop - 可观测AgentLoop 可观测的设计目标是“零改造接入、全链路透视”。在接入层面AgentLoop 支持自研探针、OpenTelemetry SDK 以及 OTel eBPF 多种采集方式兼容 QwenPaw、HiClaw、Dify、Hermes-Agent、Coze、AgentScope、阿里云百炼应用、AgentRun、LangChain/LangGraph、OpenAI 等主流 Agent 框架与平台做到开箱即用、无侵入接入。在分析层面AgentLoop 提供多维度性能剖析与智能异常诊断覆盖延迟分布、调用热点和 Token 成本归因将“黑盒 Agent”变为“透明 Agent”。▍AgentLoop - 评估与优化观测是发现问题评估与优化则是解决问题。AgentLoop 构建了一套 Collect → Analyze → Evaluate → Optimize 的完整数据飞轮Collect采集无侵入捕获 Agent 全链路交互数据涵盖输入输出与每一步中间推理过程。Analyze分析对采集到的数据进行多维度性能剖析智能定位瓶颈与异常行为。Evaluate评估自动化质量评分量化 Agent 表现。支持 Agent-as-a-Judge 模式使评估更精准。Optimize优化实验驱动迭代数据支撑每一次改进。支持智能调优与自主进化包括 Prompt 优化、Skill 迭代等。AgentLoop 的评估还具备数据集持续构建与沉淀能力。可观测数据不只是“看看就完了”而是沉淀为可复用的评估数据集让每一次线上交互都成为优化 Agent 的燃料。这套飞轮让 Agent 具备真正的“持续加速”能力用得越多跑得越好。AgentLoop - 评估与优化预计 6 月发布公测。06STAROps全域智能运维平台智能体的规模化部署必然加剧系统的复杂性。当调用链跨越模型、工具、中间件和基础设施多层时传统的人工运维方式已经力不从心。STAROps 是阿里云推出的全域智能运维平台融合大模型能力与可观测数据自主完成感知、决策、执行、验证全闭环。STAROps 围绕 Sense 全域感知、Target 目标导向Autonomy 自主性、Resilience 业务韧性将运维模式从被动响应推向主动自治为企业提供 7×24 小时不间断的自主运维能力。围绕这一目标STAROps 提供了三大核心功能。第一是智能助手STAROps 将自然语言直接转化为跨域观测数据的统一查询分析结果告警分析、数据查询、指标解读、日志诊断全部在一个对话窗口内完成。第二是长期任务机制STAROps 把运维从“人盯着系统转”变成“智能体替人持续运转”只需一次目标对齐后续的巡检、告警分析、异常处置、验证全部自主执行。第三是数字员工企业可以为每个团队和业务场景构建专属的 SRE 智能体自定义职责范围、权限边界与技能集把团队积累的运维规范、处置预案和排障经验固化为可配置的“数字员工”。核心技术优势STAROps 进行全域数据统一建模以统一可观测数据为底座通过自研 UModel 将日志、指标、链路、事件、拓扑等数据统一建模构建客户系统专属运维图谱AI 分析时自动感知服务集群、依赖组件和调用关系从业务层到基础设施层全链路追溯。并支持按业务场景自定义扩展实现实时拓扑推演与故障因果自动关联。数据分析层面平台内置通用算子与可观测 AI 算子覆盖指标异常检测、日志聚类、链路分析、性能剖析、变更回溯等典型场景缩短故障根因定位与处置时间。同时通过算法轻量化与计算策略优化显著降低模型推理资源开销。此外STAROps 构建了贴近生产环境的故障仿真体系打通“故障注入 - 数据采集 - 智能诊断 - 自动修复”闭环。结合线上态势与线下仿真持续迭代分析模型与运维策略形成可评估、可回滚、可自我进化的智能运维飞轮。开源贡献伴随产品发布阿里云同步开源 UModel 统一数据模型项目与 RCA 评测基准集并联合信通院、小鹏汽车、中科院软件所等 10 逾家行业伙伴与学术机构共同发起《企业通用语义标准行业倡议》。让企业无需被单一厂商绑定可以基于公开标准灵活构建智能运维体系。UModel 为企业提供可直接复用的实体建模与语义治理标准免去从零搭建的高昂投入RCA 评测基准集覆盖 2000 余条评测数据和 700 余个运维场景为企业提供独立评估运维 AI 能力的公共标尺。07展望AI 时代效果为王回顾阿里云整套 Agent Infra 的设计哲学一个核心理念贯穿始终AI 时代效果为王。阿里云通过 Agent Infra 助力企业聚焦效果决胜智能时代的新一轮增长。AgentRun 让构建变简单AgentTeams 让协作变透明和安全AgentLoop 让效果可度量、可进化STAROps 让运维变智能形成一个有机的整体。从确定性系统到概率性智能体的范式迁移已经发生。底层基础设施不再仅仅是资源池而要成为支持智能体动态运行、持续进化的平台。当工程复杂性被基础设施消化企业释放出的每一分精力都将直接转化为业务效果的增量。相关链接[1] https://cnops.com.cn/projects/h6nsi0u0v4kronqx4r7a48dc[2] https://aiops-benchmark.oss-cn-hongkong.aliyuncs.com/rca/rca100/v1.0/README.md