Avenir-Web 团队 投稿量子位 | 公众号 QbitAIAI冲浪不丝滑伦敦大学学院UCL、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web让现有多模态模型像人类一样使用网页。现有的Web Agent在面对复杂的网页结构如 iframe、Shadow DOM时往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。特别是在长程任务Long-horizon tasks中由于缺乏对特定网站操作流程的认知Agent往往只能盲目探索导致任务成功率低下。Avenir-Web是一个不需要额外训练的新模型本质上是一套开源的Agent Harness也就是一个training-free的框架在ONLINE-MIND2WEB上取得53.7%的成功率刷新最强开源纪录。Web Agent 的三大难题研究团队指出目前Web Agent在实际部署中面临三个核心瓶颈元素定位不准Inaccurate Grounding过度依赖DOM树在处理非标准结构如 Canvas、嵌套 iframe时极易失效。缺乏特定站点的流程知识Site-specific Procedural KnowledgeAgent不懂得参考“用户手册”或“攻略”只能乱撞。长程任务跟踪与记忆力不稳定Unstable Memory跨页面操作时容易产生“导航漂移”陷入重复错误的循环。针对这些痛点Avenir-Web提出了一套模块化的Agent Harness框架。由于它是Harness而不是需要重新训练的模型因此整个方案天然具备training-free的部署优势。Avenir-Web 的 Agent Harness 核心设计经验模仿规划Experience-Imitation Planning, EIP人类在操作复杂网站时往往会先搜一下攻略。EIP模块模仿了这一行为在任务开始前它会利用大模型的在线搜索能力检索目标网站的帮助中心、论坛或指南并将这些信息转化为高层级的策略路线图。这种“先读攻略再上手”的方法大幅减少了Agent的盲目探索时间也规避了不可逆的导航错误。混合定位专家Mixture of Grounding Experts, MoGEMoGE采用“视觉优先”的原则。它将整个网页视为一张统一的视觉画布直接基于坐标进行交互。这种方式天然地解决了让DOM派 Agent头疼的嵌套iframe问题。当视觉信息不足时MoGE会触发语义结构推理作为兜底方案。这种“视觉坐标语义兜底”的混合策略使得Agent在处理各种UI范式时都具备极强的鲁棒性。任务跟踪清单Task-Tracking Checklist为了防止Agent “跑偏”研究团队引入了结构化的任务清单。它将复杂指令分解为2-6个可验证的原子里程碑Milestones并在每一步操作后利用轻量级模型如 Qwen-3-VL-8B实时更新状态Pending、In Progress、Completed、Failed。自适应记忆Adaptive Memory针对上下文过长导致的幻觉问题Avenir-Web采用了分块递归摘要Chunked Recursive Summarization机制。它维持一个大小为 的滑动窗口将历史操作提炼为抽象的记忆状态并专门设置了“失败反思缓冲区”Failure Reflection Buffer确保Agent能从过去的错误中吸取教训。实验结果研究团队在ONLINE-MIND2WEB这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。Avenir-Web以Gemini 3 Pro为内核取得了53.7%的成功率相比之前的开源标杆SeeAct30.0%提升了整整23.7%。而且Avenir-Web的表现超越了闭源Claude Computer Use 3.747.3%和ACT-152.7%开始逼近OpenAI Operator58.3%等顶级商业Agent的水平。即使使用完全开源且轻量的Qwen-3-VL-8B作为内核Avenir-Web依然取得了25.7%的成功率已经逼近Browser Use26.0%与Agent-E27.0%等早期基于GPT-4o的重型Agent。这也说明作为一套无需额外训练即可接入现有模型的开源Agent HarnessAvenir-Web在轻量模型上同样具备可观的实战价值。消融实验谁才是关键研究人员通过消融实验验证了各模块的贡献度。结果显示去除EIP经验模仿后成功率从48.0%直接降至36.0%暴跌12.0%证明了外部知识对Web任务的至关重要性。去除MoGE混合定位后成功率会从48.0%降至40.0%去除自适应记忆后成功率则会进一步降至42.0%甚至36.0%说明定位与记忆模块都不可或缺。特别是对于长程任务递归摘要机制有效避免了上下文溢出带来的决策混乱。研究团队表示Avenir-Web为通向具备人类级可靠性的通用数字助理迈出了坚实的一步。目前该项目已开源开发者无需训练新模型就可以把这套Agent Harness用于自动化、软件测试及智能助手等场景的进一步探索。论文链接https://arxiv.org/abs/2602.02468代码链接https://github.com/Princeton-AI2-Lab/Avenir-Web