龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

张

张建站

2026/6/24 14:23:35

10分钟阅读

Avenir-Web 团队投稿量子位 | 公众号 QbitAIAI冲浪不丝滑伦敦大学学院UCL、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web让现有多模态模型像人类一样使用网页。现有的Web Agent在面对复杂的网页结构如 iframe、Shadow DOM时往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。特别是在长程任务Long-horizon tasks中由于缺乏对特定网站操作流程的认知Agent往往只能盲目探索导致任务成功率低下。Avenir-Web是一个不需要额外训练的新模型本质上是一套开源的Agent Harness也就是一个training-free的框架在ONLINE-MIND2WEB上取得53.7%的成功率刷新最强开源纪录。Web Agent 的三大难题研究团队指出目前Web Agent在实际部署中面临三个核心瓶颈元素定位不准Inaccurate Grounding过度依赖DOM树在处理非标准结构如 Canvas、嵌套 iframe时极易失效。缺乏特定站点的流程知识Site-specific Procedural KnowledgeAgent不懂得参考“用户手册”或“攻略”只能乱撞。长程任务跟踪与记忆力不稳定Unstable Memory跨页面操作时容易产生“导航漂移”陷入重复错误的循环。针对这些痛点Avenir-Web提出了一套模块化的Agent Harness框架。由于它是Harness而不是需要重新训练的模型因此整个方案天然具备training-free的部署优势。Avenir-Web 的 Agent Harness 核心设计经验模仿规划Experience-Imitation Planning, EIP人类在操作复杂网站时往往会先搜一下攻略。EIP模块模仿了这一行为在任务开始前它会利用大模型的在线搜索能力检索目标网站的帮助中心、论坛或指南并将这些信息转化为高层级的策略路线图。这种“先读攻略再上手”的方法大幅减少了Agent的盲目探索时间也规避了不可逆的导航错误。混合定位专家Mixture of Grounding Experts, MoGEMoGE采用“视觉优先”的原则。它将整个网页视为一张统一的视觉画布直接基于坐标进行交互。这种方式天然地解决了让DOM派 Agent头疼的嵌套iframe问题。当视觉信息不足时MoGE会触发语义结构推理作为兜底方案。这种“视觉坐标语义兜底”的混合策略使得Agent在处理各种UI范式时都具备极强的鲁棒性。任务跟踪清单Task-Tracking Checklist为了防止Agent “跑偏”研究团队引入了结构化的任务清单。它将复杂指令分解为2-6个可验证的原子里程碑Milestones并在每一步操作后利用轻量级模型如 Qwen-3-VL-8B实时更新状态Pending、In Progress、Completed、Failed。自适应记忆Adaptive Memory针对上下文过长导致的幻觉问题Avenir-Web采用了分块递归摘要Chunked Recursive Summarization机制。它维持一个大小为的滑动窗口将历史操作提炼为抽象的记忆状态并专门设置了“失败反思缓冲区”Failure Reflection Buffer确保Agent能从过去的错误中吸取教训。实验结果研究团队在ONLINE-MIND2WEB这一包含136个真实网站、300个实时任务的严苛基准上进行了测试。Avenir-Web以Gemini 3 Pro为内核取得了53.7%的成功率相比之前的开源标杆SeeAct30.0%提升了整整23.7%。而且Avenir-Web的表现超越了闭源Claude Computer Use 3.747.3%和ACT-152.7%开始逼近OpenAI Operator58.3%等顶级商业Agent的水平。即使使用完全开源且轻量的Qwen-3-VL-8B作为内核Avenir-Web依然取得了25.7%的成功率已经逼近Browser Use26.0%与Agent-E27.0%等早期基于GPT-4o的重型Agent。这也说明作为一套无需额外训练即可接入现有模型的开源Agent HarnessAvenir-Web在轻量模型上同样具备可观的实战价值。消融实验谁才是关键研究人员通过消融实验验证了各模块的贡献度。结果显示去除EIP经验模仿后成功率从48.0%直接降至36.0%暴跌12.0%证明了外部知识对Web任务的至关重要性。去除MoGE混合定位后成功率会从48.0%降至40.0%去除自适应记忆后成功率则会进一步降至42.0%甚至36.0%说明定位与记忆模块都不可或缺。特别是对于长程任务递归摘要机制有效避免了上下文溢出带来的决策混乱。研究团队表示Avenir-Web为通向具备人类级可靠性的通用数字助理迈出了坚实的一步。目前该项目已开源开发者无需训练新模型就可以把这套Agent Harness用于自动化、软件测试及智能助手等场景的进一步探索。论文链接https://arxiv.org/abs/2602.02468代码链接https://github.com/Princeton-AI2-Lab/Avenir-Web

思源黑体TTF：免费开源的多语言字体构建工具完全指南

思源黑体TTF：免费开源的多语言字体构建工具完全指南【免费下载链接】source-han-sans-ttf A (hinted!) version of Source Han Sans 项目地址: https://gitcode.com/gh_mirrors/so/source-han-sans-ttf 你是否在为多语言项目寻找一款既专业又免费的字体&…...

2026/6/17 20:05:39 阅读更多 →

GPT-5.5大模型深度应用指南：从架构原理到工业级智能体开发实践

目录1. 模型核心架构与技术突破点1.1 混合注意力机制1.2 专家混合路由升级2. 环境准备与合法访问配置2.1 获取合法访问凭证2.2 本地环境搭建2.3 使用国内合规镜像站3. 基础调用方法与核心参数设置3.1 基础调用示例3.2 核心参数详解3.3 流式输出4. 复杂逻辑推理能力实测4.1 思维…...

2026/6/23 14:20:08 阅读更多 →

别再傻傻分不清！CANoe仿真中DLC和DataLength到底怎么设？(附CAN-FD映射表避坑)

CANoe仿真中DLC与DataLength的深度解析与实战指南在车载网络测试领域，CANoe作为行业标准工具，其报文配置的精确性直接关系到测试结果的有效性。许多工程师在使用过程中，对DLC（Data Length Code）和DataLength这两个关键…...

2026/6/24 2:20:38 阅读更多 →

终极网盘直链下载指南：八大平台高速下载完全解决方案

终极网盘直链下载指南：八大平台高速下载完全解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/6/22 11:26:33 阅读更多 →

抖音无水印下载终极指南：专业级开源工具完全解析

抖音无水印下载终极指南：专业级开源工具完全解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

2026/6/24 12:43:56 阅读更多 →

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版资料全科都有考研英语黄皮书 PDFhttps://tool.nineya.com/s/1jpq3effr 【英语真题】1. The word "resilient" means（ ） A. able to recover quickly B. very fragile C…...

2026/6/22 16:15:36 阅读更多 →

中兴光猫权限解锁工具：zteOnu完整使用指南与教程

中兴光猫权限解锁工具：zteOnu完整使用指南与教程【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫权限解锁工具zteOnu是一款专门用于开启中兴光猫设备工厂模式的强大…...

2026/6/24 12:44:02 阅读更多 →