WebUncertainty框架：双重不确定性驱动，提升Web智能体鲁棒性

张

张建站

2026/6/1 5:58:59

10分钟阅读

1. 项目概述当Web智能体遇上“不确定”的挑战在过去的几年里大语言模型驱动的自主Web智能体已经从实验室概念逐渐演变为能够执行“帮我订一张机票”或“找出这个商品最便宜的卖家”这类自然语言指令的实用工具。作为一名长期关注AI应用落地的从业者我见证了这些智能体从只能处理简单、静态页面到如今尝试在动态、复杂的真实网页环境中“生存”的进化历程。然而一个核心的瓶颈始终存在不确定性。想象一下你让一个智能体去电商网站帮你找一本2024年出版、评分最高的书。一个“聪明”的智能体可能会先制定一个完美的计划1搜索书籍2筛选“出版年份2024”3按评分排序。但现实是网站的侧边栏可能根本没有“出版年份”这个筛选器。计划瞬间失效。这就是任务不确定性——环境与预期不符导致预设的“剧本”无法上演。另一种情况是智能体决定走一步看一步隐式规划。它看到了当前页面上一本评分很高的书就直接点了进去却完全忽略了全局的“按评分排序”筛选功能从而错过了真正的最佳选择。这就像在迷宫里只盯着脚下最近的路却忘了看地图。同时在执行每一个点击、输入动作时大语言模型可能会因为“幻觉”而操作一个根本不存在的按钮或者在一个充满相似选项的页面上犹豫不决不知该选哪个。这就是动作不确定性——源于模型自身知识的局限性和环境固有的模糊性。WebUncertainty这个框架正是为了解决这双重不确定性而生的。它不是一个简单的“if-else”规则集合而是一个系统的、分层的决策架构。其核心思想在于将“不确定”本身作为一种信号来指导决策而不是试图消除它。通过量化任务层面的不确定性和动作层面的不确定性智能体能够像经验丰富的人类一样在“深思熟虑”和“随机应变”之间灵活切换并在决策时清楚地知道自己是“不知道”还是“看不清”。2. 核心设计思路分层解耦与不确定性驱动传统的Web智能体架构往往将规划决定要做什么和推理决定具体怎么做耦合在一起或者采用单一的、僵化的策略。WebUncertainty的创新之处在于其清晰的分层结构和以不确定性为“导航仪”的驱动逻辑。2.1 双重不确定性问题根源的精准剖析在深入框架细节前我们必须理解它要解决的两种不确定性本质这决定了后续所有技术方案的设计。任务不确定性源于智能体对环境和任务剩余部分的“陌生感”。当一个智能体首次进入一个从未见过的网站页面或者任务执行到中途遭遇了一个意外的弹窗时任务不确定性就很高。此时继续执行一个在“熟悉环境”假设下制定的长远计划是危险的。反之当智能体在一个它“遍历”过多次的页面如熟悉的登录界面执行常规操作时任务不确定性就很低此时一个清晰的、一步到位的计划反而更高效。动作不确定性则发生在更微观的决策层面。它又可以细分为两类认知不确定性源于模型知识的不足。例如模型“认为”页面上应该有一个“立即购买”按钮并生成了点击该按钮的动作但实际上这个按钮根本不存在。这是一种“幻觉”是模型不知道自己所不知道的东西。偶然不确定性源于数据或环境固有的模糊性。例如页面上有三个蓝色的、大小相似的按钮都可能是“下一步”模型无法从语义上确定哪一个才是正确的。这不是知识缺乏而是选项本身具有歧义。WebUncertainty的核心设计哲学就是在规划层用任务不确定性来决定策略的“风格”是制定详细计划还是走一步看一步在推理层用动作不确定性来指导搜索的“方向”是避免错误路径还是探索模糊选项。2.2 整体架构从分析到执行的决策流水线整个框架的工作流程可以看作一个智能的决策流水线如下图所示概念示意[用户指令] [当前网页状态] | v [任务不确定性分析模块] |—— 评估当前环境熟悉度与任务复杂度 v [自适应规划器] |—— 高不确定性 - 采用隐式规划反应式 |—— 低不确定性 - 采用显式规划前瞻式 v [当前子目标] | v [动作不确定性驱动MCTS推理] |—— 生成候选动作并计算置信度 |—— 量化认知/偶然不确定性 |—— 基于不确定性调制搜索与奖励 v [执行最优原子动作] - [更新状态] - 循环这个流程的关键在于分析和决策是每一步都在进行的而不是一次性完成的。智能体就像一个不断评估战场的指挥官根据敌情不确定性的变化随时调整战术。3. 任务不确定性驱动的自适应规划机制规划模块是智能体的“战略大脑”。WebUncertainty在这里摒弃了非此即彼的静态选择引入了一个动态的“模式切换开关”。3.1 任务不确定性分析环境与进度的“体检报告”在每一步规划之前一个独立的分析智能体会被激活。它的输入是原始的用户指令I、当前的网页观察O_t通常是DOM树或可访问性树的文本表示、以及到目前为止的执行历史H_t。它的核心任务是输出两样东西剩余任务目标当前还有哪些子目标待完成。任务不确定性分数u_plan一个介于0到1之间的标量值。这个u_plan是如何计算的呢在论文的实现中它通常通过一个提示工程精心设计的LLM调用或一个轻量级评估模型来获得。分析智能体会被要求综合评估环境陌生度当前页面结构、元素是否常见是否出现过未知的弹窗或布局任务进展异常上一步执行是否顺利当前状态是否符合预期历史轨迹复杂度是否在类似页面反复失败或徘徊基于这些因素LLM会输出一个定性的判断如“非常陌生”、“略有不确定”、“熟悉”再被映射为定量分数。高u_plan意味着“这里水很深要小心”低u_plan则意味着“轻车熟路可以加速”。实操心得在实际部署中u_plan的量化精度至关重要。我们尝试过让LLM直接输出0-1的分数但发现其校准性较差。后来改为让LLM从几个离散等级中选择如“高、中、低”再对应到预设的数值区间如高:[0.7,1.0]稳定性显著提升。此外将执行历史H_t中的最近几步失败或循环动作作为强特征输入能非常有效地提高u_plan对“陷入困境”状态的敏感性。3.2 自适应切换显式与隐式规划的动态平衡获得u_plan后规划智能体会根据一个预设的阈值δ例如0.5来决定采用哪种规划模式。模式一低不确定性下的显式规划当u_plan ≤ δ时智能体认为自己处于相对确定、熟悉的环境。此时它会启动显式规划器。这个规划器会像传统的任务分解一样一次性将剩余的全局目标分解成一个线性的子目标序列[g1, g2, ..., gn]。优点保证长期一致性避免短视行为。例如在完成一个多步骤表单填写时显式规划能确保每一步都朝着最终提交的目标前进。执行智能体并非机械地执行整个序列而是只承诺序列中的第一个子目标g_t First(sequence)给后续的推理模块。完成后再重新评估决定下一步是继续按计划走如果不确定性仍低还是切换模式。模式二高不确定性下的隐式规划当u_plan δ时环境变化莫测制定长远计划无异于刻舟求剑。此时智能体切换至隐式规划器。它不再做长远分解而是像一个反应式系统直接根据当前状态和剩余目标预测出下一个最应该执行的子目标g_t。优点极致灵活能快速适应意外情况。例如当页面突然弹出一个“优惠券提示”窗口时隐式规划能立刻将“处理弹窗”作为新子目标而不是死守原来的“填写收货地址”计划。风险容易陷入局部最优缺乏全局视野。就像前面提到的可能只看到当前页面的高分书而忘了使用全局筛选。动态切换的威力这个机制的精华在于“动态”。一个任务可能以显式规划开始例如在熟悉的亚马逊首页搜索商品但在进入一个从未见过的商品详情页高不确定性时自动切换为隐式规划用于探索页面布局和功能。当它通过几次交互熟悉了这个新页面后不确定性降低又可以切回显式规划高效地完成“加入购物车”、“进入结算”等后续标准步骤。注意事项阈值δ是一个关键超参数。设置过高智能体会过于“保守”在应该灵活应变时仍使用僵化的显式规划设置过低则会过于“跳跃”在可以高效执行计划时却进行不必要的探索。论文中的敏感性分析表明δ在0.4附近通常能取得较好平衡但这需要根据具体任务领域进行微调。一个实用的技巧是让δ成为一个随时间衰减的值在任务初期允许更多探索隐式规划在任务后期更倾向于利用显式规划。4. 动作不确定性驱动的MCTS推理机制规划模块决定了“要做什么”子目标而推理模块则要解决“具体怎么做”原子动作。WebUncertainty在这里采用了蒙特卡洛树搜索作为主干但对其进行了革命性的改造——将动作不确定性深度融入搜索的每一个环节。4.1 置信度诱导的动作不确定性量化这是整个推理模块的基石。传统MCTS在扩展新节点时通常由策略网络给出一个动作概率分布作为先验。WebUncertainty则引入了一个推理智能体它不止生成候选动作还会为每个动作附上一个置信度分数。具体过程如下候选生成给定当前状态和子目标推理智能体通常是一个LLM生成K个可能的原子动作{a1, a2, ..., aK}及其对应的置信度分数{c1, c2, ..., cK}。例如[点击(“加入购物车”), 0.85],[点击(“收藏”), 0.10],[点击(“对比”), 0.05]。计算伪概率将置信度分数归一化得到每个动作的伪概率p_i c_i / sum(c)。这反映了在模型看来各个动作的相对可能性。计算总证据平均置信度E (1/K) * sum(c)。这个值代表了模型对当前决策情境的整体把握程度。E越高说明模型总体上越“自信”。计算归一化熵H_norm - (1/logK) * sum(p_i * log p_i)。这个值衡量了候选动作之间的竞争激烈程度。如果所有概率都集中在一个动作上H_norm低说明选择明确如果概率均匀分布H_norm高说明模型自己也“很纠结”。基于以上两个指标认知不确定性和偶然不确定性被分离量化认知不确定性EU 1 - E解读如果模型整体上就不自信E低那么EU就高。这通常意味着模型遇到了知识盲区可能产生“幻觉”。例如页面上根本没有“加入购物车”按钮但模型却以中等置信度生成了这个动作。偶然不确定性AU H_norm * E解读即使模型整体很自信E高但如果候选动作概率分布很平H_norm高AU也会高。这代表了环境固有的模糊性。例如页面上有三个都标着“提交”的按钮模型很确定要点击“提交”按钮但无法确定是哪一个。这种分离是关键性的突破。它让智能体能区分“我不知道该怎么做”高EU和“我知道该怎么做但有多个看似都对的选项”高AU从而采取完全不同的后续策略。4.2 不确定性调制的MCTS四阶段MCTS包含选择、扩展、模拟、回传四个阶段。WebUncertainty在扩展和模拟阶段注入了不确定性感知。1. 选择阶段在从根节点向下遍历选择子节点时使用标准的PUCT公式但其中先验概率P(s, a)被替换为基于置信度的P_con(s, a)即归一化后的伪概率p_i。这使得搜索更倾向于探索那些模型本身就更看好的动作。2. 扩展阶段如4.1所述生成K个候选动作并计算每个动作的EU和AU。3. 模拟阶段评估这是不确定性调制的核心。传统MCTS使用随机模拟或价值网络来评估叶子节点。WebUncertainty使用一个评估智能体来对扩展出的新状态即执行某个候选动作后的预期状态进行快速评估给出一个基础可行性分数S_base例如0到10分。如果S_base很高≥ 阈值τ说明这个动作看起来很好直接接受奖励R S_base。如果S_base很低τ说明这个动作可能有问题。此时根据EU和AU的组合情况对奖励进行不同的调制EU/AU 组合状态解读奖励调制策略设计意图高EU 高AU混沌状态。模型既没把握选项又模糊。最不可靠。严厉惩罚(R -5)坚决禁止搜索在未来选择这条路径。高EU 低AU幻觉状态。模型整体没把握知识缺乏但“错误地”聚焦于某个选项。标准惩罚(R -1)鼓励搜索回溯探索父节点的其他兄弟节点换条路走。低EU 高AU模糊状态。模型有知识但环境本身存在多个合理选项。保留基础分(R S_base)鼓励搜索在当前节点下尝试其他候选动作换个选项试试。低EU 低AU确定但错误。模型很自信选了一个明确的动作但评估认为它不行。零奖励(R 0)触发智能体基于当前节点重新生成新的候选动作思路没错但具体动作错了重想。这个调制策略是框架的“智慧”所在。它不再是简单地给失败以固定惩罚而是根据失败的原因给予差异化的反馈从而更高效地引导搜索方向。4. 回传阶段调制后的奖励R沿着搜索路径向上回传更新所有祖先节点的访问次数N(s,a)和价值估计Q(s,a)。这个价值估计未来又会影响选择阶段。实操心得评估智能体的设计至关重要。它需要快速、轻量但又能相对准确地判断一个动作的“前景”。在实践中我们采用一个比推理智能体小得多的模型或精心设计的提示模板让它只回答类似“执行这个点击‘提交’按钮的动作有多大可能成功推进任务”这样的问题并输出一个分数。将τ设置为一个中等偏上的值如论文中的6/10可以有效过滤掉明显糟糕的动作同时保留有潜力的模糊选项供进一步探索。5. 实验验证与性能深度解析任何框架的价值都需要在严苛的基准测试中证明。WebUncertainty在WebArena和WebVoyager这两个公认的复杂、长时程Web任务基准上进行了全面评估。5.1 基准测试设置与对比基线数据集WebArena一个仿真的、可控的测试环境包含从GitLab、Reddit等真实网站复刻的812个任务。测试采用纯文本可访问性树设置以聚焦于语义推理能力。WebVoyager一个在真实、动态网站如亚马逊、谷歌地图上运行的测试集。为了确保可复现性研究选取了129个具有确定结果的任务子集排除了不稳定页面和开放性问题。对比基线选择了四个代表不同技术路线的先进智能体进行对比Browser Use一个基础的Web自动化基线。Agent-E一个传统的分层规划智能体用于对比验证任务不确定性驱动规划的优势。WebPilot一个同样使用MCTS进行推理的智能体用于直接对比动作不确定性驱动策略的效果。AgentOccam一个强调观察-动作对齐鲁棒性的智能体代表了另一种提升性能的思路。实施细节为了公平评估框架本身的能力而非大模型的能力实验在GPT-4-Turbo和Qwen-Max两个不同的LLM骨干上分别运行了所有智能体。5.2 核心结果全面领先的性能表现在WebArena上使用GPT-4-Turbo的WebUncertainty取得了46.9%的整体成功率显著超过了最强的基线AgentOccam43.1%和同属搜索范式的WebPilot37.6%。在更具挑战性的真实环境WebVoyager上WebUncertainty以65.9%的成功率继续保持领先。分领域深度分析在Reddit类任务高模糊性WebUncertainty取得了67.0%的成功率几乎是WebPilot37.7%的两倍。这主要归功于动作不确定性驱动推理。Reddit页面信息密集、用户意图模糊常出现多个看似合理的动作高AU。框架能识别这种模糊性并鼓励探索而非武断决策从而避免了陷入局部最优。在GitLab类任务长时程工作流WebUncertainty达到40.0%优于WebPilot的33.3%。这体现了任务不确定性驱动规划的价值。GitLab操作流程长且结构化但中途可能遇到意外状态如合并冲突提示。自适应规划机制能在遇到高不确定性时切换为隐式规划灵活应对在低不确定性时切回显式规划保证流程连贯。一个更具说服力的发现使用较弱的Qwen-Max骨干的WebUncertainty在WebVoyager上取得了63.6%的成功率。这个成绩甚至超过了使用更强的GPT-4-Turbo骨干的WebPilot62.0%。这强烈表明在复杂的Web导航中 raw LLM能力存在收益递减而有效的双重不确定性管理机制能够显著弥补模型本身的能力差距。框架通过量化EU让较弱的模型也能意识到自己的知识边界提前剪枝幻觉动作防止错误像雪球一样越滚越大。5.3 消融实验每个组件的必要性为了剥离各个组件的贡献研究进行了严格的消融实验使用Qwen-Max骨干移除任务不确定性驱动规划将规划模式固定为纯显式或纯隐式。结果在WebArena上纯显式39.2%略优于纯隐式38.2%因为WebArena环境相对稳定长远计划更有效。但在动态的WebVoyager上纯隐式58.1%优于纯显式56.6%因为后者无法适应变化。结论没有一种静态规划策略能通吃所有场景。自适应切换机制63.6%带来了显著的性能提升验证了任务不确定性作为切换信号的有效性。移除动作不确定性驱动推理即使用标准的MCTS不进行EU/AU量化和奖励调制。结果性能出现最严重的下降在WebVoyager上从63.6%跌至54.3%。分析标准MCTS无法区分错误类型。它会将因“幻觉”高EU导致的失败与因“选项模糊”高AU导致的失败一视同仁均给予惩罚。这导致它可能错误地剪除了那些只是暂时模糊但实际正确的分支高AU状态同时又浪费搜索预算在根本不可行的幻觉路径高EU状态上。ConActU策略通过区分这两种情况实现了更智能的搜索引导。5.4 效率与鲁棒性分析性能-成本权衡基于MCTS的推理确实会带来计算开销。但论文指出在复杂Web任务中一次执行错误的代价远高于推理成本。更重要的是WebUncertainty通过不确定性感知的剪枝和引导优化了搜索效率。数据显示在WebVoyager上WebUncertainty的平均任务推理时间351.4秒比WebPilot803.7秒减少了56%以上同时成功率更高。这说明其不确定性机制有效避免了无意义的搜索分支。超参数敏感性框架对关键超参数——规划切换阈值δ和评估阈值τ——表现出良好的鲁棒性。在δ从0.2到0.6的较大范围内性能均稳定超过最强基线。最优点出现在δ0.4, τ6附近。这表明框架并非对参数设置极度敏感具备一定的实用部署友好性。6. 实践启示、局限与未来展望6.1 从论文到实践给开发者的建议基于对WebUncertainty的深入剖析我认为在构建实用化Web智能体时可以从中汲取以下几点核心经验拥抱不确定性而非逃避它传统思路是试图通过更多数据、更复杂的模型来“消除”不确定性。WebUncertainty提供了一个新范式将不确定性量化并作为核心决策特征。在你的系统中可以尝试为智能体的每个决策输出附加一个“信心分数”和“模糊度分数”并据此设计不同的回退或确认策略。规划需要动态性不要在设计之初就决定智能体是“规划型”还是“反应型”。设计一个轻量级的环境评估器实时判断当前状态的“可预测性”并让智能体在“计划模式”和“探索模式”间动态切换。这个评估器可以基于简单的规则如页面元素变化率、历史成功率或一个小型分类模型。区分错误的根源当智能体行动失败时花点代价去分析原因。是它“想错了”认知错误还是“看花了眼”偶然模糊针对不同原因设计不同的学习或调整策略比统一的惩罚机制有效得多。例如对于认知错误可以记录到“知识盲区”库后续优先调用外部知识对于偶然模糊可以设计一个“请求澄清”的机制。效率是工程化的关键MCTS的全幅搜索在实时应用中可能不现实。可以考虑分层剪枝先用快速、廉价的方法如基于规则的过滤器或小模型过滤掉明显不合理的大量动作再对剩下的少数候选应用精细的不确定性量化与搜索。也可以将搜索深度与任务不确定性挂钩高不确定性时浅搜索、多探索低不确定性时深搜索、重利用。6.2 框架的局限性与挑战尽管WebUncertainty表现卓越但论文也坦诚地指出了其局限性这也是未来研究和工程实践需要攻克的方向计算开销尽管相比同类MCTS方法效率已大幅提升但多轮LLM调用分析、规划、推理、评估和树搜索本身相比简单的单次推理智能体开销依然显著。这对于需要低延迟或低成本运行的场景如移动端、大规模并发是一个挑战。对纯文本环境的依赖当前实现基于可访问性树缺乏视觉感知。对于信息严重依赖空间布局、颜色、图标等视觉元素的网站如大量图形化仪表盘、游戏界面智能体的能力会大打折扣。未来的多模态版本是必然趋势。超参数依赖阈值δ和τ需要根据任务领域进行经验性调整。虽然在测试中表现鲁棒但在极端动态或全新的网站环境中固定的阈值可能无法达到最优。研究自适应的、基于在线学习的参数调整机制是一个有价值的方向。对LLM校准度的依赖整个框架建立在LLM输出的置信度分数是“相对可靠”的这一假设上。如果LLM本身校准度很差即自信度与正确率不匹配那么基于此的EU/AU量化以及后续的所有决策都会产生偏差。如何提升或校正LLM在具体任务上的置信度输出是一个基础且重要的问题。6.3 未来可能的技术演进站在WebUncertainty的肩膀上我们可以看到几个清晰的演进路径多模态不确定性融合下一代框架势必会融合视觉、文本、甚至结构信息DOM。如何定义和量化跨模态的不确定性视觉上的“模糊按钮”和文本上的“歧义描述”如何共同影响决策这将是一个有趣的研究点。从量化到主动减少不确定性当前的框架是“感知-适应”不确定性。更高级的智能体应该能“主动减少”不确定性。例如当识别到高认知不确定性EU时除了在搜索中避开是否可以主动发起一次“搜索”或“询问用户”的动作来获取知识当识别到高偶然不确定性AU时是否可以执行一个“鼠标悬停”或“滚动”动作来获取更多信息以消除模糊长期记忆与不确定性建模将遇到的高不确定性状态如某个特定网站的复杂弹窗及其解决方案存入长期记忆。当再次遇到类似状态时可以直接从记忆中调取策略从而将“高不确定性”状态转化为“低不确定性”状态实现持续学习。与强化学习的结合当前框架的奖励调制-5 -1 0等是人工设计的。是否可以将其与强化学习结合让智能体通过与环境的交互自动学习不同不确定性状态下应采取的最佳长期策略