腾讯与香港科大联手:让AI智能体像人类一样主动探索未知世界
这项由腾讯AI实验室与香港科技大学广州联合开展的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.18131。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台查阅完整原文。---一个让人有些不舒服的现实今天的AI自我进化其实是个假象先抛出一个问题你有没有想过当AI公司宣称他们的智能体AI Agent也就是能自主完成任务的AI具备自我学习、自我进化能力时这究竟意味着什么答案可能让你有些失望。绝大多数所谓的自我进化AI其实都像一个必须靠老师发作业才能学习的学生——没有老师布置题目、没有标准答案、没有打分机制它就什么也学不了。一旦人类工程师撤走了精心设计的奖励信号和任务流程这些AI立刻停止进步就像断电的机器。研究团队把这个问题说得非常直白目前的自我进化本质上是一种幻觉。智能体并没有真正在自主探索它们只是在人类预先铺好的轨道上跑步而已。这和人类的学习方式截然不同。当你搬到一座陌生城市没有人给你布置认识城市的任务也没有人会在你找到好吃的餐馆后给你打个满分——你只是自然而然地开始逛街、观察、记录慢慢在脑海里建立起一张城市地图。这种学习完全出于内驱力不依赖任何外部奖励。研究团队想要赋予AI同样的能力——他们把这种能力称为原生主体性Native Agency。简单说就是让AI在没有任何任务、没有任何奖励的情况下主动去了解一个陌生环境把观察到的一切整理成有用的知识等到真正需要完成任务时再把这些知识调出来用。---一、现有方法的困境人类总是绕不开的那根拐杖要理解这项研究的价值需要先看清楚目前AI进化方式的两条主流路线以及它们各自的问题所在。第一条路线可以叫做经验驱动进化。这类方法的运作方式很像传统的学校教育人类工程师先精心设计一批题目再设计一套打分标准AI反复做题、拿分、改进。它积累的经验就是这些题目-分数的组合。通过分析这些经验AI学会如何在特定任务上做得更好。这套方法效果不错但代价极高——每进入一个新环境人类就得重新设计一套专属的题目和打分系统。AI表面上在自我进化实质上是在读人类写的教科书。第二条路线稍微聪明一些叫做对抗进化。这里不需要人类出题而是让两个AI互相博弈一个AI挑战者专门负责出越来越难的题目另一个AI解题者专门负责解题。通过这种你追我赶的竞争解题者的能力不断提升。这个方法减少了人类出题的工作量但它的问题在于设计这个对抗框架本身就需要大量人工而且AI始终被困在做练习题的循环里从来没有机会真正走出去自由探索世界。研究团队把这两种方式和自己的方法做了对比。他们提出的是第三条路线叫做元学习驱动进化Meta-Learning-Driven Evolution。在这个框架下AI会主动进入一个陌生环境像一个好奇的探险家一样四处观察然后把所有观察压缩成一份结构化的世界知识文档。这份文档就像AI自己画的一张地图等到具体任务来了AI就拿着这张地图指路而不是从头开始盲目探索。---二、核心突破如何在没有老师的情况下教会AI探索这件事本身这里有一个相当棘手的技术难题。如果AI进化的过程是完全自由、没有任务的那用什么来判断AI探索得好不好没有判断标准就没办法训练。研究团队的解法非常巧妙他们称之为基于结果的奖励机制Outcome-Based Reward。核心思路是不直接评价AI的探索过程而是评价探索结果的实用价值。具体来说评价方式是这样的让AI先对某个环境进行自由探索生成一份世界知识文档。然后把这份文档交给另一个AI去完成一批测试任务看看有了这份文档之后任务完成率比没有文档时提高了多少。提高得越多说明这份文档的质量越高AI的探索就越有价值。用一个通俗的类比来理解假设你要评价一名向导的工作质量不需要全程跟着他观察他怎么收集信息只需要在他结束考察后让一批旅行者拿着他写的旅行指南去游览看看旅行者能顺利完成行程的比例就够了。指南越实用向导的工作就越出色。关键在于这个奖励信号只在训练阶段使用。训练完成后AI已经内化了如何有效探索的能力在实际使用时完全不需要任何外部奖励或人类指导。---三、训练流程分两步教会AI成为合格的探险家整个训练过程分为两个阶段两个阶段相互衔接共同塑造AI的探索能力。第一阶段叫做监督微调SFT。在这个阶段研究团队请出了目前最强大的AI之一——Gemini-2.5-Pro——作为教学示范者。他们让这个顶级AI去探索各种不同的网站观察它如何制定探索计划、如何决定先看哪些页面、如何把散乱的信息整理成结构化文档。这些示范过程被完整记录下来形成高质量的训练数据。在筛选训练数据时研究团队引入了前面提到的实用价值评分机制让Gemini-2.5-Pro对每个网站生成三份不同的世界知识文档然后分别测试这三份文档对实际任务的帮助程度选出表现最好的那一份作为训练样本。实验数据显示Gemini生成的优质世界知识平均能让基础AI模型的任务完成率提高10.72个百分点充分证明了这些训练数据的含金量。这些训练样本的体量相当惊人平均每份探索记录长达374.8步每步包含的信息量平均高达3322.4个词语单位涵盖了大量网页观察和操作动作。通过这批数据的训练基础模型获得了初步的探索本能。第二阶段叫做强化拒绝采样RFT。经过第一阶段训练的模型已经具备了基本的探索能力但仍有提升空间。在第二阶段模型不再模仿老师而是开始自己练习对同一个环境独立生成多份世界知识文档用实用价值评分筛选出最好的再用这些高质量的自产数据继续训练自己。这个过程重复两轮。研究团队没有采用更常见的强化学习算法如GRPO原因是这类方法在当前场景下计算代价过于高昂——探索一个环境需要数百步每步都需要巨大内存而且每次评估奖励都需要运行完整的下游任务测试训练周期内根本无法实时完成。拒绝采样的方式把生成过程和训练过程分开大幅降低了计算压力。研究团队用来训练的数据集包括600道深度搜索问题覆盖20个不同领域的网站为模型提供了足够多样的探索经验。---四、实验结果数字背后的真实突破研究团队选择了两个业内公认的网页操作基准测试来验证效果分别是WebVoyager和WebWalker。前者测试AI在具体网站上的信息查找能力后者覆盖会议、游戏、组织、教育四个不同领域的网站。为了确保测试的严谨性他们还专门过滤掉了那些AI可以直接用背诵的内置知识回答的问题只保留真正需要在线探索才能解答的问题最终形成了包含1427道题目的评估集。结果出乎意料地令人振奋。以Qwen3-30B这个基础模型为例在完全没有世界知识的情况下它在WebWalker上的平均正确率只有22.04%而经过完整训练SFTRFT两个阶段后同一个模型生成的世界知识能把正确率推高到40.91%提升幅度接近19个百分点。这个数字不仅远超基础水平甚至超过了用Gemini-2.5-Pro直接生成世界知识的效果29.85%——换句话说经过专门训练的学生在这项特定任务上超越了它的老师。另一个有趣的对照是未经训练的模型直接尝试探索的结果。研究团队把同样的探索指令给了未经训练的基础模型让它照葫芦画瓢去生成世界知识。结果反而比完全不探索还要糟糕——在WebWalker上的正确率只有19.50%比不用世界知识的22.04%还低。这说明探索本身是一项需要专门训练的能力没有经过正确训练的AI生成的不是有用的地图而是一堆把人带偏的错误信息。除了正确率研究团队还测量了AI完成任务所需的步骤数。数据显示有了世界知识AI完成任务的平均步骤减少了约17%。这相当于你去一座陌生城市办事有了一份详细地图之后不需要再漫无目的地绕路直奔目标就好。---五、更惊人的发现知识可以移植小模型秒杀大模型研究中最让人意外的结论来自一个关于知识可移植性的实验。研究团队想验证一件事AI生成的世界知识是否只对生成它的AI自己有用还是可以拿来给其他AI用为此他们把用Seed-OSS-36B或Qwen3-30B生成的世界知识分别交给了Qwen3-14B、GPT-OSS-120B、Kimi-K2-Turbo和Gemini-2.5-Flash这四个完全不同的模型。结论令人信服世界知识确实具有强烈的通用性。Seed-36B生成的知识能让Qwen3-14B的平均准确率在两个测试领域内分别提升18.3%给Kimi-K2-Turbo使用正确率更是提升了21%。更戏剧性的是一个具体对比Qwen3-14B是一个相对小巧的模型参数量只有140亿而Gemini-2.5-Flash则是谷歌推出的旗舰模型之一在大多数任务上能力更强。但在获得了世界知识的加持之后14B的Qwen3在会议领域网站上取得了35.6%的正确率而没有世界知识辅助的Gemini-2.5-Flash只达到了31.3%在游戏领域前者30.5%后者25.7%。一个小个子凭借更精准的环境认知在特定任务上超过了参数量更大的大块头。类似的现象在其他模型对比中也出现了装备了移植来的世界知识之后Kimi-K2-Turbo和Gemini-2.5-Flash甚至能超越它们各自未加辅助的上级版本Kimi-K2.5和Gemini-2.5-Pro。这个发现指向一个很有冲击力的结论在特定环境下完成任务时知道这个环境的详细信息比模型本身有多大更重要。蛮力堆参数有时不如一份好地图。---六、消融实验与敏感性分析训练每一步都有意义知识长度有甜蜜点研究团队还做了两组细节实验验证训练流程的设计合理性。第一组实验追踪了模型在不同训练阶段的表现变化从未训练的基础状态到经过第一阶段监督微调之后再到第一轮强化拒绝采样之后最后到第二轮强化拒绝采样之后。实验覆盖了会议、游戏、组织、教育四个领域使用了Qwen3-30B和Seed-OSS-36B两个骨干模型。结果显示模型性能随训练推进呈现出清晰的上升趋势。第一阶段监督微调带来了最显著的跳跃第一轮强化采样继续推动了较大幅度的提升而第二轮强化采样的边际效益相对有限有时甚至出现轻微波动。这说明扎实的基础训练SFT和第一轮RFT是整个框架效果的核心基础。第二组实验专门研究世界知识的最佳长度问题。研究团队固定使用Qwen3-30B测试了五种不同长度的世界知识不用世界知识0词、4000-8000词、8000-16000词、16000-32000词、32000-64000词分别在会议类和游戏类网站上评估效果。规律非常清晰从短到中等长度正确率的提升非常显著。以游戏网站为例从4000-8000词的30.74%跳升到8000-16000词的39.71%涨幅将近9个百分点。但继续拉长之后收益开始递减——从16000-32000词的41.56%到32000-64000词正确率反而略微下滑到40.72%。原因并不难理解太短的世界知识无法涵盖关键信息等于地图上少画了几条重要的路太长的世界知识则引入了大量冗余内容反而让AI在执行任务时分心把注意力浪费在不相关的信息上。最优区间大约在8000-32000词之间这是信息密度与信息噪声之间的甜蜜平衡点。---七、实际案例一道真实问题两种截然不同的解题旅程为了让抽象的结论变得具体研究团队展示了一个生动的对比案例问题来自ACL 2024学术会议的官方网站ACL 2024会议中印刷服务的注册截止日期与主会场地点更新公告之间相差几天没有世界知识的AI从网站首页开始漫无目的地浏览。第四步才找到印刷服务的截止日期2024年8月9日。然而找到场地更新公告的日期却遇到了麻烦——AI无法定位到那个具体页面于是采用了一个危险的做法根据历史规律推断ACL会议的场地公告通常在注册截止日前3到6个月发出由此估算出一个2024年2月1日的假设日期最终算出190天——错误答案。整个过程走了7步。有了世界知识的AI在第一步就从文档里读到了相关信息印刷服务截止日期是2024年8月9日场地页面确实有记录但场地更新公告的具体日期没有在文档中出现。AI判断需要去具体页面查找直奔相关链接。第二步就找到了场地更新公告的日期2024年5月5日计算出正确答案96天。整个过程只用了2步。两种结果同一台AI唯一的区别是有没有那份预先准备好的世界知识地图。---结语参数大小不再是唯一答案说到底这项研究提出的核心问题非常简单我们是否一直在用错误的方式衡量AI的能力长期以来AI领域几乎有一个不成文的共识——模型越大参数越多能力就越强。但这项研究用清晰的实验数据说明至少在完成特定环境下的具体任务这件事上对环境了解多少远比模型有多大更重要。更深层的意义在于研究团队展示了一种训练思路的转变不是教AI如何完成某类特定任务而是教AI如何学习如何去学习。这个能力一旦内化AI就可以自主应对任何新环境不需要人类为每个环境单独设计训练方案。当然这项研究目前的验证范围主要集中在网页浏览这一类任务上世界知识的生成仍然需要相当多的计算资源训练数据的覆盖范围和多样性也有进一步扩展的空间。但这些都是工程层面的挑战核心方向已经得到了充分验证。如果你对AI学习机制、智能体设计或者AI与人类学习方式的异同感兴趣完整的研究内容可以通过arXiv编号2604.18131找到原文研究团队也同步开放了代码、模型和数据供感兴趣的读者进一步探索。---QAQ1什么是世界知识AI生成的世界知识和人类写的说明文档有什么区别A在这项研究中世界知识是AI自主探索某个网站之后生成的一份结构化Markdown文档包含该网站各个页面的内容摘要、链接结构和关键信息。与人工撰写的说明文档不同它是AI通过实际抓取和阅读页面内容后自动提炼的不依赖人工干预且专门针对该网站的具体内容而非通用知识。Q2基于结果的奖励机制在训练结束后还会继续使用吗A不会。这个奖励机制仅在训练阶段使用作为元学习信号教会模型如何有效探索和整理信息。训练完成后模型已经将这种能力内化为参数在实际使用时完全不需要任何奖励信号或外部反馈直接自主生成世界知识即可。Q3WebWalker和WebVoyager测试中小模型超过大模型的结论在其他类型任务上也适用吗A目前的实验结果仅针对网页信息检索类任务进行了验证。研究团队也指出这一结论的核心前提是任务所需的关键信息已被世界知识文档充分覆盖。对于需要复杂推理、创意生成或跨领域综合判断的任务模型本身的参数规模仍然是重要因素世界知识带来的增益幅度可能会有所不同。