【第三十七周】VLN文献阅读
目录一、《PROSPECT: Unified Streaming Vision-Language Navigation via Semantic–Spatial Fusion and Latent Predictive Representation》二、《DyGeoVLN: Infusing Dynamic Geometry Foundation Model into Vision-Language Navigation》三、《ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation》四、《LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments》五、《UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model》一、《PROSPECT: Unified Streaming Vision-Language Navigation via Semantic–Spatial Fusion and Latent Predictive Representation》这篇论文核心解决了流式视觉语言导航中空间感知弱、长线程鲁棒性差、预测冗余等痛点提出融合语义空间和隐式预测的统一智能体在仿真与真实机器人上都达到 SOTA。首先先明确流式视觉语言导航的概念所谓streaming VLN就是让机器人像人一样能够看懂连续视频流导航而不是看静态照片。流式视觉语言导航的智能体保留长时间历史上下文有着持续在线推理的能力对于处理长程任务更加稳定现有技术只用2D语义编码器看不懂3D结构与尺寸缺乏空间智能并且泛化能力差、预测太冗余流式上下文利用不足容易内存溢出。本文的核心贡献如下1、提出了统一流式VLA视觉-语言-动作和隐空间预测框架该框架训练用预测塑性表征推理基本无开销2、采用CUT3R流式3D编码器输出绝对尺寸空间特征长程任务运行稳定内存基本不溢出3、采用流查询令牌和流式因果掩码主要用来解耦2D/3D预测防止信息泄露4、进行了真实机器人部署在室内外、强弱光下都能实现约4Hz的高频控制并且表现出很棒的鲁棒性机器人实际导航时的流程为首先机器人会接收两样东西一个是人类给的语言指令一个是自己摄像头拍的连续RGB视频流然后视频流同时进入两个编码器一个是SigLIP2D语义编码器该编码器帮助机器人看懂画面里是什么比如识别门、走廊和一些障碍物另外一个是CUT3R3D空间编码器该编码器帮助机器人看懂画面中的物体在哪里有多远路能不能走等比如机器人计算出“门在前方3米走廊宽度足够通行前面的障碍物离我有1米”之后将这两个编码器的输出信息融合在一起让模型将人类指令和视觉信息融合在一起比如“指令里说的走廊尽头就是视频里那个刚好能通行的通道”。之后交予LLM进行决策指出智能体应该如何行进。最后将决策结果变成机器人能够执行的指令机器人就可以开始运动了。由此可看出这两个编码器比VGGT视觉几何基础Transformer是一个专门从视频/图片提取3D结构的大模型能直接计算出深度、相机位姿、点云和3D轨迹更节省显存长线程更加稳定。两编码器的融合策略采用交叉注意力融合就是把2D语义与3D空间特征做跨模态融合让模型既懂语义又能理解空间。在模型训练阶段采用了流查询令牌是一个辅助任务工具作用是让模型学会预测未来从而更懂环境的动态变化它不是推理时必须的推理时会被直接删除掉不会拖慢机器人的运行速度具体操作是训练时加入可学习令牌q_2D、q_3D这两个令牌是模型里的特殊占位符用来对2D语义和3D空间提问和预测它们会回看前面所有帧的2D/3D特征即反向查询上下文然后预测出下一个时刻的2D/3D隐特征隐特征既不是画面里的像素也不是深度图而是预测画面在模型内部的抽象表示不生成图像更节省内存资源且不容易过拟合。对于2D损失函数为了贴合编码器特性采用预先损失让预测和真实特征方向一致对于3D损失函数采用MSE损失均方误差损失让预测的数值和真实误差最小流式因果掩码是专门为为流式 VLN 导航设计的掩码核心目标有两个1、保证模型的行为和真实导航一样2、让 q_2D 和 q_3D 两个令牌各司其职不互相干扰它有3条规则就是实现这两个目标的具体方法1、因果性模型在第 t 帧做决策时只能看到第 1 帧到第 t 帧的画面绝对不能看到第 t1 帧及以后的画面。这样是逼迫模型只能从历史画面里学习导航策略避免胡编乱造出一个画面学习2、轮次隔离每一次预测未来特征的查询也就是 q_2D、q_3D 做的事只能看它自己这一轮的上下文不能看别的轮次的查询令牌。这样能防止不同轮次的任务互相干扰让模型专注于当前轮次的上下文3、模态解耦q_2D 这个专门预测 2D 语义特征的令牌看不到 q_3D 这个预测 3D 空间特征的令牌反之亦然。首先2D和3D的任务目标就不同如果让它们互相看到模型的学习能力会欠佳。训练时模型采用VLA动作分支和隐特征预测分支一起训练的策略这样VLA动作分支在训练时隐特征预测分支会起到辅助作用帮助VLA学到更准确的环境理解能力从而在导航任务上表现更好在推理时模型会把隐特征预测分支删掉因为VLA已经训练好不再需要隐特征来辅助这样VLA又回到了一开始的计算水平节省了资源提高了相应速度。该论文的局限性是1、极端复杂户外场景没有充分验证该论文的机器人实验的主要场景都在室内、半室内状态对于复杂地形、动态人流密集场所的鲁棒性没有得到验证2、极端光照/天气仍然有挑战虽然实际部署结果反映暗光表现优于基线但对于逆光、强反光、雨雪、大雾等极端天气仍可能出现特征提取失效、空间感知失灵的问题。3、模型本身依赖冻结的预训练编码器它的 2D 语义SigLIP和 3D 空间CUT3R编码器都是冻结的无法针对导航任务做端到端的联合优化。如果编码器本身的偏差或失效会直接传导到导航决策上。4、动作空间简单无法处理复杂交互输出仍是离散 / 简单连续动作前进、左转、右转、停止无法处理需要精细控制或环境交互的场景比如开门、避障、爬楼梯等。5、流式长流程记忆仍然有上限对于超长时间、超复杂场景的导航模型的上下文窗口和记忆容量仍是瓶颈。6、部署成本偏高真实机器人实验用的是 ARX-Lift2 平台算力和传感器配置固定没有在小型移动机器人上验证性能部署成本仍偏高。7、依赖单目RGB相机完全依赖单目视觉在纹理缺失、低纹理场景白墙、空旷走廊中空间感知的可靠性仍会下降没有利用深度传感器等辅助信息。针对以上局限未来研究方向可聚焦1、端到端联合优化编码器不再冻结 SigLIP 和 CUT3R而是让它们和 LLM 一起微调针对导航任务优化语义和空间特征提升跨模态对齐的精度。2、轻量化流式 3D 编码器针对机器人部署场景优化 CUT3R 这类流式 3D 模型的参数量和推理速度降低显存占用让模型能在边缘设备上运行3、加入更强的长程记忆机制引入外部记忆库、记忆蒸馏等方法突破 Transformer 上下文窗口的限制支持超长时间、超远距离的导航任务4、结合单目相机、深度相机、IMU、轮式里程计等多模态信息在视觉失效场景下也能保持稳定导航5、极端场景与动态环境适配针对极端光照、天气、动态障碍物、人流密集场景设计专门的鲁棒训练策略和安全控制模块。6、提升模型在不同机器人平台、不同环境类型之间的零样本或少样本泛化能力7、从纯文本指令扩展到语音、图像、多轮对话式指令让机器人能处理模糊、不完整、有歧义的指令二、《DyGeoVLN: Infusing Dynamic Geometry Foundation Model into Vision-Language Navigation》这篇论文核心解决动态真实场景下的视觉语言导航VLN 难题提出DyGeoVLN框架把动态几何基座模型DGFM 融入 VLN搭配自适应空间令牌裁剪实现静态 动态环境 SOTA还能落地真实机器人。目前VLN方法有两个致命短板1、3D空间推理能力弱依赖2D 图文预训练缺乏全局一致的 3D 几何能力动态场景运行不稳定2、长程处理能力不够导航时视觉序列越长令牌越多推理变慢还会丢失关键时空信息本文的贡献有1、解决了动态场景失效问题本文通过 DGFM 专门优化了动态物体的 3D 重建与感知是首个在动态真实场景里实现高成功率的单目 VLN 框架。2、解决了单目输入下的3D空间推理短板本文提出的零均值卷积注入方法在不破坏预训练权重的前提下给 2D 模型注入了精准的 3D 空间感知能力让单目相机也能实现媲美多传感器的导航效果。3、解决了长程导航的效率瓶颈本文的自适应令牌裁剪方法通过体素分组、占用感知和重要性补全在大幅压缩令牌数量的同时保证了关键时空信息不丢失让长程导航的效率和精度兼得。4、提出零均值卷积注入机制实现了 3D 几何信息与 2D 预训练模型的无损融合5、配套构建了 DyHM3D 数据集为动态 VLN 研究提供了专用训练数据6、首次在宇树 Go1 四足机器人上实现了动态室内场景的稳定导航仅用单目相机就能完成走廊、大厅、拥挤室内等复杂场景的导航任务仿真场景全面SOTA作者提出的DyGeoVLN这个框架流程由5步组成1、输入阶段机器人接收语言指令和连续单目RGB图像这是整个框架的起点给模型提供所有原始信息2、感知阶段这也是DGFM所在的关键步骤DGFM把输入的两种信息转换成模型能够处理的特征令牌分为2D语义分支和3D几何分支对于2D语义分支处理的是连续RGB图像作用是提取图像里的语义信息生成2D语义令牌而3D几何分支在处理连续RGB图像的基础上还处理了Depth Anything 预测的深度图生成了3D几何令牌包含场景的空间信息3、跨分支融合把上一步的两个信息合二为一让每个令牌都同时拥有语义和空间信息用到的也是交叉注意力机制4、令牌裁剪压缩历史冗余令牌解决长程导航的效率问题用自适应的方法裁剪令牌保留最新、最关键的令牌远景用更少的令牌表示近景保留细节删除重复或对决策没用的信息5、大模型决策LLM接收融合令牌和人类指令转化成机器人能够看懂的指令并输出给机器人局限1、动态场景仍然有限只能处理少量行人的场景复杂场景的鲁棒性不足此外模型对动态物体的类别感知还比较单一主要优化了 “人”对其他动态障碍物宠物、家具移动的处理能力较弱主要是因为训练数据集 DyHM3D 里的动态样本以人为主且运动模式相对简单DGFM 的动态重建模块对复杂运动轨迹的建模能力有限2、单目深度依赖与误差问题框架依赖 Depth Anything 预测的深度图来生成 3D 点云而单目深度估计本身就存在误差这些误差会直接传导到 3D 几何令牌和后续导航决策中可能导致定位漂移、误判距离3、自适应令牌裁剪策略虽然解决了令牌爆炸问题但这个问题本质还是个效率与质量的平衡问题如果裁剪过狠会丢失关键的历史空间信息如果裁剪不足令牌数量还是会随着导航距离增加而线性增长推理速度下降明显。对于超远距离、跨房间、楼层的长程导航模型仍会出现信息遗忘和效率瓶颈4、最终的动作决策依赖 LLM虽然灵活性高但决策过程是不可解释的无法像传统规划方法那样追溯原因一旦出错很难定位是语义理解、空间感知还是融合环节的问题同时LLM 的输出稳定性受 prompt、指令表述影响较大对模糊、口语化的指令处理能力有限5、真实场景部署仍有工程限制没有考虑机器人运动带来的剧烈相机抖动、运动模糊极端光照和视角遮挡以及低算力边缘设备上的推理延迟问LLM加上双分支推理算力开销仍然很大三、《ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation》篇是阿里高德CV Lab在2026年2月放出的技术报告核心是提出一个模型能够处理5大类具身导航任务。当前行业痛点是任务碎片化PointGoal、ObjectGoal、指令跟随、POI、跟人过去都是专用模型不通用泛化也差智能适用于特定场景和任务换了环境后就无法高效运行并且推理与动作两者是没有融合的LLM只会推理但不会执行动作运动模型会执行动作但不会推理所以研究人员提出ABot-N0目标就是做一个通用的具身导航框架一个模型、一套接口搞定所有导航任务。ABot-N0核心架构为Brain-Action由三层组成。第一层即输入层名为通用多模态编码器在视觉上支持全景或前视用ViT编码psViTVision Transformer是现在主流的图像编码器作用就是把一整张图像切成很多小 patch再转换成一串向量也就是 LLM 里的 “视觉 token”让大模型能看懂图像里的内容比如 “前面有个门、左边是桌子、远处有人”还会保留一段时间的视觉记忆。此外编码器会把目标编码分为两种文本目标和坐标目标用不同方式转换成统一的token。对于文本目标直接输入给LLM把这些文本直接用 LLM 自带的词表转换成词嵌入向量和视觉 token 拼在一起对于坐标目标把数字变成伪token这样LLM也能看懂坐标。此外还会将几个导航任务进行编码这样LLM在执行任务前会知道这是什么类型的导航任务第二层为推理层研究人员称之为认识大脑这一层就是真正的决策者它基于上一层的输入一边做场景推理一边给后面的动作层发指令是整个模型的中枢系统推理层的大模型基座是Qwen3-4B这是阿里通义千问的最新大模型系列4B 表示它的参数量约为 40 亿它的语言理解、常识推理能力足够强能处理复杂的导航逻辑并且4B 的参数量足够小可以部署在机器人的嵌入式设备比如Jetson Orin上满足实时导航的低延迟要求不会像 7B/14B 模型那样跑不动。与其他LLM做导航的方案不同的是推理层把LLM分成两个子脑一个子脑负责做场景理解、目标定位名为推理头另外一个负责给下面的动作层输出条件上下文称为动作头需要注意的是动作头并非直接输出动作而是结构化指令。此外推理层还采用任务条件分支它的做法是并行、条件化的分支推理根据不同的任务编码直接走对应的推理分支。第三层为控制层研究人员称之为动作专家核心技术是采用了Flow Matching所谓Flow Matching可以把它理解成给动作和路径建模的概率分布而不是只输出一个固定值这与传统的导航模型不同传统导航模型会直接让网络回归出一个动作比如速度、转向角或者航点本质是在做单模态回归鲁棒性差而Flow Matching它天生支持多模态输出也就是同一个场景下多条合理的路径比如绕障可以左绕也可以右绕它能同时生成这两种可能而不是取中间值动作专家会输出局部 BEV鸟瞰图下连续5个航点(x,y,θ)用局部 BEV 的好处是坐标永远以机器人当前位置为原点不用管世界坐标系的定位误差直接在机器人视角下规划路径更简单、更鲁棒。这些技术能够让智能体进行高精度连续控制且能建模多模态分布。除开核心技术之外该文献还有一个亮点就是其数据来源研究人员收集了7802个总面积为10.7km2的3D场景轨迹数据1690万个覆盖5大任务推理数据有500万个用来训练LLM。场景生态包含室内室外诸多场景且场景是全部标注可通行的导航图保证轨迹无碰撞。对于5大任务数据轨迹PointGoal有400 万主要是视频伪轨迹、3D合成和真实机器人组成的轨迹、指令跟随有280万个主要是门穿越、短距指令和找人任务、物体目标有360万个、POI目标为250万个、跟随人类目标为400万个。训练流程有3个阶段1阶段为训练认知只训练LLM冻结了推理层和动作层先让模型认识世界2阶段是统一感知动作用混合轨迹和推理数据训练主要训练推理层和动作层让大脑指挥动作专家执行动作用文本生成loss和Flow Matching loss联合优化3阶段为SAFE-GRPO价值对齐冻结推理层只微调动作层主要是对智能体的社会合规性进行调整让它不要走草坪、撞行人、闯红灯符合社会规矩。此外研究人员还研究了落地系统将这个框架部署到了宇树 Go2四足机器人上计算采用NVIDIA Jetson Orin NX传感器为3 目 RGB270°LiDAR和RTK效果是室内外长距离、复杂任务、动态环境稳定运行。第二个方向是系统效率与部署方向主要侧重的方面是如何在保证性能的情况下同时实现轻量化、实时部署四、《LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments》这篇论文提出了LaViRA一个纯零样本、分层级的连续环境视觉语言导航VLNCE框架核心是把导航动作从粗到精拆解为语言→视觉→机器人三级彻底摆脱预训练路点预测器充分发挥多尺度多模态大模型MLLM的推理与感知能力在标准基准上刷新了零样本 SOTA。任务背景时在连续环境下的视觉语言导航任务现在基本要求零样本不做环境专属训练直接在陌生场景运行但现有方法有2个致命矛盾第1个是路点预测模模式大模型做规划但依赖预训练路点生成器泛化差第2个是价值映射模式不用路点器但大模型只做离线指令解析在线推理被浪费所以本文的目标就孕育而生能不能做一个纯零样本、不用预训练路点器、全程在线用好大模型推理的 VLNCE 框架因此作者提出LaViRA 三级动作分解LaViRA 的灵魂是粗到精的三级翻译语言动作→视觉动作→机器人动作每一层用最匹配的模型各司其职对于语言动作即高层规划作用是充当全局导航规划器用到的模型是MLLMGPT4o / Gemini2.5Pro输入指令、全局图和导航历史输出进度评估和高层指令前进、后退左转、右转等对于视觉动作即中层感知落地作用是把高层规划落实到视觉目标模型采用轻量高效 MLLMQwen2.5VL32B输入指令、进度评估和目标方向视觉图输出目标2D框架图和文字描述对于机器人动作即底层控制作用是结合前两层的描述和动作指令找到目标并执行动作流程是先取框底中心点用内参和深度投影到3D然后转到世界坐标系用FFM规划短路径同时用规则控制器进行避障这样做的优点是可移植到不同的机器人上因为上两层是独立运行的只需要更换底层设施即可实现迁移。研究人员进行真机实验用宇树 Go1 四足机器人和Agilex Cobot Magic 轮式机器人进行部署只对底层机器人进行改动测试泛化能力结果是在真实办公环境成功执行复杂指令且更换底层机器人后性能依旧优秀证明了有极强的simtoreal能力但文献也有几点局限首先智能体过度依赖闭源MLLM API延迟和成本都是不稳定因素对于模糊指令、大区域场景动作容易出错真实世界有很多噪声、动态障碍等问题未来的研究方向可以朝着开源MLLM并加缓存与自适应以降低成本、融合SAM等开放词汇分割提升大区域定位的方向努力五、《UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model》这篇论文提出UNeMo框架核心解决大模型驱动的视觉语言导航两大痛点纯文本推理、缺视觉前瞻、推理模块与导航策略分开优化、目标冲突用多模态世界模型和分层预测反馈实现端到端协同优化。现有方法基本是由LLM主导方法但LLM只做语言模态处理并没有视觉状态推理这与上面说到的是一个问题且推理模块在训练导航策略时被冻结优化目标不兼容无法动态迭代只看当前视觉不预测下一步的环境变化长路径导航容易出错。故而作者提出UNeMo模块整体构架以NavGPT2 为基线新增两大关键模块1、多模态世界模型MWM预测下一步视觉状态2、分层预测反馈导航器 HPFN进行精细化决策闭环优化对于MWM作用是输入当前视觉、语言指令、候选动作预测执行动作后的未来视觉状态采用的是条件变分自编码器 CVAE编码器用交叉注意力融合视觉局部特征和语言指令特征输出未来状态分布解码器则重参数化采样预测完整视觉嵌入。而HPFN则是把 MWM 的前瞻视觉信息融入导航决策形成粗预测到世界模型反馈再到精决策闭环优化粗动作预测是用当前视觉和语言对候选节点进行初步打分MWM推理则是预测走到目标节点后的视觉状态而精动作决策用交叉注意力把未来视觉特征注入节点表示输出最终动作。优化策略采用的是双向优化导航决策反馈优化MWM预测精度然后MWM推理持续优化导航策略。整体的方法步骤为1、输入视觉图像和语言指令视觉图像由ViT提取特征语言指令由预训练LLM编码2、拓扑图构建记录已访问和可访问的节点和连接关系3、MWM基于当前视图和指令生成下一步全景视觉特征4、HPFN先用下一步全景视觉特征更新节点然后再输出导航动作5、进行损失计算使用行为克隆、DAgger和MWM重建损失联合优化