论文链接[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model项目主页VLA-Adapter前言本文拆解了VLA-Adapter实验的研究方法论和架构设计覆盖了模拟基准测试、消融实验、真实机器人部署三大维度对比了20个基线模型。一、实验总览论文的研究实验均在4块NVIDIA H100 GPU上运行。首先使用了长时域的LIBERO-Long该任务通常成功率较低用于探究VLA-Adapter的研究必要性。其次采用了VLA领域广泛使用的LIBERO和CALVIN以及真实世界机器人数据全面比较性能。最后利用LIBERO-Long探索VLA-Adapter的关键组成部分。VLA-Adapter的实验体系概括为“三层金字塔”第一层模拟基准测试——与20baseline横向对比验证性能第二层消融实验——验证每个设计决策的必要性第三层真实机器人部署——验证从仿真到现实的迁移能力。二、VLA-Adapter的必要性为了验证VLA-Adapter桥接范式的必要性论文比较了三种骨干网络基于Qwen2.5-0.5B训练的Prismatic VLMB1、基于LLaMA2-7B训练的Prismatic VLMB2以及机器人数据上预训练的OpenVLA-7BB3。本文采用了OpenVLA-OFT桥接范式进行了比较该方法是目前VLA测试的SOTA模型。结果显示B1条件下OFT与Adapter模型的success Rate分别是85.8%95.0%B2条件下success Rate87.5%95.2%B3条件下94.5%95.4%。并且在主干网络被冻结的情况下VLA-Adapter依然有效只有AQ和Policy是从头训练SmolVLA专门用于研究冻结视觉语言模型VLM的VLA论文将其与OpenVLA-OFT和SmolVLA进行比较得到OpenVLA-OFT——0.0%SmolVLA——77.0%VLA-Adapter——86.4%。因此即使在没有机器人预训练的VLMs上VLA-Adapter性能的改进效果也十分明显即使是骨干网络冻结的情况下VLA-Adapter仍然能保持强劲性能。其主要原因在于常规的VLA在机器人数据上预训练之后最后一层的特征已经适应了动作域从而能够通过简单的MLP实现高效微调。当没有经过预训练的VLM仅依赖最后一层的潜在特征时不足以实现有效的动作映射。因此验证了VLA-Adapter可以在没有机器人预训练的情况下高效微调VLM使用极小的骨干网络即可达到超越SOTA的性能。三、基准测试基准全称任务数量特点意义LIBERO-Spatial空间布局变化10物体位置变化测试空间泛化能力LIBERO-Object物体类型变化10不同物体实例测试物体泛化能力LIBERO-Goal目标变化10不同目标位置测试目标泛化能力LIBERO-Long长时程任务10多步骤组合测试长期规划能力CALVIN ABC → D跨环境泛化1000条指令链训练在A/B/C测试在D测试零样本泛化能力论文选择了几种大模型、小模型以及微型模型进行baseline的实验对比LIBERO实验中子任务重复50×次进行评估成功率的数值范围越高越好。结果如下表所示实验结果验证VLA-Adapter仅使用极小规模的主干网络即可达到与规模大14×倍的OpenVLA-OFT相当的性能。并且在LIBERO-Long任务上VLA-Adapter相比同规模主干网络的VLA-OS具有29.0%的显著优势。其次使用CALVIN ABC → D用于评估零样本泛化任务的性能。CALVIN包含了四种环境ABC → D表示环境在A、B和C上训练在环境D上评估。VLA需要按顺序执行预设的1000个任务序列每个任务行由五个子任务组成例如一条指令链“拿起红色方块→放到托盘上→拿起蓝色方块→放到红色方块上→推动托盘”模型只有在完成当前子任务后才能进入下一个子任务。baseline实验结果如下表所示指标解读“Task completed in a row”列名含义实例1完成至少1个子任务的比例98.5%的测试中完成了第1步2完成至少2个子任务的比例95.5%的测试中完成了第2步3完成至少3个子任务的比例90.5%的测试中完成了第3步4完成至少4个子任务的比例85.3%的测试中完成了第4步5完成至少5个子任务的比例80.0%的测试中完成了第5步Avg.len平均长度完成至少k步该公式主要衡量的是模型平均能连续完成多少个子任务。该指标比单步成功率更加严格因为模型的每一步都不能出错。例如Avg.len4.5平均能完成4.5个子任务约90%的指令链能走完。CALVIN属于快换精品测试证明了模型不是过拟合特定场景并且5步的连续任务要求模型具备一定的哦长期规划能力而非走一步看一步最后0.5B参数模型性能高于7B的SOTA验证了“桥接设计优于单纯扩大规模”的结论。四、消融实验论文总共做了三组消融实验分别对应架构中的三个核心设计消融实验探索问题对应内容1多少个Query token最优ActionQuery数量2RawAQ是否优于只用一种条件类型3不对称门控是否最优门控策略ActionQuery属于插入VLM输入序列末尾中的可学习token数量是一个关键超参数。论文作者测试了1,4,8,16,64,128,256,512共8种配置在LIBERO-Long基准上评估。实验结果如下所示在8种配置当中LIBERO-Long的成功率分别为~68%~74%~78%~84%95.0%最优~93%91%以及~88%。因此可以得出结论当AQ token的数量16时因为Query太少无法充分聚合多模态信息表达能力不足性能差当AQ token数量64时信息容量与计算效率达到最佳平衡点性能最优当AQ token数量128时Query过多引入冗余信息干扰注意力机制同时增加计算开销。论文对比了四种“VL→A桥接”范式验证Raw特征AQ特征联合使用的必要性。方法使用的特征层级对应范式代表性工作1仅Raw最后一层原始特征直传RoboVLM2仅AQ最后一层Query接口OpenVLA-OFT3仅Raw中间层原始特征直传GROOT N14仅Raw全层原始特征直传π05仅AQ全层Query接口N/A6RawAQ全层联合使用VLA-Adapter实验结果的成功率分别是85.8%90.2%88.4%90.6%92.6%以及95.0%。由此可见全层Raw最后一层Raw全层AQ全层RawAQ略优但差距不大因此联合使用单独使用验证两类特征互补。Bridege Attention中Raw特征通过可学习门控tanh(g)注入AQ特征完全注入无门控因此作者测试了四种门控组合配置Raw特征注入AQ特征注入设计意图1Adaptertanh(g)1无门控不对称Raw可信度低→门控AQ完全可信→无门控21无门控1无门控完全信任3tanh(g)tanh(g)同时限制Raw和AQ41无门控tanh(g)不对称信任Raw限制AQ实验结果表明四种门控组合的LIBERO-Long成功率分别为91.4%91.0%92.6%以及95.0%。根据结果可知在都无门控的情况下Raw特征来自预训练VLM分布与动作空间差异大初期注入会严重干扰动作生成训练不稳定。五、真机部署论文使用了机器人系统执行了真实世界任务。采用了配备1自由度夹爪的6自由度SynriaAlicia-D机器人并使用Logitech C920e和RealSense D405摄像头采集第三视角图像和夹爪图像。真实机器人系统如图所示。在四个实验类别中评估VLA-Adapter方法1). 简单的拾取与放置任务涉及各种材质和几何结构的物体2). 以卡尔文为灵感来源的具有挑战性的任务 II横向块体位置调整3). 以卡尔文为灵感来源的具有挑战性的操纵任务I“积木堆叠”4). LIBERO启发式复杂任务与长期目标例如“拿起勺子并将其放置于...”为了加强评估严谨性并评估泛化性能本文在测试时随机化物体位置以引发分布偏移并增加任务难度。对比结果如下图所示每个结果均为10次执行结果的平均值实验结果表明VLA-Adapter在各种场景下具有更好的泛化能力。因此VLA-Adapter大大降低了在实际应用中采用VLA的门槛。六、结论与总结VLA-Adapter的三大消融实验系统性地验证了64个ActionQuery最优、RawAQ联合使用优于单独使用、不对称门控Raw带门控AQ无门控最优。并且每个设计决策都有实验数据支撑而非凭空猜测。