VAD：向量化场景建模，如何重塑自动驾驶的规划范式

张

张建站

2026/6/14 15:24:08

10分钟阅读

1. 从“像素世界”到“矢量世界”自动驾驶规划为何需要范式转换想象一下你正在玩一款老式的像素游戏比如《超级马里奥》。游戏里的水管、砖块、敌人都是由一个个小方块组成的。你想让马里奥跳过一个坑你需要精确地数着像素点来判断起跳位置和距离。这种方式很直观但也很笨拙计算量大而且一旦场景复杂比如有多个移动的敌人和复杂的平台你的大脑就得高速运转处理海量的“方块”信息很容易出错。传统的自动驾驶规划很长一段时间就困在这个“像素世界”里专业术语叫栅格化Rasterized场景表示。系统把周围的世界——其他车辆、行人、车道线、路沿——都打碎成一张张密集的网格图比如语义地图、占用栅格图。规划模块就像在看一张由无数小色块组成的“马赛克”画它需要从这片混沌的色块中费力地解读出“哪里是路”、“哪里有车”、“车往哪开”。这种方法有两个天生的“硬伤”信息丢失与模糊当你把一条平滑的曲线车道线栅格化成一串离散的方块时其精确的几何形状、连续的曲率信息就丢失了。一个动态目标比如汽车也被简化成一个占据若干栅格的“色块”它具体的轮廓、朝向、运动趋势都变得模糊。规划器拿到的是一堆“大概如此”的信息自然难以做出精细、安全的决策。计算爆炸为了保证足够的精度这张“马赛克画”必须画得非常细密高分辨率。处理这样一张高分辨率图像并进行后续的规划搜索对算力的消耗是惊人的。这就像让你用处理4K高清视频的精力去实时解算几十个4K视频流对车载芯片来说是巨大的负担。那么有没有更优雅的方式有的这就是向量化Vectorized场景建模带来的范式转换。它不再把世界看成“像素方块”而是直接理解为由“矢量线条”和“运动箭头”构成的简洁蓝图。在这个“矢量世界”里一条车道线不再是一串像素而是由一系列有序的坐标点向量精确描述的曲线一辆车不再是一个色块而是由一个带位置、速度、朝向的边界框也是向量以及预测出的未来轨迹一串向量来表征。整个驾驶场景被抽象为一组实例级Instance-level的向量集合静态的是地图向量车道线、路沿动态的是运动向量车辆轨迹。这种转变就好比从看“马赛克地图”升级为看“CAD工程图”。后者直接给出了精确的几何关系和运动关系信息密度高、无冗余且天生是结构化、可解释的。VADVectorized Autonomous Driving正是这一新范式的杰出代表它不仅仅是一种技术改进更是一次对自动驾驶规划根本逻辑的重塑从基于“图像理解”的间接规划转向基于“几何与运动关系”的直接约束求解。2. VAD核心揭秘如何构建并利用“矢量蓝图”VAD如何实现从原始传感器数据主要是摄像头图像到最终规划轨迹的端到端流程我们可以把它拆解为三个核心阶段这就像一位经验丰富的司机在驾驶时的思维过程先看清环境感知理解他人意图预测再规划自己的路径规划。2.1 阶段一感知即矢量化——从图像中提取“线条”与“箭头”VAD的第一步是使用一个强大的视觉骨干网络如ResNet从多视角、多帧的摄像头图像中提取特征。然后它通过一个称为BEV鸟瞰图编码器的模块将这些透视视图的特征“压平”到一个统一的鸟瞰图坐标系下形成BEV特征图。这一步是很多先进视觉感知模型的通用操作目的是获得一个便于后续处理的空间化表示。接下来就是VAD的“魔法”开始之处。它不像传统方法那样将BEV特征图渲染成一张语义栅格图而是派出了两路“侦察兵”地图查询Map Queries这组可学习的向量专门负责在BEV特征图中“寻找”并“描述”静态地图元素。它们通过注意力机制与BEV特征交互最终输出向量化地图——即一组精确的折线Polyline每一条线代表一个地图实例如车道分隔线、道路边界、人行横道。每个实例都带有类别信息和一系列有序的坐标点。代理查询Agent Queries另一组可学习的向量负责“锁定”和“跟踪”动态交通参与者车辆、行人等。它们同样与BEV特征交互先解码出每个代理的当前状态位置、大小、朝向再通过代理与代理、代理与地图之间的交互网络预测每个代理未来的多种可能轨迹多模态预测。每条轨迹就是一串未来的坐标点也就是向量化运动。至此复杂的视觉场景被转化为了两份简洁的“矢量蓝图”一份是静态的道路结构图地图向量一份是动态的交通流预测图运动向量。这个过程是端到端学习的意味着网络自己学会了如何从像素中提取最有用的矢量化信息。2.2 阶段二规划即交互——让“自车”与“世界”对话拿到了“矢量蓝图”规划模块该如何使用它们呢VAD设计了一个非常巧妙的“交互式规划”机制。它引入了一个自我查询Ego Query你可以把它理解为自车我们自己的车在向量空间中的“意识体”或“代理”。这个“自我意识”不会闭门造车而是主动去与感知阶段得到的两份蓝图进行“对话”与“代理查询”对话Ego-Agent Interaction自我查询通过Transformer解码器去询问所有“代理查询”“你在哪里你未来打算怎么动”这个过程让自车充分理解周围每一个动态目标的意图和未来状态为避让和协同打下基础。与“地图查询”对话Ego-Map Interaction接着自我查询再去询问“地图查询”“路在哪里边界在哪车道方向如何”这使自车精确掌握了可行驶区域的几何约束和通行规则。经过这两轮深度“对话”自我查询这个向量里就融合了整个场景最关键的动态与静态信息。然后结合自车当前的状态如速度、加速度和一个高级导航指令如“前方路口左转”一个轻量级的规划头Planning Head通常就是几层MLP就能解码出未来数秒内自车的规划轨迹同样是以一串向量坐标的形式输出。这种设计的精妙之处在于规划所需的全部高级语义和几何信息都通过“查询交互”这个可微分的过程被浓缩和提炼到了自我查询中。规划头的工作变得非常“纯粹”基于这个富含信息的向量直接回归出合理的轨迹。2.3 阶段三约束即保障——为规划套上“安全缰绳”仅有隐式的交互学习还不够。为了让规划结果绝对可靠VAD更进一步将“矢量蓝图”中的信息转化为明确的、可计算的数学约束直接作用于规划轨迹的优化过程中。这就是向量化规划约束它是VAD实现高安全性的“杀手锏”。主要包含三类自车-代理碰撞约束Ego-Agent Collision Constraint这是最核心的安全约束。VAD会计算规划轨迹与所有其他代理预测轨迹取置信度最高的那一模态之间的时空距离。它并不是简单计算一个笼统的“距离”而是区分纵向和横向设置不同的安全阈值。例如纵向前后方向需要更大的安全距离因为相对速度高风险大横向左右方向在并排行驶时可以稍近。一旦预测距离小于安全阈值就会在损失函数中产生惩罚迫使网络优化轨迹以保持安全距离。自车-边界越界约束Ego-Boundary Overstepping Constraint这个约束确保车辆始终开在“路内”。VAD会计算规划轨迹上的每一个点到最近的道路边界向量来自地图向量的垂直距离。如果这个距离小于设定的安全边距比如0.5米就会产生惩罚把轨迹“推”回路中间。自车-车道方向约束Ego-Lane Directional Constraint这个约束让驾驶行为更符合人类习惯也更流畅。VAD会找到规划轨迹每个点所在的车道最近的车道线向量然后计算车辆在该点的前进方向与该车道线切线方向的夹角。夹角越大惩罚越大从而鼓励车辆沿着车道方向行驶减少不必要的摆动。这些约束在训练时作为损失函数的一部分与模仿学习损失让轨迹接近人类驾驶数据、感知预测损失一起指导整个端到端网络进行优化。它们把人类驾驶的常识和安全规则保持车距、不压线、沿车道行驶直接编码成了可微分的数学形式让AI在“黑盒”学习的同时也被明确的“交规”所引导。3. 效率革命为何向量化能让规划“轻装上阵”VAD不仅在性能上提升显著更在效率上实现了飞跃。其轻量级变体VAD-Tiny甚至能达到16.8 FPS的推理速度数倍于前代方法。这背后的效率革命完全得益于向量化范式带来的根本性优势。首先是数据表示的极度精简。对比一下一张高分辨率的BEV栅格语义图例如200x200网格每个像素都要存储和计算数据量庞大。而向量化表示中一条车道线可能只用10-20个关键点几十个浮点数就能精确描述一辆车的未来3秒轨迹可能只用12个点24个浮点数表示。对于整个场景可能只需要几百个向量实例数据量相比栅格图呈数量级下降。这意味着在网络中流动的数据更少显存占用更低传输和计算的开销自然大幅减少。其次是计算模式的根本改变。栅格化方法的后端规划往往需要在稠密的代价地图上进行搜索或优化这是计算密集型的操作。而VAD的规划核心是“查询交互”和基于向量的约束计算。Transformer的注意力机制虽然也有计算成本但其复杂度与序列长度向量实例的个数相关而向量实例的数量远少于栅格像素的数量。约束计算更是直接基于向量的几何运算如距离、角度计算非常高效。再者是模型设计的简洁化。由于规划所需的信息已经通过向量化感知和交互被高度提炼VAD的规划头可以设计得非常简单几层MLP不再需要复杂的、手工设计规则的轨迹搜索或优化器。同时VAD摒弃了许多传统端到端框架中为了辅助栅格表示而存在的冗余任务模块如密集的占用预测、实例跟踪关联等整个模型架构更加紧凑、高效。我们可以用一个表格来直观对比两种范式的核心差异特性维度传统栅格化规划范式VAD向量化规划范式场景表示稠密像素网格图像稀疏实例向量几何图信息粒度像素级模糊、间接实例级精确、直接核心计算在稠密栅格上进行卷积/搜索在稀疏向量间进行注意力交互与几何计算约束构建基于栅格代价图难以精确描述实例关系基于向量几何关系可构建精确的实例级约束可解释性较差“黑盒”性强决策过程难追溯极强规划轨迹可直接关联到具体车道线、车辆实例计算效率低处理高分辨率栅格开销大高数据稀疏计算直接后处理需求通常需要复杂的后处理如轨迹平滑、规则过滤端到端输出后处理简单或无需这种效率优势对于自动驾驶的现实部署至关重要。更高的帧率意味着系统响应更及时能应对更复杂的突发状况更低的算力需求意味着可以使用更便宜、功耗更低的车载计算平台直接推动商业化落地。4. 实战启示向量化范式带来的挑战与未来VAD的成功为我们指明了自动驾驶规划的一条清晰路径但这条路也并非一片坦途。在实际的研发和应用中向量化范式也带来了一些新的挑战和值得深思的方向。挑战一感知的精度是生命线。向量化规划极度依赖于感知模块输出的向量化结果的准确性。如果车道线检测飘了或者车辆轨迹预测错了那么基于这些错误向量构建的约束将是“失之毫厘谬以千里”可能导致危险的规划。这就要求感知模块必须非常鲁棒尤其是在恶劣天气、光照、复杂遮挡等边缘场景下。如何提升向量化感知的泛化能力和可靠性是首要课题。挑战二多模态预测的利用。VAD目前在其碰撞约束中只使用了置信度最高的那一模态预测轨迹。这固然稳妥但也可能忽略了其他合理的可能性。例如前方车辆有左转和直行两种可能如果只按直行去规划避让一旦它左转我们的规划就可能不是最优的。未来的系统可能需要更智能地考虑预测的不确定性进行风险感知的规划或者生成多模态的规划轨迹以备选择。挑战三更复杂交通规则的融入。目前的向量化约束主要关注几何安全不撞车、不压线。但真实的驾驶场景充满了更复杂的语义规则红绿灯、停止线、让行标志、交通指挥手势、复杂的路口通行规则如待转区等。如何将这些丰富的语义信息也向量化并转化为可计算的规划约束是下一个前沿。例如将交通灯状态作为一个时间序列向量将路权规则转化为优先级约束。挑战四长尾场景与交互博弈。向量化建模擅长处理有清晰几何和运动关系的场景。但对于一些高度依赖语义理解和社交默契的“长尾场景”比如无保护左转、环岛通行、人车混行区域的博弈单纯的几何约束可能不够。这需要向量化模型具备更强的交互意图推理能力也许需要引入更复杂的博弈论模型或基于大语言模型的常识推理并与几何约束相结合。从我过去在智能硬件和算法部署的经验来看VAD这类向量化框架的另一个巨大潜力在于软硬件协同优化。向量数据坐标、方向天生适合在GPU、NPU等并行处理器上进行高效处理也更容易进行量化、剪枝等模型压缩操作。我们可以预见未来针对向量化自动驾驶任务定制的AI加速芯片将会进一步释放其性能与能效优势。VAD的出现不是一个孤立的算法改进它代表了一种思维方式的转变让自动驾驶系统像工程师一样“理解”场景的几何本质像老司机一样运用明确的规则进行决策。它拆掉了感知与规划之间那堵“栅格化”的墙让信息以更本质、更高效的方式流动。虽然前路仍有挑战但向量化这扇大门已经打开它正引领自动驾驶的规划从“看图说话”的模糊时代迈向“按图施工”的精确时代。这不仅仅是技术的演进更是整个系统在安全性、可靠性和可解释性上的一次深刻重塑。