Sparse4D v2是面向自动驾驶多视图时序3D感知的稀疏感知算法在Sparse4D基础上从时序融合结构、计算效率、训练稳定性等维度做了系统性优化在nuScenes基准上达到了SOTA性能图1两种不同时间融合方法的比较。(a) Sparse4D需要将当前帧的锚点投影到每个历史帧上然后进行多帧特征采样和融合。(b) Sparse4Dv2通过实例特征的传播实现融合。一、研究背景与基础认知1. 自动驾驶感知的核心需求自动驾驶感知模块需要兼顾性能、效率、下游适配性多传感器/时序特征融合是提升感知精度的核心方向同时需要适配端到端自动驾驶对实例级结构化特征的需求。2. 现有主流感知方案的局限性方案类型代表算法核心缺陷BEV类算法BEVFormer、BEVDepth等1. 图像特征到BEV空间的转换会提升模型复杂度2. 感知范围、精度、计算量三者的平衡高度依赖场景调参3. 输出的稠密BEV特征难以直接对接Transformer、图模型等端到端自动驾驶模块Query类非纯稀疏算法PETR系列采用全局注意力机制计算复杂度与图像特征分辨率强相关高分辨率输入下效率极低初代Sparse4DSparse4D v1时序融合需要逐帧对当前帧anchor投影到所有历史帧采样特征复杂度随历史帧数T线性增长O(T)内存占用高、推理速度慢难以融合长时序信息二、Sparse4D v2核心创新点1. 循环时序融合Recurrent Temporal Fusion这是Sparse4D v2最核心的结构改进将时序融合复杂度从O(T)降低到O(1)核心思路解耦实例的结构化anchor信息和高阶语义特征仅在帧间传递稀疏实例特征而非重复采样所有历史帧特征。实例传播逻辑实例由三部分组成带物理含义的结构化anchor3D框、速度等、图像提取的实例语义特征、anchor的高维编码帧间传播时仅需利用自车运动参数将上一帧的anchor投影到当前帧语义特征直接复用再对投影后的anchor重新编码即可At​Projectt−1→t​(At−1​), Et​Ψ(At​), Ft​Ft−1​其中3D检测场景下的投影会融合时间间隔、自车旋转平移矩阵对anchor的位置、朝向、速度做坐标系转换。新旧实例处理历史传播的实例负责跟踪已出现的物体新增单帧解码器层负责检测新出现的物体筛选高分实例输入后续 decoder保证anchor数量稳定不会增加推理负担。收益推理速度大幅提升支持长时序信息融合精度进一步提高。2. 高效可变形聚合Efficient Deformable Aggregation, EDA针对原始可变形聚合频繁访问GPU高带宽内存HBM、中间变量占用内存高的问题做了算子级优化原始流程多次从HBM读写特征、存储大量中间变量用于反向传播内存开销大、速度慢。优化方案将双线性采样、多视图/多尺度加权求和两个步骤封装为单个CUDA算子单步输出多视点融合特征充分利用GPU并行计算能力。收益训练阶段GPU内存占用降低51%训练速度提升38%推理阶段FPS提升42%内存占用降低53%大幅降低部署门槛。3. 显式相机参数编码解决Sparse4D v1隐式拟合相机参数泛化性差的问题原有问题v1将相机参数隐式嵌入全连接层参数中对相机参数变化、输入视图顺序调整的泛化性差数据增强下收敛慢。改进方案直接将相机外参/内参对应的空间转换矩阵编码为高维特征叠加到实例特征中再计算对应视图的采样权重。收益目标朝向估计精度显著提升mAP提升2.0朝向平均误差mAOE降低4.8。4. 稠密深度辅助监督缓解稀疏算法早期训练收敛慢、不稳定的问题方案训练阶段新增多尺度稠密深度预测分支以激光雷达点云为监督采用L1损失优化推理阶段该分支不启用。收益避免训练过程梯度崩溃mAP提升8.5NDS提升10.4同时可以移除v1中的深度重加权模块。图2Sparse4Dv2的整体框架采用编码器-解码器结构。这个输入包含三个部分多视角图像、相机参数以及前一帧中的实例信息。输出为精炼后的实例锚点及其对应特征作为当前帧的感知结果。此外其中一部分实例被选中并用作下一帧的输入。三、整体框架设计Sparse4D v2采用编码器-解码器结构编码器输入多视图图像提取多尺度多视图特征图。解码器由1个单帧层5个多帧层组成单帧层包含可变形聚合、FFN、输出层负责检测新出现的物体筛选高分实例输入后续层多帧层额外新增时序交叉注意力融合历史实例特征、实例间自注意力实现实例交互输入同时来自单帧层的新实例和上一帧传播的历史实例。输出当前帧的实例检测结果筛选高分实例作为下一帧的输入完成时序循环。四、实验验证与结论1. 实验基准采用自动驾驶主流的nuScenes 3D检测数据集评估指标包括mAP平均精度均值、NDSnuScenes检测综合得分核心指标误差类指标平移误差mATE、尺寸误差mASE、朝向误差mAOE、速度误差mAVE、属性误差mAAE。2. 核心实验结果1消融实验验证各模块收益模块收益循环时序融合相比无时序版本mAP提升9.8NDS提升12.5单帧层设计相比全多帧层版本mAP提升3.5NDS提升2.0相机参数编码mAP提升2.0mAOE降低4.8稠密深度监督mAP提升8.5NDS提升10.4避免训练崩溃高效可变形聚合训练内存减半推理FPS提升42%2SOTA性能对比低分辨率输入256×704ResNet50mAP 0.439、NDS 0.539超过VideoBEV、StreamPETR等同期SOTA算法推理速度达20.3FPS。高分辨率输入512×1408ResNet101nuImage预训练未来帧NDS达0.608比Sparse4D v1提升3.0推理速度是v1的2.9倍由于头部计算复杂度与输入分辨率无关高分辨率下速度超过StreamPETR8.4FPS vs 6.4FPS更适配长距离感知等高分辨率需求场景。测试集SOTA采用VoVNet-99 backbone时NDS达0.638超过SOLOFusion、BEVFormer v2、VideoBEV、StreamPETR等所有主流方案达到同期最优水平。表4在nuScenes验证集上3D检测结果。†表示使用来自nuImage数据集的预训练权重*表示使用后续帧。五、总结与展望1. 核心结论Sparse4D v2通过结构、效率、训练优化三重改进验证了稀疏感知算法可以同时兼顾高精度、高推理效率、端到端适配性为自动驾驶多视图时序感知提供了新的基线方案。2. 未来方向进一步验证算法的场景泛化性、鲁棒性和长距离检测性能拓展稀疏感知算法在高精地图构建、拓扑推理、轨迹预测、端到端规划等自动驾驶全链路任务的应用。