1. 项目概述Drive-JEPA框架的核心创新Drive-JEPA是自动驾驶领域的一项突破性研究它通过整合视频联合嵌入预测架构V-JEPA与多模态轨迹蒸馏技术解决了端到端自动驾驶中的两个关键瓶颈问题。传统方法在视频预训练和轨迹多样性建模方面存在明显不足而Drive-JEPA的创新设计带来了显著性能提升。1.1 技术背景与挑战当前端到端自动驾驶系统面临两大核心挑战视频表征学习效率低下现有视频世界模型要么依赖计算密集的像素级重建如VaVAM、Epona要么使用简单的潜在特征预测如LAW、World4Drive难以平衡计算效率与表征质量轨迹多样性不足实际驾驶场景中每个情境通常只提供单一人为轨迹导致模型难以学习多模态行为容易陷入模式坍塌关键洞察V-JEPA的自监督预测架构能有效防止表征坍塌而模拟器生成的多样化轨迹可弥补真实数据监督信号的不足1.2 框架整体架构Drive-JEPA包含三个核心模块驾驶视频预训练基于V-JEPA目标在208小时驾驶视频上预训练ViT编码器多模态轨迹蒸馏通过k-means聚类构建8192个轨迹的词汇表利用规则模拟器筛选高质量多模态轨迹作为伪教师动量感知轨迹选择引入跨帧舒适度评分机制缓解轨迹多样性增加带来的时序抖动问题图Drive-JEPA三大模块协同工作流程虚线框表示预训练阶段2. 关键技术深度解析2.1 V-JEPA视频预训练适配2.1.1 领域自适应策略原始V-JEPA在通用视频数据上训练需针对驾驶场景进行适配数据准备整合CoVLA、DrivingDojo和OpenScene数据集处理为512×256分辨率、2Hz采样率的8帧视频片段掩码策略采用时空块随机丢弃mask ratio0.7迫使模型学习场景动态预测损失函数仅在掩码位置计算L1预测误差使用EMA教师模型稳定训练# V-JEPA核心训练伪代码 mask generate_spatiotemporal_mask(video_clip) # 70%掩码率 latent_target teacher_encoder(video_clip) # 停止梯度 predicted student_predictor(mask, student_encoder(masked_clip)) loss L1_loss(predicted[mask], latent_target[mask])2.1.2 感知无关评估在NAVSIM的感知无关设置下仅使用预训练ViT提取前视图像特征配合轻量Transformer解码器输入连续两帧前视图像512×256特征维度D1024Nf256特征点数解码器8个可学习查询对应未来8个路径点训练目标预测路径点与真实轨迹的MSE损失实验表明仅此简单配置就超越之前方法3 PDMS验证了V-JEPA表征的有效性。2.2 多模态轨迹蒸馏实现2.2.1 轨迹词汇表构建通过k-means聚类100k真实轨迹得到8192个中心轨迹特征工程将轨迹参数化为41个稠密点PID控制插值距离度量采用动态时间规整(DTW)距离优于欧氏距离平衡点词汇表大小影响覆盖度与计算成本经实验验证8192为最优2.2.2 模拟器轨迹筛选对词汇表中每个轨迹进行离线评分重放场景中其他道路参与者状态计算EPDMS分数阈值0.95保留安全合规的Top-N轨迹作为伪教师L_{traj} \sum_{\ell1}^L \lambda^{L-\ell} \left( \min\|W_t-\tilde{W}_\ell^{(n)}\|_2 \sum_{P\in P_t}\min\|P-\tilde{W}_\ell^{(n)}\|_2 \right)2.2.3 路径点锚定提案生成采用类iPAD的迭代细化架构初始化32个提案查询Np32每个查询对应8个未来路径点特征聚合基于可变形注意力在BEV空间采样特征迭代优化5次 refinementL5λ0.1的衰减监督图迭代细化过程中提案轨迹的演化红色为最终选择2.3 动量感知选择机制2.3.1 评分器设计提案评分网络结构输入池化后的提案特征max over waypoints隐藏层3层MLP1024→512→1监督信号基于模拟器EPDMS分数的二值标签Top20%为正样本2.3.2 舒适度优化引入跨帧一致性惩罚计算当前提案与上一帧选定轨迹的DTW距离归一化为舒适度分数Sc∈[0,1]分数融合S ← 0.875S 0.125Sc该设计使EPDMS中的EC指标从47.9提升至84.8显著改善乘坐体验。3. 实验与性能分析3.1 基准测试结果3.1.1 NAVSIM v1/v2表现方法骨干网络PDMS(v1)EPDMS(v2)HydraMDPResNet3486.681.4iPadViT/L91.785.8Drive-JEPAViT/L93.387.8关键提升点安全性NC指标达98.4%无责任碰撞多样性提案间DTW距离增加60%舒适性EC指标相对提升77%3.1.2 Bench2Drive闭环测试在CARLA模拟器中成功率(SR)36.82%相对提升3.8%驾驶评分(DS)64.52绝对提升1.06效率保持157.85高分的同时提升安全性3.2 消融实验洞察3.2.1 模块贡献分析配置EPDMSΔEPDMS基线(iPad)84.1-V-JEPA85.81.7MTD86.12.0完整框架87.83.7MTD使多样性指标D从25%提升至40%验证了多模态监督的有效性。3.2.2 伪教师轨迹数量NpseudoEPDMS087.2487.8887.5实验表明Npseudo4时达到最佳平衡过多可能引入噪声。4. 工程实践要点4.1 部署优化建议计算瓶颈V-JEPA编码器参数量达307M需H800 GPU实时推理优化方案知识蒸馏到较小ViT如ViT-S延迟控制多模态轨迹生成引入约35ms额外延迟应对策略提前缓存高频场景轨迹模式内存占用BEV特征采样需8GB显存改进采用稀疏注意力机制4.2 实际应用挑战数据偏差问题现象模拟器轨迹与真实驾驶风格差异解决方案混合真实轨迹微调MixFine策略长尾场景应对构建场景特定的轨迹词汇表子集示例紧急避让、施工区等特殊场景经验分享在XPENG实车测试中发现舒适度权重需根据地区驾驶习惯调整如中国城市道路设为0.15高速公路0.105. 未来发展方向多传感器融合当前仅用前视相机扩展LiDAR/雷达特征增量学习应对新型交通参与者如电动滑板车人机共驾引入驾驶员个性化轨迹偏好建模这项工作的代码已开源研究团队计划持续更新NAVSIM v3适配版本。对于希望复现的研究者建议从感知无关设置入手逐步添加多模态蒸馏模块。