← 返回论文列表

NTR:面向端到端驾驶场景令牌瓶颈的神经令牌重建
NTR: Neural Token Reconstruction for Scene Token Bottleneck in End-to-End Driving

作者: Jiahui Li, Jiawei Sun, Zixiang Ren 等10人
arXiv: 2605.31116v1
分类: cs.CV, cs.RO
📝 论文摘要
近期,无感知端到端自动驾驶方法通过将密集图像块标记压缩为紧凑场景标记,用于下游轨迹生成与评分,从而绕过了显式感知输出。尽管这些场景标记为规划器形成了紧凑的视觉瓶颈,但它们仅接受来自规划目标的监督,对编码的视觉信息施加了有限的约束。为解决这一局限,我们提出神经标记重建(NTR),这是一种直接约束无感知驾驶中紧凑场景标记瓶颈的表征学习框架。NTR引入自蒸馏掩码潜在重建目标,仅使用紧凑场景标记作为重建记忆,重建掩码后的块级潜在特征。这迫使重建梯度仅通过场景标记瓶颈传递,促使场景标记为规划保留更丰富且冗余更少的视觉表征。我们进一步引入基于基础模型标注的语义先验,作为弱语义接口,将重建目标偏向于驾驶相关结构,而无需引入显式感知头部。所有辅助重建组件在推理时均被移除,部署的规划器保持不变。NTR在三个公开自动驾驶基准上实现了最先进的性能,包括Waymo E2E上的8.0461 RFS以及NavSim1&2上的94.1 PDMS/90.9 EPDMS。学习到的场景标记展现出更低的成对冗余度和更高的有效秩,表明有效的瓶颈监督同时提升了紧凑视觉表征学习与规划性能。

📊 核心分析

🎯 研究动机
- 现有**感知无关的端到端(perception-free end-to-end)** 驾驶方法将密集图像块token压缩为紧凑场景token,但场景token仅受规划目标监督,对编码的视觉信息约束不足 - 场景token构成紧凑的视觉瓶颈,但规划器缺乏对视觉特征的直接约束,导致视觉信息丢失或冗余 - 研究背景:自动驾驶中感知模块与规划模块解耦,但感知无关方法省略显式感知输出,需平衡信息压缩与规划性能
🔧 核心方法
- 提出**神经token重建(Neural Token Reconstruction, NTR)** 框架,引入**自蒸馏掩码潜在重建(self-distillation masked latent reconstruction)** 目标 - 使用**紧凑场景token(compact scene tokens)** 作为重建记忆,仅通过场景token瓶颈传递重建梯度,重建被掩码的patch级潜在特征 - 引入**基础模型注释(foundation-model annotations)** 产生的**语义先验(semantic priors)** 作为弱语义接口,将重建目标偏向驾驶相关结构(如道路、车辆) - 所有辅助重建组件在推理时移除,部署的规划器保持不变
💡 核心创新
- **首创性**:首次在感知无关端到端驾驶中,通过**重建损失(reconstruction loss)** 直接约束场景token瓶颈,而非仅依赖规划目标 - **重建梯度强制通过瓶颈**:迫使场景token必须编码足够的视觉信息以完成重建,从而保留更丰富且冗余度低的表示 - **弱语义接口**:利用基础模型注释的语义先验引导重建,无需引入显式感知头,保持规划器简洁 - **推理零开销**:辅助模块仅用于训练,推理时完全移除,不增加计算负担
🏆 总体贡献
- 为**端到端自动驾驶** 提供一种有效的表示学习框架,提升紧凑场景token的视觉信息保留能力 - 在**Waymo E2E** (8.0461 RFS)、**NavSim1&2** (94.1 PDMS / 90.9 EPDMS)三个公开基准上达到**最优性能(state-of-the-art)** - 实验证明学习到的场景token具有更低的成对冗余和更高的有效秩,验证了有效瓶颈监督能同时改善视觉表示学习和规划性能