- 现有**感知无关的端到端(perception-free end-to-end)** 驾驶方法将密集图像块token压缩为紧凑场景token,但场景token仅受规划目标监督,对编码的视觉信息约束不足
- 场景token构成紧凑的视觉瓶颈,但规划器缺乏对视觉特征的直接约束,导致视觉信息丢失或冗余
- 研究背景:自动驾驶中感知模块与规划模块解耦,但感知无关方法省略显式感知输出,需平衡信息压缩与规划性能
- 提出**神经token重建(Neural Token Reconstruction, NTR)** 框架,引入**自蒸馏掩码潜在重建(self-distillation masked latent reconstruction)** 目标
- 使用**紧凑场景token(compact scene tokens)** 作为重建记忆,仅通过场景token瓶颈传递重建梯度,重建被掩码的patch级潜在特征
- 引入**基础模型注释(foundation-model annotations)** 产生的**语义先验(semantic priors)** 作为弱语义接口,将重建目标偏向驾驶相关结构(如道路、车辆)
- 所有辅助重建组件在推理时移除,部署的规划器保持不变
- **首创性**:首次在感知无关端到端驾驶中,通过**重建损失(reconstruction loss)** 直接约束场景token瓶颈,而非仅依赖规划目标
- **重建梯度强制通过瓶颈**:迫使场景token必须编码足够的视觉信息以完成重建,从而保留更丰富且冗余度低的表示
- **弱语义接口**:利用基础模型注释的语义先验引导重建,无需引入显式感知头,保持规划器简洁
- **推理零开销**:辅助模块仅用于训练,推理时完全移除,不增加计算负担
- 为**端到端自动驾驶** 提供一种有效的表示学习框架,提升紧凑场景token的视觉信息保留能力
- 在**Waymo E2E** (8.0461 RFS)、**NavSim1&2** (94.1 PDMS / 90.9 EPDMS)三个公开基准上达到**最优性能(state-of-the-art)**
- 实验证明学习到的场景token具有更低的成对冗余和更高的有效秩,验证了有效瓶颈监督能同时改善视觉表示学习和规划性能