← 返回论文列表

超越模仿:从难负样本中学习安全的端到端自动驾驶
Beyond Imitation: Learning Safe End-to-End Autonomous Driving from Hard Negatives

作者: Junli Wang, Zhihua Hua, Xueyi Liu 等10人
arXiv: 2605.19771v1
分类: cs.RO, cs.CV
📝 论文摘要
现有的端到端自动驾驶模仿学习方法主要通过最小化与专家轨迹的几何偏差来学习成功示范。该范式隐含地假设空间邻近性意味着行为安全性,导致了关键的目标失配:具有几乎相同模仿损失的轨迹可能产生截然不同的安全结果——其中一种可恢复,而另一种导致碰撞。为解决此限制,我们提出BeyondDrive,一种失败感知的模仿学习框架,同时从成功和失败驾驶行为中学习。首先,我们引入基于流匹配的负轨迹生成器,合成安全关键且接近专家的轨迹,从而实现安全不对称性的显式建模。其次,我们开发了一种多样性感知采样策略,减轻模式坍塌并提高负轨迹生成过程中对不同失败模式的覆盖。第三,我们提出排斥距离损失,同时将预测吸引向专家示范并远离困难负轨迹,从而在轨迹空间中建立判别性安全边界。应用于单模态基线Latent TransFuser,BeyondDrive在NAVSIMv1闭环基准上达到89.7 PDMS,超越先前最先进方法。此外,BeyondDrive有效泛化至不同自动驾驶架构(包括多模态规划器),并在HUGSIM基准上进一步展示了强大的零样本迁移能力。

📊 核心分析

🎯 研究动机
- 现有**模仿学习(imitation learning)** 方法仅从成功驾驶演示中学习,最小化几何偏差,隐含假设空间接近即安全,导致目标不匹配:相同模仿损失的轨迹可能有截然不同的安全结果(可恢复 vs 碰撞) - 现有方法无法显式建模**安全不对称性(safety asymmetry)**,即靠近专家轨迹不代表安全,缺乏对失败驾驶行为的利用 - 研究背景:端到端自动驾驶需要同时学习成功与失败行为,以建立安全边界
🔧 核心方法
- 提出**BeyondDrive** 框架,包含三个核心组件 - 基于**流匹配(flow matching)** 的**负轨迹生成器(negative trajectory generator)**,合成安全关键但接近专家轨迹的硬负样本,显式建模安全不对称性 - **多样性感知采样策略(diversity-aware sampling strategy)**,缓解模式坍塌并覆盖多样化的失败模式 - **排斥距离损失(Repulsive Distance Loss)**,同时吸引预测向专家演示靠近,并排斥远离硬负轨迹,在轨迹空间中建立判别性安全边界
💡 核心创新
- **首次将失败驾驶行为纳入端到端模仿学习**,通过显式生成并学习硬负样本打破仅从成功演示学习的局限 - **流匹配生成硬负轨迹**:不同于随机扰动或对抗攻击,流匹配生成与专家轨迹近邻但安全性差的轨迹,精确建模安全不对称性 - **排斥距离损失**:在轨迹空间同时施加吸引力和排斥力,建立明确的**安全边界(safety boundary)**,不同于传统仅最小化误差的损失 - **通用架构**:可应用于不同自动驾驶框架(单模态、多模态规划器),并展现强零样本迁移能力
🏆 总体贡献
- 提出**失败感知模仿学习(failure-aware imitation learning)** 新范式,解决模仿学习中安全不对称性问题 - 在**NAVSIMv1闭环基准** 上达到**89.7 PDMS**,超越先前SOTA方法 - 在**HUGSIM基准** 上展现强零样本迁移能力,证明泛化性 - 开源代码和框架,促进端到端自动驾驶安全研究