- 模仿学习(imitation learning)通常只使用成功演示数据训练策略,但人类数据收集过程中失败演示不可避免。
- 现有利用失败数据的方法需要额外数据预处理或通过自主交互(autonomous rollout)迭代更新策略,难以直接且稳定地利用收集到的失败数据。
- 需要一种简单有效的方法,既能利用失败数据提升性能,又能自动筛选出对学习有益的失败样本。
- 学习成功-失败差异的**潜在表示(latent representation)**,并将其融入**注意力机制(attention mechanism)** 中。
- 推理时根据**初始观测(initial observation)** 动态选择适当的潜在模式(latent mode),以提高动作的稳定性。
- 提出一个**训练后指标(post-training metric)**,量化每个失败样本与成功演示之间的**注意力分布差异(attention discrepancy)**,用于筛选有价值的失败数据。
- **首创性**:首次将**成功-失败差异的潜在表示** 与**注意力机制** 结合,使模型能显式建模两种演示的差异。
- **数据选择机制**:提出基于注意力分布差异的指标,无需额外自主交互即可自动识别有益的失败样本。
- **稳定性提升**:利用初始观测自适应选择潜在模式,避免推理时因失败数据引入的不稳定动作输出。
- 提供了一种**直接、稳定** 利用失败演示数据的方案,无需复杂的数据处理或迭代训练。
- 在仿真实验中,所提方法显著提高了使用失败数据训练时的**任务成功率(task success rate)**。
- 推动了机器人**数据收集管线(data collection pipeline)** 的效率,使原本被丢弃的失败数据也能为策略学习做出贡献。