如何利用失败演示数据？：使用注意力机制中的分布差异进行模仿学习的有效数据选择

📝 论文摘要

机器人任务的模仿学习主要依赖于仅在成功示范上训练的策略，尽管在人类数据收集过程中失败是不可避免的。许多现有的利用失败数据的方法需要额外的数据处理或通过自主部署进行迭代策略更新，这使得直接且稳定地利用数据收集过程中积累的失败数据变得困难。在本文中，我们提出了一种方法，该方法学习成功与失败差异的潜在表示，并将其融入注意力机制。在推理过程中，从初始观测中选择合适的潜在模式以提高动作稳定性。此外，我们引入了一种训练后度量，量化每个失败样本与成功示范之间的注意力差异，以选择失败数据。仿真结果表明，所提出的方法在使用失败数据训练时能提高任务成功率，并且所提出的度量能够识别出与成功示范结合时有益于学习的失败样本。这些结果表明，该方法可以支持在机器人数据收集流程中更有效地利用收集到的示范数据。

🎯 研究动机

- 模仿学习(imitation learning)通常只使用成功演示数据训练策略，但人类数据收集过程中失败演示不可避免。 - 现有利用失败数据的方法需要额外数据预处理或通过自主交互(autonomous rollout)迭代更新策略，难以直接且稳定地利用收集到的失败数据。 - 需要一种简单有效的方法，既能利用失败数据提升性能，又能自动筛选出对学习有益的失败样本。

🔧 核心方法

- 学习成功-失败差异的**潜在表示(latent representation)**，并将其融入**注意力机制(attention mechanism)** 中。 - 推理时根据**初始观测(initial observation)** 动态选择适当的潜在模式(latent mode)，以提高动作的稳定性。 - 提出一个**训练后指标(post-training metric)**，量化每个失败样本与成功演示之间的**注意力分布差异(attention discrepancy)**，用于筛选有价值的失败数据。

💡 核心创新

- **首创性**：首次将**成功-失败差异的潜在表示** 与**注意力机制** 结合，使模型能显式建模两种演示的差异。 - **数据选择机制**：提出基于注意力分布差异的指标，无需额外自主交互即可自动识别有益的失败样本。 - **稳定性提升**：利用初始观测自适应选择潜在模式，避免推理时因失败数据引入的不稳定动作输出。

🏆 总体贡献

- 提供了一种**直接、稳定** 利用失败演示数据的方案，无需复杂的数据处理或迭代训练。 - 在仿真实验中，所提方法显著提高了使用失败数据训练时的**任务成功率(task success rate)**。 - 推动了机器人**数据收集管线(data collection pipeline)** 的效率，使原本被丢弃的失败数据也能为策略学习做出贡献。

如何利用失败演示数据？：使用注意力机制中的分布差异进行模仿学习的有效数据选择
How to utilize failure demo data?: Effective data selection for imitation learning using distribution differences in attention mechanism

📊 核心分析

如何利用失败演示数据？：使用注意力机制中的分布差异进行模仿学习的有效数据选择 How to utilize failure demo data?: Effective data selection for imitation learning using distribution differences in attention mechanism

📊 核心分析

如何利用失败演示数据？：使用注意力机制中的分布差异进行模仿学习的有效数据选择
How to utilize failure demo data?: Effective data selection for imitation learning using distribution differences in attention mechanism