- **RGB-based模仿学习** 需要大量演示才能泛化到未见物体或场景,研究中间表示以提高泛化能力
- 视觉**基础模型(foundation models)** 可一次性提取关键点,但如何最优整合到模仿学习及何时优于其他表示尚不明确
- 现有**关键点模仿学习(Keypoint Imitation Learning, KIL)** 方法的设计选择和局限性缺乏系统性分析
- 结合先前**关键点模仿学习(KIL)** 的多项方法,研究不同设计选择(如关键点提取、整合方式等)
- 利用**视觉基础模型(visual foundation models)** 从单张图像中提取关键点作为中间表示
- 通过**超过2000次真实世界rollout** 在五个任务上评估KIL对未见物体和场景变化的泛化能力
- 将KIL扩展到**多物体实例(multiple object instances)** 任务,并分析基础模型的局限性
- **系统性设计选择研究**:首次对KIL的多个设计维度进行消融实验,提供实践指南
- **大规模真实世界评估**:使用2000+次真实机器人 rollout,对比KIL与**RGB基线(47%)** 和**S2-diffusion(73%)**,证明KIL达到相当性能(75%)
- **揭示局限性**:明确指出KIL并未超越其他表示,且会继承**基础模型(foundation models)** 的固有缺陷(如对光照、背景变化的敏感度)
- **多实例扩展**:将KIL从单物体推广到多物体实例场景,拓展其应用范围
- 验证了**关键点模仿学习(KIL)** 是一种数据高效的机器人学习方法,在五个任务上达到75%成功率
- 提供了**设计选择指南**,帮助研究人员根据任务需求配置KIL系统
- 公开**所有演示视频、实验数据和结果** (https://kil-manipulation.github.io/),促进社区复现与后续研究
- 明确指出KIL的**局限性**,为未来改进中间表示学习提供方向