- 现有**模仿学习(imitation learning)** 通常以演示相同的速度复现任务,但实际工业应用要求机器人**尽可能快执行**,而演示时间往往长于机器人执行所需时间。
- 直接均匀下采样整个轨迹存在问题:任务某些部分可以安全加速(如无约束运动),而另一些部分需要慢速精确运动(如物体交互、精细操作),统一加速会导致性能下降。
- 需要一种方法能够智能地识别轨迹中哪些部分可以加速、哪些部分必须保持精度,从而**学习比演示更快的策略(faster-than-demonstration policies)**。
- 提出**VOLT (Vision and Language Trajectory Segmentation)** 方法,基于**视觉和语言线索** 对视频演示进行**轨迹分割(trajectory segmentation)**。
- 对视频演示推理上下文线索,判断何时加速合适、何时需要谨慎精度,识别需要慢速精确运动的片段,然后**选择性地下采样(selectively downsample)** 其余可加速片段。
- 重格式化后的轨迹可用于标准**模仿学习(imitation learning)** 方法(如**扩散策略(diffusion policies)**)进行策略训练。
- **首次提出基于视觉-语言线索的轨迹分割**:利用视频演示中的视觉信息和语言指令来区分不同运动阶段,而非仅依赖轨迹几何或速度阈值。
- **选择性加速策略**:不同于均匀下采样或固定阈值方法,VOLT动态识别哪些片段可以安全加速,哪些需要保留精确运动,避免过度激进或保守。
- **分割质量是关键**:实验表明基线方法经常错误判断是否可加速,导致策略要么过于谨慎(速度慢)要么不可靠(失败),VOLT通过精确分割实现了更快且稳定的执行。
- 为解决**比演示更快的策略学习** 问题提供了有效且实用的范式,通过**视觉-语言轨迹分割** 实现了加速而不牺牲性能。
- 在标准模仿学习框架(如扩散策略)上验证了方法的有效性,表明结合分割的质量是加速策略的核心。
- 为**机器人学习中的速度-精度权衡(speed-accuracy trade-off)** 提供了新的视角,推动了从慢速演示到快速执行的自动化流程。