机器人模仿学习(imitation learning)面临一个基本权衡:如何同时建模长时程依赖(long-horizon dependencies)和实现细粒度的闭环控制(fine-grained closed-loop control)。现有固定频率的动作分块(action chunking)方法难以兼顾这两方面。
提出了HiPolicy,一个分层多频率动作分块框架。具体方法包括:
- 联合预测不同频率的动作序列,以同时捕获粗略的高层计划和精确的反应性运动。
- 从与每个频率对齐的历史观测中提取并融合分层特征,用于生成多频率动作块。
- 引入熵引导的执行机制(entropy-guided execution mechanism),根据动作不确定性(action uncertainty)自适应地平衡长时程规划与细粒度控制。
核心创新在于提出了分层多频率动作分块框架,突破了固定频率分块的限制。独特之处包括:
- 首次将多频率动作预测与分层特征融合相结合,同时建模不同时间尺度的行为。
- 设计了基于不确定性的自适应执行机制,动态调整规划与控制的比例,而非使用固定模式。
- 框架具有通用性,可无缝集成到现有的2D和3D生成策略(generative policies)中。
论文的整体贡献包括:
- 提出了一个新颖的框架,有效解决了模仿学习中长时程依赖与细粒度控制的权衡问题。
- 在多种模拟基准和真实世界操作任务上验证了方法的有效性,实现了性能的持续提升。
- 显著提高了执行效率,为机器人策略学习(policy learning)提供了新的技术路径。