- 现有**多模态生成策略(multimodal generative policies)** 依赖随机噪声初始化和迭代去噪,导致训练复杂、推理效率低
- 并非所有任务阶段都需要行为多样性,盲目使用多模态造成资源浪费
- 研究背景:模仿学习在机器人操作中广泛应用,但难以兼顾多模态表达能力和高效训练/推理
- 提出**模态自适应机器人采样(MARS)策略**,根据任务阶段自适应地引入随机性
- 在真正需要多样性的阶段调用**定制随机性(customized stochasticity)**,在单模态阶段恢复为确定性学习
- 通过“在适当时间注入适当噪声”的机制,平衡多模态能力与效率
- **选择性多模态激活**:不同于传统方法全程使用多模态,MARS仅在有益时启用,避免冗余开销
- **桥接效率鸿沟**:将生成策略的多模态能力与确定性模型的高效训练/推理相结合
- **训练效率反超**:在近确定性任务中,MARS通过建模细微动作多样性,训练效率甚至超过确定性策略(反直觉)
- 提供了一种**模态自适应(Modality-Adaptive)** 的机器人学习新范式,显著降低多模态策略的实际部署成本
- 在8个仿真和4个真实任务中验证:成功率提升**16.67%**,推理延迟降低**83.20%**
- 推动高效模仿学习发展,弥合多模态生成与确定性策略之间的性能-效率鸿沟