← 返回论文列表

MARS策略:仅在必要时采用多模态
MARS Policy: Multimodality Only When It Matters

作者: Jindou Jia, Tuo An, Yuxuan Hu 等10人
arXiv: 2605.29766v1
分类: cs.RO
📝 论文摘要
模仿学习已成为解决复杂机器人操作任务的基石。特别是使机器人能够捕捉多样且有效行为模式的多模态能力,推动了生成式策略作为机器人学习主流范式的快速兴起。然而,实现这种多模态通常依赖于随机噪声初始化和迭代去噪过程,导致训练复杂度高、推理效率低。同时,机器人任务的并非所有阶段都需要行为多样性。受此启发,我们提出模态自适应机器人采样(MARS)策略,该策略仅在真正有益时自适应地调用定制随机性,而在单模态阶段回归高效确定性学习。换言之,仅在适当时机注入适量噪声。通过选择性激活多模态生成,MARS策略弥合了生成式策略的多模态能力与确定性模型卓越训练及推理效率之间的差距。在8个模拟任务和4个真实世界任务中的实验表明,MARS展现出稳健的多模态表达力与高效率,在真实世界测试中成功率提升16.67%,推理延迟降低83.20%。反直觉的是,MARS在近乎确定性的任务上通过更有效建模细微动作多样性,甚至超越了确定性策略的训练效率。

📊 核心分析

🎯 研究动机
- 现有**多模态生成策略(multimodal generative policies)** 依赖随机噪声初始化和迭代去噪,导致训练复杂、推理效率低 - 并非所有任务阶段都需要行为多样性,盲目使用多模态造成资源浪费 - 研究背景:模仿学习在机器人操作中广泛应用,但难以兼顾多模态表达能力和高效训练/推理
🔧 核心方法
- 提出**模态自适应机器人采样(MARS)策略**,根据任务阶段自适应地引入随机性 - 在真正需要多样性的阶段调用**定制随机性(customized stochasticity)**,在单模态阶段恢复为确定性学习 - 通过“在适当时间注入适当噪声”的机制,平衡多模态能力与效率
💡 核心创新
- **选择性多模态激活**:不同于传统方法全程使用多模态,MARS仅在有益时启用,避免冗余开销 - **桥接效率鸿沟**:将生成策略的多模态能力与确定性模型的高效训练/推理相结合 - **训练效率反超**:在近确定性任务中,MARS通过建模细微动作多样性,训练效率甚至超过确定性策略(反直觉)
🏆 总体贡献
- 提供了一种**模态自适应(Modality-Adaptive)** 的机器人学习新范式,显著降低多模态策略的实际部署成本 - 在8个仿真和4个真实任务中验证:成功率提升**16.67%**,推理延迟降低**83.20%** - 推动高效模仿学习发展,弥合多模态生成与确定性策略之间的性能-效率鸿沟