- 现有**世界动作模型(World Action Models, WAMs)** 在每次推理后执行固定数量的预测动作,导致机器人无法判断想象未来是否与实际物理展开一致
- 当前方法缺乏自适应机制:机器人要么盲目执行长序列导致在接触密集或困难阶段失败,要么频繁重新规划降低效率
- 研究背景:WAMs通过联合预测未来视觉观察和动作在机器人操作中展现出潜力,但固定执行步长限制了鲁棒性与效率的平衡
- 提出**未来正向动态因果注意力(Future Forward Dynamics Causal Attention, FFDC)**,一个轻量级验证器,联合推理预测的未来动作、预测的视觉动态、真实观测和语言指令,以估计剩余动作滚动是否仍可信任
- 引入**混合视野训练(Mixture-of-Horizon Training)**,通过混合不同时间尺度的训练数据改善长程轨迹覆盖,支持自适应执行
- 将自适应WAM执行建模为**未来-现实验证(future-reality verification)** 问题:可靠时执行更长,偏离时提前重新规划
- **首次** 将WAM执行中的固定动作块大小问题转化为**未来-现实一致性验证** 问题,实现自适应动作块大小
- **FFDC** 作为轻量验证器,无需额外标注或复杂训练,通过预测-观测一致性度量自然决定何时重规划
- **混合视野训练** 策略提升长程动作轨迹的多样性,使模型在训练中适应不同执行长度,增强自适应能力
- 在RoboTwin基准上将WAM前向传播减少**69.10%**,执行时间减少**34.02%**,同时成功率比短块基线提高**2.54%**;真实世界实验中成功率提高**35%**
- 为**世界动作模型(WAMs)** 提供了首个自适应动作执行框架,显著提升了鲁棒性与效率的权衡
- 提出了**FFDC** 和**混合视野训练** 两项实用技术,可即插即用于现有WAM体系
- 在标准基准和真实机器人上验证了有效性,展示了从仿真到现实的可迁移性
- 为未来机器人学习中“何时信任想象”提供了一种可解释的解决方案,启发了**预测-观测一致性** 在决策中的应用