何时信任想象力：世界行动模型的自适应行动执行

📝 论文摘要

世界动作模型（WAMs）近期作为机器人操作的一种有前景范式出现，通过联合预测未来视觉观测和未来动作。然而，当前WAMs通常在每次模型推理后执行固定数量的预测动作，这使得机器人无法判断其想象的未来是否与实际的物理展开保持一致。在本工作中，我们将自适应WAM执行建模为未来-现实验证问题：当WAM预测的未来保持可靠时，机器人应执行更长时间；当现实偏离想象时，应更早重新规划。为此，我们提出未来前向动力学因果注意力（FFDC），一种轻量级验证器，共同对预测的未来动作、预测的视觉动力学、真实观测和语言指令进行推理，以估计剩余动作序列是否仍可信任。FFDC使得自适应动作块大小成为预测-观测一致性的涌现结果，在保持长时程执行效率的同时，在接触密集或困难阶段恢复响应能力。我们进一步引入混合时域训练以改进自适应执行的长时程轨迹覆盖。在RoboTwin基准测试和真实世界中的实验表明，我们的方法实现了强鲁棒性与效率的权衡：在RoboTwin上，相较于短块基线，WAM前向传播减少69.10%，执行时间减少34.02%，同时成功率提升2.54%；在真实世界实验中，成功率提升35%。

🎯 研究动机

- 现有**世界动作模型(World Action Models, WAMs)** 在每次推理后执行固定数量的预测动作，导致机器人无法判断想象未来是否与实际物理展开一致 - 当前方法缺乏自适应机制：机器人要么盲目执行长序列导致在接触密集或困难阶段失败，要么频繁重新规划降低效率 - 研究背景：WAMs通过联合预测未来视觉观察和动作在机器人操作中展现出潜力，但固定执行步长限制了鲁棒性与效率的平衡

🔧 核心方法

- 提出**未来正向动态因果注意力(Future Forward Dynamics Causal Attention, FFDC)**，一个轻量级验证器，联合推理预测的未来动作、预测的视觉动态、真实观测和语言指令，以估计剩余动作滚动是否仍可信任 - 引入**混合视野训练(Mixture-of-Horizon Training)**，通过混合不同时间尺度的训练数据改善长程轨迹覆盖，支持自适应执行 - 将自适应WAM执行建模为**未来-现实验证(future-reality verification)** 问题：可靠时执行更长，偏离时提前重新规划

💡 核心创新

- **首次** 将WAM执行中的固定动作块大小问题转化为**未来-现实一致性验证** 问题，实现自适应动作块大小 - **FFDC** 作为轻量验证器，无需额外标注或复杂训练，通过预测-观测一致性度量自然决定何时重规划 - **混合视野训练** 策略提升长程动作轨迹的多样性，使模型在训练中适应不同执行长度，增强自适应能力 - 在RoboTwin基准上将WAM前向传播减少**69.10%**，执行时间减少**34.02%**，同时成功率比短块基线提高**2.54%**；真实世界实验中成功率提高**35%**

🏆 总体贡献

- 为**世界动作模型(WAMs)** 提供了首个自适应动作执行框架，显著提升了鲁棒性与效率的权衡 - 提出了**FFDC** 和**混合视野训练** 两项实用技术，可即插即用于现有WAM体系 - 在标准基准和真实机器人上验证了有效性，展示了从仿真到现实的可迁移性 - 为未来机器人学习中“何时信任想象”提供了一种可解释的解决方案，启发了**预测-观测一致性** 在决策中的应用

何时信任想象力：世界行动模型的自适应行动执行
When to Trust Imagination: Adaptive Action Execution for World Action Models

📊 核心分析

何时信任想象力：世界行动模型的自适应行动执行 When to Trust Imagination: Adaptive Action Execution for World Action Models

📊 核心分析

何时信任想象力：世界行动模型的自适应行动执行
When to Trust Imagination: Adaptive Action Execution for World Action Models