现有的端到端机器人操控模型在固定相机视角下训练时,对相机视角变化的鲁棒性不足,限制了其在实际场景中的泛化能力。
提出VistaBot框架,集成前馈几何模型(feed-forward geometric models)与视频扩散模型(video diffusion models),包含三个关键组件:4D几何估计(4D geometry estimation)、视角合成潜在特征提取(view synthesis latent extraction)和潜在动作学习(latent action learning)。该框架无需测试时的相机标定,并集成到动作分块(ACT)和基于扩散的策略(π₀)中。
1. 提出几何感知的视角合成模型(geometry-aware synthesis model),结合4D几何与视频扩散实现鲁棒视角合成;2. 设计潜在动作规划器(latent action planner),从合成视角中提取潜在特征进行闭环操控;3. 引入视角泛化分数(View Generalization Score, VGS)作为评估跨视角泛化能力的新指标。
1. 提出VistaBot框架,显著提升机器人操控对相机视角变化的鲁棒性;2. 在仿真和真实任务中,将VGS分别提升2.79倍(ACT)和2.63倍(π₀);3. 提供新的基准指标(VGS)用于全面评估跨视角泛化;4. 开源代码和模型以促进后续研究。