← 返回论文列表

VistaBot:通过时空感知视图合成实现视角鲁棒的机器人操作
VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis

作者: Songen Gu, Yuhang Zheng, Weize Li 等9人
arXiv: 2604.21914v1
分类: cs.RO
📝 论文摘要
近期,端到端机器人操作模型因其泛化性和可扩展性而受到广泛关注。然而,当使用固定相机进行训练时,这类模型往往对相机视角变化缺乏鲁棒性。本文提出VistaBot——一种将前馈几何模型与视频扩散模型相结合的新型框架,可在测试时无需相机标定的情况下实现视角鲁棒的闭环操作。该方法包含三个关键组件:4D几何估计、视角合成潜在特征提取以及潜在动作学习。VistaBot被集成到动作分块(ACT)和基于扩散的(π₀)策略中,并在仿真和真实世界任务中进行了评估。我们进一步引入视角泛化分数(VGS)作为跨视角泛化综合评估的新指标。实验结果表明,VistaBot在ACT和π₀策略上分别将VGS提升了2.79倍和2.63倍,同时实现了高质量的新视角合成。本文贡献包括:几何感知合成模型、潜在动作规划器、新型基准评估指标,以及在多样化环境中的广泛验证。相关代码和模型将公开发布。

📊 核心分析

🎯 研究动机
现有的端到端机器人操控模型在固定相机视角下训练时,对相机视角变化的鲁棒性不足,限制了其在实际场景中的泛化能力。
🔧 核心方法
提出VistaBot框架,集成前馈几何模型(feed-forward geometric models)与视频扩散模型(video diffusion models),包含三个关键组件:4D几何估计(4D geometry estimation)、视角合成潜在特征提取(view synthesis latent extraction)和潜在动作学习(latent action learning)。该框架无需测试时的相机标定,并集成到动作分块(ACT)和基于扩散的策略(π₀)中。
💡 核心创新
1. 提出几何感知的视角合成模型(geometry-aware synthesis model),结合4D几何与视频扩散实现鲁棒视角合成;2. 设计潜在动作规划器(latent action planner),从合成视角中提取潜在特征进行闭环操控;3. 引入视角泛化分数(View Generalization Score, VGS)作为评估跨视角泛化能力的新指标。
🏆 总体贡献
1. 提出VistaBot框架,显著提升机器人操控对相机视角变化的鲁棒性;2. 在仿真和真实任务中,将VGS分别提升2.79倍(ACT)和2.63倍(π₀);3. 提供新的基准指标(VGS)用于全面评估跨视角泛化;4. 开源代码和模型以促进后续研究。