VistaBot：通过时空感知视图合成实现视角鲁棒的机器人操作

VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis

作者: Songen Gu, Yuhang Zheng, Weize Li 等9人

arXiv: 2604.21914v1

分类: cs.RO

📝 论文摘要

近期，端到端机器人操作模型因其泛化性和可扩展性而受到广泛关注。然而，当使用固定相机进行训练时，这类模型往往对相机视角变化缺乏鲁棒性。本文提出VistaBot——一种将前馈几何模型与视频扩散模型相结合的新型框架，可在测试时无需相机标定的情况下实现视角鲁棒的闭环操作。该方法包含三个关键组件：4D几何估计、视角合成潜在特征提取以及潜在动作学习。VistaBot被集成到动作分块（ACT）和基于扩散的（π₀）策略中，并在仿真和真实世界任务中进行了评估。我们进一步引入视角泛化分数（VGS）作为跨视角泛化综合评估的新指标。实验结果表明，VistaBot在ACT和π₀策略上分别将VGS提升了2.79倍和2.63倍，同时实现了高质量的新视角合成。本文贡献包括：几何感知合成模型、潜在动作规划器、新型基准评估指标，以及在多样化环境中的广泛验证。相关代码和模型将公开发布。

📊 核心分析

🎯 研究动机

现有的端到端机器人操控模型在固定相机视角下训练时，对相机视角变化的鲁棒性不足，限制了其在实际场景中的泛化能力。

🔧 核心方法

提出VistaBot框架，集成前馈几何模型(feed-forward geometric models)与视频扩散模型(video diffusion models)，包含三个关键组件：4D几何估计(4D geometry estimation)、视角合成潜在特征提取(view synthesis latent extraction)和潜在动作学习(latent action learning)。该框架无需测试时的相机标定，并集成到动作分块(ACT)和基于扩散的策略(π₀)中。

💡 核心创新

1. 提出几何感知的视角合成模型(geometry-aware synthesis model)，结合4D几何与视频扩散实现鲁棒视角合成；2. 设计潜在动作规划器(latent action planner)，从合成视角中提取潜在特征进行闭环操控；3. 引入视角泛化分数(View Generalization Score, VGS)作为评估跨视角泛化能力的新指标。

🏆 总体贡献

1. 提出VistaBot框架，显著提升机器人操控对相机视角变化的鲁棒性；2. 在仿真和真实任务中，将VGS分别提升2.79倍(ACT)和2.63倍(π₀)；3. 提供新的基准指标(VGS)用于全面评估跨视角泛化；4. 开源代码和模型以促进后续研究。