- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在机器人操作中面临**空间感知** 和**操作** 挑战
- 单目输入存在**深度模糊性(depth ambiguity)**,导致三维空间理解不足
- 传统动作学习方式直接回归噪声或速度等非结构化目标,效率低下且难以泛化
- 利用预训练**多视角扩散模型(multi-view diffusion model)** 合成潜在新颖视角,增强空间信息
- 提出**几何引导门控Transformer(Geometry-Guided Gated Transformer, G3T)**,在3D几何引导下对齐多视角特征并自适应过滤遮挡噪声
- 引入**动作流形学习(Action Manifold Learning, AML)**,直接在有效动作流形上预测动作,避免低效回归
- **首创性**:首次将**多视角潜在先验(multi-view latent priors)** 与**几何引导门控机制** 结合用于机器人操作VLA模型
- **动作建模创新**:提出**动作流形学习(AML)**,将动作预测限制在有效流形上,显著提升学习效率
- **遮挡鲁棒性**:G3T门控机制自适应过滤多视角中的遮挡噪声,增强对杂乱场景的适应性
- 为**机器人操作VLA模型** 提供了新的**多视角几何感知** 范式,有效解决单目深度模糊
- 在**LIBERO、RoboTwin 2.0** 和真实机器人任务上超越多个基线方法,达到SOTA性能
- 开源项目页面及代码,促进社区复现与后续研究