利用多视角潜在先验学习机器人操作的动作流形

📝 论文摘要

本文探讨了视觉-语言-动作（VLA）模型中的空间感知与操作挑战。为应对单目输入导致的深度模糊问题，我们利用预训练的多视图扩散模型合成潜在新视图，并提出几何引导门控变换器（G3T），在三维几何引导下对齐多视图特征，同时自适应过滤遮挡噪声。为提升动作学习效率，我们引入动作流形学习（AML），直接在有效动作流形上预测动作，避免对噪声或速度等非结构化目标进行低效回归。在LIBERO、RoboTwin 2.0及真实机器人任务上的实验表明，我们的方法在成功率和鲁棒性上优于现有最优基线。项目页面：https://junjxiao.github.io/Multi-view-VLA.github.io/。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在机器人操作中面临**空间感知** 和**操作** 挑战 - 单目输入存在**深度模糊性(depth ambiguity)**，导致三维空间理解不足 - 传统动作学习方式直接回归噪声或速度等非结构化目标，效率低下且难以泛化

🔧 核心方法

- 利用预训练**多视角扩散模型(multi-view diffusion model)** 合成潜在新颖视角，增强空间信息 - 提出**几何引导门控Transformer(Geometry-Guided Gated Transformer, G3T)**，在3D几何引导下对齐多视角特征并自适应过滤遮挡噪声 - 引入**动作流形学习(Action Manifold Learning, AML)**，直接在有效动作流形上预测动作，避免低效回归

💡 核心创新

- **首创性**：首次将**多视角潜在先验(multi-view latent priors)** 与**几何引导门控机制** 结合用于机器人操作VLA模型 - **动作建模创新**：提出**动作流形学习(AML)**，将动作预测限制在有效流形上，显著提升学习效率 - **遮挡鲁棒性**：G3T门控机制自适应过滤多视角中的遮挡噪声，增强对杂乱场景的适应性

🏆 总体贡献

- 为**机器人操作VLA模型** 提供了新的**多视角几何感知** 范式，有效解决单目深度模糊 - 在**LIBERO、RoboTwin 2.0** 和真实机器人任务上超越多个基线方法，达到SOTA性能 - 开源项目页面及代码，促进社区复现与后续研究

利用多视角潜在先验学习机器人操作的动作流形
Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation

📊 核心分析

利用多视角潜在先验学习机器人操作的动作流形 Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation

📊 核心分析

利用多视角潜在先验学习机器人操作的动作流形
Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation