← 返回论文列表

利用多视角潜在先验学习机器人操作的动作流形
Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation

作者: Junjin Xiao, Dongyang Li, Yandan Yang 等12人
arXiv: 2605.11832v1
分类: cs.RO
📝 论文摘要
本文探讨了视觉-语言-动作(VLA)模型中的空间感知与操作挑战。为应对单目输入导致的深度模糊问题,我们利用预训练的多视图扩散模型合成潜在新视图,并提出几何引导门控变换器(G3T),在三维几何引导下对齐多视图特征,同时自适应过滤遮挡噪声。为提升动作学习效率,我们引入动作流形学习(AML),直接在有效动作流形上预测动作,避免对噪声或速度等非结构化目标进行低效回归。在LIBERO、RoboTwin 2.0及真实机器人任务上的实验表明,我们的方法在成功率和鲁棒性上优于现有最优基线。项目页面:https://junjxiao.github.io/Multi-view-VLA.github.io/。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在机器人操作中面临**空间感知** 和**操作** 挑战 - 单目输入存在**深度模糊性(depth ambiguity)**,导致三维空间理解不足 - 传统动作学习方式直接回归噪声或速度等非结构化目标,效率低下且难以泛化
🔧 核心方法
- 利用预训练**多视角扩散模型(multi-view diffusion model)** 合成潜在新颖视角,增强空间信息 - 提出**几何引导门控Transformer(Geometry-Guided Gated Transformer, G3T)**,在3D几何引导下对齐多视角特征并自适应过滤遮挡噪声 - 引入**动作流形学习(Action Manifold Learning, AML)**,直接在有效动作流形上预测动作,避免低效回归
💡 核心创新
- **首创性**:首次将**多视角潜在先验(multi-view latent priors)** 与**几何引导门控机制** 结合用于机器人操作VLA模型 - **动作建模创新**:提出**动作流形学习(AML)**,将动作预测限制在有效流形上,显著提升学习效率 - **遮挡鲁棒性**:G3T门控机制自适应过滤多视角中的遮挡噪声,增强对杂乱场景的适应性
🏆 总体贡献
- 为**机器人操作VLA模型** 提供了新的**多视角几何感知** 范式,有效解决单目深度模糊 - 在**LIBERO、RoboTwin 2.0** 和真实机器人任务上超越多个基线方法,达到SOTA性能 - 开源项目页面及代码,促进社区复现与后续研究