← 返回论文列表

VEGA: 面向空间感知的视觉-语言-动作模型的视觉编码器接地对齐
VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

作者: Hao Wang, Xiaobao Wei, Jingyang He 等13人
arXiv: 2605.10485v1
分类: cs.RO
📝 论文摘要
精确的空间推理是机器人操作的基础,然而当前视觉-语言-动作(VLA)模型的视觉主干主要是在没有显式3D几何监督的2D图像数据上预训练的,导致其表征缺乏准确的空间感知能力。现有的隐式空间基础方法通过将VLA特征与具有3D感知能力的基础模型特征对齐来部分解决该问题,但这些方法依赖于经验性的层搜索,并且在空间结构已与语言语义纠缠的LLM级视觉标记上执行对齐,从而限制了泛化能力和几何可解释性。我们提出VEGA(视觉编码器基础对齐),一个简单而有效的框架,直接将VLA视觉编码器的输出与来自DINOv2-FiT3D(一个使用多视图一致的3D高斯泼溅监督微调的DINOv2模型)的空间感知特征对齐。通过在视觉编码器输出层面执行对齐,VEGA在任何语言纠缠发生之前就建立了空间感知基础,提供了更具可解释性和原则性的对齐目标。该对齐通过一个轻量级投影器实现,该投影器在标准动作预测目标之外使用余弦相似度损失进行训练,并在推理时被丢弃,不引入额外计算开销。在仿真基准和真实世界操作任务上的大量实验表明,VEGA持续优于现有的隐式空间基础方法,在VLA模型的隐式空间基础方法中确立了新的最先进水平。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Visual-Language-Action, VLA)** 模型的视觉骨干主要在2D图像上预训练,缺乏显式3D几何监督,导致空间感知不准确 - 现有隐式空间对齐方法在**大语言模型(LLM)** 级视觉token上进行对齐,此时空间结构已与语言语义纠缠,限制了泛化性和几何可解释性 - 现有方法依赖经验性的层搜索,缺乏原则性对齐目标
🔧 核心方法
- 提出**VEGA (Visual Encoder Grounding Alignment)** 框架,将VLA视觉编码器的输出与来自**DINOv2-FiT3D** 的空间感知特征直接对齐 - DINOv2-FiT3D是经过多视图一致**3D高斯溅射(3D Gaussian Splatting)** 监督微调的DINOv2模型,提供显式3D几何信息 - 对齐通过轻量级**投影器(projector)** 实现,使用**余弦相似度损失(cosine similarity loss)** 与标准**动作预测损失(action prediction objective)** 联合训练,推理时丢弃投影器,不引入额外计算开销
💡 核心创新
- **对齐位置创新**:首次在**视觉编码器输出层** (而非LLM级token层)进行空间感知对齐,避免语言纠缠,提供更可解释和原则性的对齐目标 - **特征源创新**:利用**DINOv2-FiT3D** (多视图一致3D高斯溅射微调)作为空间感知特征源,相比现有方法更直接地注入3D几何知识 - **零额外开销**:轻量级投影器仅在训练时使用,推理时完全丢弃,不增加VLA模型的计算负担
🏆 总体贡献
- 为VLA模型的空间感知对齐提供了一种**简单有效的新范式**,在模拟基准和真实操作任务上均达到**新SOTA(state-of-the-art)** - 突破了现有隐式空间对齐方法在通用性和可解释性上的瓶颈 - 验证了在视觉编码器层面进行显式几何引导的有效性,为后续机器人操作研究提供了可复用的方法论