VEGA: 面向空间感知的视觉-语言-动作模型的视觉编码器接地对齐

📝 论文摘要

精确的空间推理是机器人操作的基础，然而当前视觉-语言-动作（VLA）模型的视觉主干主要是在没有显式3D几何监督的2D图像数据上预训练的，导致其表征缺乏准确的空间感知能力。现有的隐式空间基础方法通过将VLA特征与具有3D感知能力的基础模型特征对齐来部分解决该问题，但这些方法依赖于经验性的层搜索，并且在空间结构已与语言语义纠缠的LLM级视觉标记上执行对齐，从而限制了泛化能力和几何可解释性。我们提出VEGA（视觉编码器基础对齐），一个简单而有效的框架，直接将VLA视觉编码器的输出与来自DINOv2-FiT3D（一个使用多视图一致的3D高斯泼溅监督微调的DINOv2模型）的空间感知特征对齐。通过在视觉编码器输出层面执行对齐，VEGA在任何语言纠缠发生之前就建立了空间感知基础，提供了更具可解释性和原则性的对齐目标。该对齐通过一个轻量级投影器实现，该投影器在标准动作预测目标之外使用余弦相似度损失进行训练，并在推理时被丢弃，不引入额外计算开销。在仿真基准和真实世界操作任务上的大量实验表明，VEGA持续优于现有的隐式空间基础方法，在VLA模型的隐式空间基础方法中确立了新的最先进水平。

🎯 研究动机

- 现有**视觉-语言-动作(Visual-Language-Action, VLA)** 模型的视觉骨干主要在2D图像上预训练，缺乏显式3D几何监督，导致空间感知不准确 - 现有隐式空间对齐方法在**大语言模型(LLM)** 级视觉token上进行对齐，此时空间结构已与语言语义纠缠，限制了泛化性和几何可解释性 - 现有方法依赖经验性的层搜索，缺乏原则性对齐目标

🔧 核心方法

- 提出**VEGA (Visual Encoder Grounding Alignment)** 框架，将VLA视觉编码器的输出与来自**DINOv2-FiT3D** 的空间感知特征直接对齐 - DINOv2-FiT3D是经过多视图一致**3D高斯溅射(3D Gaussian Splatting)** 监督微调的DINOv2模型，提供显式3D几何信息 - 对齐通过轻量级**投影器(projector)** 实现，使用**余弦相似度损失(cosine similarity loss)** 与标准**动作预测损失(action prediction objective)** 联合训练，推理时丢弃投影器，不引入额外计算开销

💡 核心创新

- **对齐位置创新**：首次在**视觉编码器输出层** （而非LLM级token层）进行空间感知对齐，避免语言纠缠，提供更可解释和原则性的对齐目标 - **特征源创新**：利用**DINOv2-FiT3D** （多视图一致3D高斯溅射微调）作为空间感知特征源，相比现有方法更直接地注入3D几何知识 - **零额外开销**：轻量级投影器仅在训练时使用，推理时完全丢弃，不增加VLA模型的计算负担

🏆 总体贡献

- 为VLA模型的空间感知对齐提供了一种**简单有效的新范式**，在模拟基准和真实操作任务上均达到**新SOTA(state-of-the-art)** - 突破了现有隐式空间对齐方法在通用性和可解释性上的瓶颈 - 验证了在视觉编码器层面进行显式几何引导的有效性，为后续机器人操作研究提供了可复用的方法论

VEGA: 面向空间感知的视觉-语言-动作模型的视觉编码器接地对齐
VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

📊 核心分析

VEGA: 面向空间感知的视觉-语言-动作模型的视觉编码器接地对齐 VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models

📊 核心分析

VEGA: 面向空间感知的视觉-语言-动作模型的视觉编码器接地对齐
VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models