- 现有**视觉-语言-动作(Visual-Language-Action, VLA)** 模型的视觉骨干主要在2D图像上预训练,缺乏显式3D几何监督,导致空间感知不准确
- 现有隐式空间对齐方法在**大语言模型(LLM)** 级视觉token上进行对齐,此时空间结构已与语言语义纠缠,限制了泛化性和几何可解释性
- 现有方法依赖经验性的层搜索,缺乏原则性对齐目标
- 提出**VEGA (Visual Encoder Grounding Alignment)** 框架,将VLA视觉编码器的输出与来自**DINOv2-FiT3D** 的空间感知特征直接对齐
- DINOv2-FiT3D是经过多视图一致**3D高斯溅射(3D Gaussian Splatting)** 监督微调的DINOv2模型,提供显式3D几何信息
- 对齐通过轻量级**投影器(projector)** 实现,使用**余弦相似度损失(cosine similarity loss)** 与标准**动作预测损失(action prediction objective)** 联合训练,推理时丢弃投影器,不引入额外计算开销
- **对齐位置创新**:首次在**视觉编码器输出层** (而非LLM级token层)进行空间感知对齐,避免语言纠缠,提供更可解释和原则性的对齐目标
- **特征源创新**:利用**DINOv2-FiT3D** (多视图一致3D高斯溅射微调)作为空间感知特征源,相比现有方法更直接地注入3D几何知识
- **零额外开销**:轻量级投影器仅在训练时使用,推理时完全丢弃,不增加VLA模型的计算负担
- 为VLA模型的空间感知对齐提供了一种**简单有效的新范式**,在模拟基准和真实操作任务上均达到**新SOTA(state-of-the-art)**
- 突破了现有隐式空间对齐方法在通用性和可解释性上的瓶颈
- 验证了在视觉编码器层面进行显式几何引导的有效性,为后续机器人操作研究提供了可复用的方法论