该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人控制任务中因主要基于2D数据训练而导致的3D感知能力不足的问题。研究背景是,尽管已有工作尝试引入专门的3D视觉模型(如VGGT)来增强空间理解,但缺乏对不同集成机制的系统性研究,导致最优融合策略不明确。
论文提出了一个名为3D-Mix的即插即用(plug-and-play)模块,其核心方法是:
- 基于一项全面的先导研究,比较了九种VGGT集成方案。
- 采用语义条件门控融合(semantic-conditioned gated fusion)策略,该策略能根据任务上下文自适应地平衡2D语义特征和3D几何特征。
- 该模块无需修改现有的多模态大语言模型(Multimodal Large Language Models, MLLMs)或动作专家(action expert)组件,即可集成到多种VLA架构(如GR00T风格和π风格)中。
论文的核心创新点在于:
- **系统性的融合策略研究**:首次对VGGT与VLA模型的多种集成方案进行了全面的先导研究,并识别出语义条件门控融合为最优方案。
- **即插即用的通用模块设计**:提出的3D-Mix模块是轻量级、可移植的,能够无缝增强多种现有VLA架构(GR00T风格和π风格)和不同规模的MLLM(2B-8B参数),而无需改动其核心组件。
- **自适应特征融合机制**:与现有工作采用固定或简单的融合方式不同,3D-Mix通过门控机制动态调整2D与3D特征的贡献,实现了基于任务上下文的智能融合。
论文对该领域的总体贡献是:
- **确立了原则性的融合方法**:通过实证研究,为在VLA系统中增强空间智能提供了一种有理论依据的、最优的3D信息集成方法。
- **提供了有效的性能提升工具**:3D-Mix模块在SIMPLER和LIBERO等多个基准测试中,为不同系列的MLLM带来了显著且一致的性能提升(例如,在域外(OOD)的SIMPLER基准上平均提升+7.0%)。
- **推动了VLA模型的实用化**:通过一个简单高效的模块,显著改善了VLA模型在机器人操作任务中对3D空间的感知和理解能力,使其更适用于需要精确空间推理的现实场景。