- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在动作预测中缺乏**3D空间推理(3D spatial reasoning)** 能力,过度依赖2D视觉特征
- 3D几何感知与3D空间推理是两个不同能力,现有方法通常混为一谈或依赖额外3D传感器
- 研究背景:机器人操控任务需要隐式3D推理,但VLA模型受限于其2D预训练骨干,难以直接获取3D先验知识
- 提出**3D思维引导的协同训练框架(3D-thinking-guided co-training framework)**,包含三个紧密耦合的组件
- **潜在3D几何感知模块(latent 3D geometry perception module)**:将中间视觉特征与**3D基础模型(3D foundation model)** 对齐,获取低层几何线索,无需修改**视觉-语言模型(VLM)** 骨干架构
- **在线3D推理蒸馏模块(online 3D reasoning distillation module)**:通过**共享推理锚点标记(shared reasoning anchor token)** 缓解提示诱导的推理差距,在**3D VLM协同训练** 中锚点作为首个输出编码空间先验,在**VLA训练** 中作为输入标记插入任务指令与动作指令之间,从显式教师推理提示向学生动作提示传递高层空间思维
- **空间增强动作集成(spatially augmented action integration)**:将解耦的几何与推理特征联合注入动作查询标记,作为层次化空间条件防止动作捷径
- **首创性地解耦**:将**3D几何感知(3D geometry perception)** 与**3D空间推理(3D spatial reasoning)** 视为独立能力,分别在不同特征层级注入
- **隐式推理蒸馏**:使用**共享推理锚点标记** 实现从显式3D推理教师到隐式动作学生的知识迁移,无需**链式思维文本生成(chain-of-thought text generation)**
- **部署轻量化**:训练时使用3D基础模型和教师分支,部署时仅保留轻量适配器,无需3D传感器、外部模型或显式文本生成
- **防止灾难性遗忘(catastrophic forgetting)**:保留预训练VLM知识,无需修改骨干架构
- 提出一种新的**隐式3D推理范式(implicit 3D reasoning paradigm)**,将3D先验注入VLA模型而不增加推理负担
- 在**LIBERO**、**LIBERO-PLUS**、**SimplerEnv** 及真实世界操控任务上达到**最先进性能(state-of-the-art)**
- 为机器人操控领域提供了一种高效、可复现的框架,无需额外3D数据或传感器,促进社区进一步研究