3DThinkVLA: 通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验

📝 论文摘要

我们提出了一种三维思维引导的协同训练框架，使视觉-语言-动作（VLA）模型能够在动作预测过程中隐式地执行三维空间推理。核心见解在于：三维几何感知与三维空间推理是可分离的能力，可在不同特征层级进行注入。训练过程中，三个紧密耦合的组件主要在潜在空间中协同运作：（1）为获取几何先验，潜在三维几何感知模块将中间视觉特征与三维基础模型对齐，在不修改VLM主干架构的情况下获取底层几何线索。（2）作为补充，在线三维推理蒸馏模块通过共享推理锚点令牌缓解由提示引发的推理差距。在三维VLM协同训练中，该锚点作为首个输出令牌发出，以稳健编码空间先验；在VLA训练过程中，它作为插入任务指令与动作指令之间的输入令牌，将显式教师推理提示中的高层空间思维迁移至学生动作提示，无需生成思维链文本。（3）通过空间增强的动作集成模块统一解耦后的几何与推理特征，将这些分层空间条件共同注入动作查询令牌，防止动作捷径。部署时，本方法仅保留轻量级适配器执行隐式三维推理，丢弃用于监督的三维基础模型和教师分支。因此，它仅基于二维图像运行，无需三维传感器、外部模型或显式文本生成，同时避免预训练VLM的灾难性遗忘，在LIBERO、LIBERO-PLUS、SimplerEnv及真实世界操作任务中达到最优性能。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在动作预测中缺乏**3D空间推理(3D spatial reasoning)** 能力，过度依赖2D视觉特征 - 3D几何感知与3D空间推理是两个不同能力，现有方法通常混为一谈或依赖额外3D传感器 - 研究背景：机器人操控任务需要隐式3D推理，但VLA模型受限于其2D预训练骨干，难以直接获取3D先验知识

🔧 核心方法

- 提出**3D思维引导的协同训练框架(3D-thinking-guided co-training framework)**，包含三个紧密耦合的组件 - **潜在3D几何感知模块(latent 3D geometry perception module)**：将中间视觉特征与**3D基础模型(3D foundation model)** 对齐，获取低层几何线索，无需修改**视觉-语言模型(VLM)** 骨干架构 - **在线3D推理蒸馏模块(online 3D reasoning distillation module)**：通过**共享推理锚点标记(shared reasoning anchor token)** 缓解提示诱导的推理差距，在**3D VLM协同训练** 中锚点作为首个输出编码空间先验，在**VLA训练** 中作为输入标记插入任务指令与动作指令之间，从显式教师推理提示向学生动作提示传递高层空间思维 - **空间增强动作集成(spatially augmented action integration)**：将解耦的几何与推理特征联合注入动作查询标记，作为层次化空间条件防止动作捷径

💡 核心创新

- **首创性地解耦**：将**3D几何感知(3D geometry perception)** 与**3D空间推理(3D spatial reasoning)** 视为独立能力，分别在不同特征层级注入 - **隐式推理蒸馏**：使用**共享推理锚点标记** 实现从显式3D推理教师到隐式动作学生的知识迁移，无需**链式思维文本生成(chain-of-thought text generation)** - **部署轻量化**：训练时使用3D基础模型和教师分支，部署时仅保留轻量适配器，无需3D传感器、外部模型或显式文本生成 - **防止灾难性遗忘(catastrophic forgetting)**：保留预训练VLM知识，无需修改骨干架构

🏆 总体贡献

- 提出一种新的**隐式3D推理范式(implicit 3D reasoning paradigm)**，将3D先验注入VLA模型而不增加推理负担 - 在**LIBERO**、**LIBERO-PLUS**、**SimplerEnv** 及真实世界操控任务上达到**最先进性能(state-of-the-art)** - 为机器人操控领域提供了一种高效、可复现的框架，无需额外3D数据或传感器，促进社区进一步研究

3DThinkVLA: 通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验
3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training

📊 核心分析

3DThinkVLA: 通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验 3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training

📊 核心分析

3DThinkVLA: 通过3D思维引导的协同训练赋予视觉-语言-动作模型潜在3D先验
3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training