该论文旨在解决机器人操作任务中视觉到动作映射的根本问题。研究背景是当前广泛采用的视觉-语言模型(Vision-Language Models, VLA)和视频预测模型虽然有效,但其表征主要基于语义概念或二维先验,与物理操作所需的精确三维几何性质存在内在不匹配。
论文提出了视觉-几何-动作(Vision-Geometry-Action, VGA)模型。该方法的核心是:
- 使用预训练的三维世界模型(3D world model)替代传统的语言或视频骨干网络。
- 引入渐进式体积调制模块(Progressive Volumetric Modulation module)以增强几何一致性。
- 采用联合训练策略(joint training strategy)。
- 建立从视觉输入到物理动作的直接映射,即视觉到几何的映射($f(v) \rightarrow G$)。
论文的核心创新点在于:
- **提出机器人操作的本质是视觉到几何的映射**这一新范式,并据此主张通用机器人控制的基础应是视觉-几何骨干网络,而非当前主流的视觉-语言或视频模型。
- **首次将预训练的三维世界模型作为骨干网络**直接用于动作生成,绕过了通过语言或二维视频先验进行转换的中间步骤。
- 通过VGA模型,**直接在原生三维表征上操作**,实现了从视觉输入到物理动作的更精确、更本质的映射。
论文对该领域的整体贡献是:
- 从理论上论证了基于三维几何表征对于实现通用物理智能的重要性,挑战了当前依赖视觉-语言或视频模型的流行范式。
- 提出了VGA这一新颖模型架构,并通过实验验证了其在模拟基准测试中优于包括$π_{0.5}$和GeoVLA在内的顶级VLA基线模型。
- 证明了该方法在真实世界部署中具有卓越的零样本泛化能力,特别是在未见过的视角下,性能持续超越$π_{0.5}$,为构建通用机器人系统指明了一个极具前景的新方向。