机器人操作是视觉到几何的映射（$f(v) \rightarrow G$）：基于语言与视频模型的视觉-几何骨干网络

📝 论文摘要

机器人操作的核心本质是一个从视觉到几何的映射问题（$f(v) \rightarrow G$）。物理动作从根本上由三维位置和空间关系等几何属性定义。因此，我们认为可泛化机器人控制的基础应当是视觉-几何主干网络，而非当前广泛采用的视觉-语言或视频模型。传统的视觉语言模型与视频预测模型依赖于在大规模二维图文或时序像素数据上预训练的主干网络。虽然这些方法有效，但其表征主要受语义概念或二维先验影响，本质上与物理操作所需的精确三维几何特性并不匹配。基于这一洞见，我们提出视觉-几何-动作模型，该模型直接在预训练的原生三维表征上构建动作生成机制。具体而言，VGA以预训练的三维世界模型替代传统的语言或视频主干网络，建立起从视觉输入到物理动作的无缝视觉-几何映射。为增强几何一致性，我们引入渐进式体素调制模块并采用联合训练策略。大量实验验证了该方法的有效性：在仿真基准测试中，VGA在精确操作任务上超越了包括$π_{0.5}$和GeoVLA在内的顶尖视觉语言模型基线；更重要的是，在真实场景部署中，VGA对未见视角展现出卓越的零样本泛化能力，性能持续优于$π_{0.5}$。这些结果表明，基于原生三维表征（而非通过语言或二维视频先验进行转换）是实现可泛化物理智能的极具前景的研究方向。

🎯 研究动机

该论文旨在解决机器人操作任务中视觉到动作映射的根本问题。研究背景是当前广泛采用的视觉-语言模型(Vision-Language Models, VLA)和视频预测模型虽然有效，但其表征主要基于语义概念或二维先验，与物理操作所需的精确三维几何性质存在内在不匹配。

🔧 核心方法

论文提出了视觉-几何-动作(Vision-Geometry-Action, VGA)模型。该方法的核心是： - 使用预训练的三维世界模型(3D world model)替代传统的语言或视频骨干网络。 - 引入渐进式体积调制模块(Progressive Volumetric Modulation module)以增强几何一致性。 - 采用联合训练策略(joint training strategy)。 - 建立从视觉输入到物理动作的直接映射，即视觉到几何的映射($f(v) \rightarrow G$)。

💡 核心创新

论文的核心创新点在于： - **提出机器人操作的本质是视觉到几何的映射**这一新范式，并据此主张通用机器人控制的基础应是视觉-几何骨干网络，而非当前主流的视觉-语言或视频模型。 - **首次将预训练的三维世界模型作为骨干网络**直接用于动作生成，绕过了通过语言或二维视频先验进行转换的中间步骤。 - 通过VGA模型，**直接在原生三维表征上操作**，实现了从视觉输入到物理动作的更精确、更本质的映射。

🏆 总体贡献

论文对该领域的整体贡献是： - 从理论上论证了基于三维几何表征对于实现通用物理智能的重要性，挑战了当前依赖视觉-语言或视频模型的流行范式。 - 提出了VGA这一新颖模型架构，并通过实验验证了其在模拟基准测试中优于包括$π_{0.5}$和GeoVLA在内的顶级VLA基线模型。 - 证明了该方法在真实世界部署中具有卓越的零样本泛化能力，特别是在未见过的视角下，性能持续超越$π_{0.5}$，为构建通用机器人系统指明了一个极具前景的新方向。

机器人操作是视觉到几何的映射（$f(v) \rightarrow G$）：基于语言与视频模型的视觉-几何骨干网络
Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models

📊 核心分析

机器人操作是视觉到几何的映射（$f(v) \rightarrow G$）：基于语言与视频模型的视觉-几何骨干网络 Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models

📊 核心分析

机器人操作是视觉到几何的映射（$f(v) \rightarrow G$）：基于语言与视频模型的视觉-几何骨干网络
Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models