PRTS：一种基于对比表示的原始推理与任务分配系统

PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations

作者: Yang Zhang, Jiangyuan Zhao, Chenyou Fan 等14人

arXiv: 2604.27472v1

分类: cs.AI, cs.LG, cs.RO

📝 论文摘要

视觉-语言-动作（VLA）模型通过强大的视觉-语言先验知识推动了机器人控制的发展。然而，现有VLA模型主要将预训练框架化为监督式行为克隆，忽略了机器人学习作为需要理解时序任务进展的目标达成过程的根本特性。我们提出\textbf{PRTS}（\textbf{P}rimitive \textbf{R}easoning and \textbf{T}asking \textbf{S}ystem，原始推理与任务规划系统），这是一个通过目标条件强化学习重新定义预训练的VLA基础模型。通过将语言指令视为目标并采用对比强化学习，PRTS学习了一个统一的嵌入空间，其中状态-动作嵌入与目标嵌入的内积近似于对数折扣目标占用率——即从当前状态-动作到达语言指定目标的概率，从而超越了静态语义匹配，对物理可行性进行定量评估。PRTS直接从离线轨迹中提取这种密集的目标可达性监督信号，无需奖励标注，并通过角色感知因果掩码将其融入视觉-语言模型（VLM）主干网络，对原始行为克隆带来的额外开销可忽略不计。这一范式赋予高层推理系统内在的目标可达性感知能力，弥合了语义推理与时序任务进展之间的鸿沟，并进一步有益于目标条件动作预测。在包含167B令牌的多样化操作与具身推理数据上预训练后，PRTS在LIBERO、LIBERO-Pro、LIBERO-Plus、SimplerEnv以及包含14个复杂任务的真实世界套件上达到了最先进性能，尤其在长周期、高接触性及零样本新指令设置中取得了显著提升，验证了注入目标可达性感知能够显著提升通用机器人基础策略的执行成功率与长周期规划能力。

📊 核心分析

🎯 研究动机

- 现有**视觉-语言-动作(Visual-Language-Action, VLA)** 模型将预训练视为监督行为克隆，忽略了机器人学习的本质是目标达成过程 - 缺乏对时间任务进度(temporal task progress)的理解，导致在长视野、接触密集等场景下表现不佳 - 需要一种更本质的预训练范式，使模型具备内在的目标可达性意识(goal reachability awareness)

🔧 核心方法

- 提出**PRTS** 系统，通过**目标条件强化学习(Goal-Conditioned Reinforcement Learning)** 重新定义VLA预训练任务 - 采用**对比强化学习(contrastive reinforcement learning)**，学习状态-动作嵌入与目标嵌入的统一空间，使其内积近似对数折扣目标占用概率(log-discounted goal occupancy) - 从离线轨迹中直接提取密集的目标可达性监督，无需任何奖励标注，并通过**角色感知因果掩码(role-aware causal mask)** 融入VLM骨干网络，仅带来微小额外开销

💡 核心创新

- **预训练范式革新**：首次将VLA预训练从行为克隆转向目标条件强化学习，使语义推理与时间任务进度直接关联 - **物理可行性定量评估**：通过嵌入内积量化当前状态-动作达到语言目标的可能性，超越传统静态语义匹配 - **无奖励密集监督**：从离线轨迹自动提取目标可达性信号，不需人工标注奖励函数 - **高效集成**：角色感知因果掩码设计使得密集监督融入VLM的开销几乎可忽略，保持推理效率

🏆 总体贡献

- 为通用机器人基础策略提供了**新范式**，注入目标可达性意识显著提升执行成功率与长期规划能力 - 在LIBERO、LIBERO-Pro、LIBERO-Plus、SimplerEnv及14个真实世界复杂任务上达到**SOTA(state-of-the-art)** 性能 - 在长视野、接触密集和零样本新指令等具有挑战性的设置中取得**大幅增益**，验证了方法的泛化性和鲁棒性