- 现有**视觉-语言-动作(Visual-Language-Action, VLA)** 模型将预训练视为监督行为克隆,忽略了机器人学习的本质是目标达成过程
- 缺乏对时间任务进度(temporal task progress)的理解,导致在长视野、接触密集等场景下表现不佳
- 需要一种更本质的预训练范式,使模型具备内在的目标可达性意识(goal reachability awareness)
- 提出**PRTS** 系统,通过**目标条件强化学习(Goal-Conditioned Reinforcement Learning)** 重新定义VLA预训练任务
- 采用**对比强化学习(contrastive reinforcement learning)**,学习状态-动作嵌入与目标嵌入的统一空间,使其内积近似对数折扣目标占用概率(log-discounted goal occupancy)
- 从离线轨迹中直接提取密集的目标可达性监督,无需任何奖励标注,并通过**角色感知因果掩码(role-aware causal mask)** 融入VLM骨干网络,仅带来微小额外开销
- **预训练范式革新**:首次将VLA预训练从行为克隆转向目标条件强化学习,使语义推理与时间任务进度直接关联
- **物理可行性定量评估**:通过嵌入内积量化当前状态-动作达到语言目标的可能性,超越传统静态语义匹配
- **无奖励密集监督**:从离线轨迹自动提取目标可达性信号,不需人工标注奖励函数
- **高效集成**:角色感知因果掩码设计使得密集监督融入VLM的开销几乎可忽略,保持推理效率
- 为通用机器人基础策略提供了**新范式**,注入目标可达性意识显著提升执行成功率与长期规划能力
- 在LIBERO、LIBERO-Pro、LIBERO-Plus、SimplerEnv及14个真实世界复杂任务上达到**SOTA(state-of-the-art)** 性能
- 在长视野、接触密集和零样本新指令等具有挑战性的设置中取得**大幅增益**,验证了方法的泛化性和鲁棒性