该论文旨在解决长时程(long-horizon)机器人操作任务中强化学习(reinforcement learning)面临的挑战:稀疏奖励(sparse rewards)难以提供有效的信用分配(credit assignment)指导。现有方法依赖密集进度奖励(dense progress rewards),但其获取成本高,且不适用于非单调行为(如回溯(backtracking)和恢复(recovery))。
论文提出了优势奖励建模(Advantage Reward Modeling, ARM)框架,其核心方法包括:
- 从难以量化的绝对进度估计转向相对优势(relative advantage)估计。
- 设计了一种低成本的三态标注策略(tri-state labeling strategy),包含进步(Progressive)、退步(Regressive)和停滞(Stagnant)三种状态,以降低人工认知负担并保证标注一致性。
- 利用这些直观信号训练模型,实现对完整演示(complete demonstrations)和碎片化DAgger式数据(fragmented DAgger-style data)的自动进度标注。
- 将ARM集成到离线强化学习(offline RL)流程中,实现自适应动作-奖励重加权(adaptive action-reward reweighting),有效过滤次优样本(suboptimal samples)。
论文的核心创新点在于:
- **奖励建模范式的转变**:从直接估计绝对进度奖励转向学习相对优势信号,这更符合人类对任务进展的直觉判断,并能更好地处理非单调行为。
- **低成本、高一致性的标注协议**:提出的三态标注策略极大地简化了人工反馈过程,显著降低了标注成本,同时保持了高跨标注者一致性(high cross-annotator consistency)。
- **数据利用的灵活性**:ARM模型能够同时处理完整的专家演示和碎片化的交互数据(如DAgger),扩展了可用训练数据的范围。
- **与离线RL的高效集成**:通过自适应重加权机制,ARM能动态调整离线数据集中的样本重要性,提升策略学习的稳定性和数据效率(data efficiency)。
论文对该领域的总体贡献包括:
- 提出了ARM这一新颖框架,为解决长时程操作任务中的奖励稀疏问题提供了一种高效、低成本且人性化的方案。
- 在极具挑战性的长时程毛巾折叠任务(towel-folding task)上实现了99.4%的成功率,显著超越了当前的视觉语言动作模型(Vision-Language-Action, VLA)基线方法。
- 展示了方法在策略训练期间仅需近乎零人工干预(near-zero human intervention)的情况下,仍能实现更高的稳定性和数据效率。
- 为结合人类直觉反馈与离线强化学习提供了一种可推广的范式,可能推动更复杂机器人操作任务的学习。