- 设计能够泛化到**开放世界(open-world)** 环境的**奖励函数(reward function)** 仍是**强化学习(reinforcement learning, RL)** 在机器人领域的根本挑战
- 现有基于视觉的**奖励模型(reward model)** 倾向于记忆特定的像素分布,无法在物体实例、位置、相机视角等变化下泛化
- 同一任务存在大量变体,需要从少量演示中学习**任务级(task-level)** 的不变属性,而非依赖特定视觉特征
- 提出从最少5次演示中学习**不变符号奖励函数(invariant symbolic reward function)** 的框架
- 框架包含两个耦合组件:**结构奖励公式(structural reward formulation)** 编码任务级策略与物理约束,保证**最优策略不变性(optimal policy invariance)**;以及**混合符号-数值过程(hybrid symbolic-numerical procedure)**,从演示中蒸馏不变量,无需在线交互
- 核心思想是从**视觉特征拟合(visual feature-fitting)** 转向发现**行为不变量(behavioral invariants)**,即那些在不同视觉实例中保持恒定的任务属性
- **首次** 提出学习**符号化(symbolic)** 的不变奖励函数,而非传统基于像素的奖励模型,实现跨变体泛化
- **极少量演示(5个)** 即可学习,无需在线交互或大量标注数据
- **零样本(zero-shot)** 泛化到位置、视角、物体等**分布外(out-of-distribution, OOD)** 变化,同一奖励表示可重用于多种任务变体
- 相比基线方法,在**过程对齐(process alignment)** 和**策略rollout排序(policy rollout ranking)** 能力上显著提升,加速下游策略学习
- 为**真实世界机器人(reward-learning in real-world robotics)** 提供了一种从少量演示中学习可泛化奖励函数的新范式
- 在**Meta-World** 和**Franka** 操作任务的多个实验中验证了方法有效性,展示了更强的泛化性和实用性
- 通过**真实世界OOD实验** 证明奖励表示的**可重用性(reusability)**,有助于推动**少样本奖励学习(few-shot reward learning)** 在开放世界中的应用