超越像素：从少量演示中学习用于真实世界机器人的不变奖励

📝 论文摘要

设计在受控实验室环境之外也能泛化的奖励函数，仍是机器人学强化学习中的根本性挑战。在开放世界操作问题中，单个任务可能因不同物体实例、位置和相机视角而呈现大量变体。近期基于视觉的奖励模型倾向于记忆特定像素分布，难以在训练条件之外实现泛化。为此，我们提出一种框架，该框架能仅从五次示范中学习不变符号化奖励函数。其核心洞见在于从视觉特征拟合转向行为不变量的发现：即跨不同视觉实例保持恒定的任务级属性。该框架包含两个耦合组件：一是结构化奖励公式，它在保持最优策略不变性的同时编码任务级策略和物理约束；二是混合符号-数值程序，它在无需在线交互的情况下从示范中提炼这些不变量。在八项Meta-World任务和三项Franka操作任务上的实验表明，与基线方法相比，我们的方法在过程对齐度和策略执行排序能力上表现更优，进而加速了下游策略学习。三项真实世界分布外实验进一步证明，同一习得奖励可零样本泛化至位置、视角和物体的变化，使得单一奖励表示能够在实践中跨不同任务变体重用。

🎯 研究动机

- 设计能够泛化到**开放世界(open-world)** 环境的**奖励函数(reward function)** 仍是**强化学习(reinforcement learning, RL)** 在机器人领域的根本挑战 - 现有基于视觉的**奖励模型(reward model)** 倾向于记忆特定的像素分布，无法在物体实例、位置、相机视角等变化下泛化 - 同一任务存在大量变体，需要从少量演示中学习**任务级(task-level)** 的不变属性，而非依赖特定视觉特征

🔧 核心方法

- 提出从最少5次演示中学习**不变符号奖励函数(invariant symbolic reward function)** 的框架 - 框架包含两个耦合组件：**结构奖励公式(structural reward formulation)** 编码任务级策略与物理约束，保证**最优策略不变性(optimal policy invariance)**；以及**混合符号-数值过程(hybrid symbolic-numerical procedure)**，从演示中蒸馏不变量，无需在线交互 - 核心思想是从**视觉特征拟合(visual feature-fitting)** 转向发现**行为不变量(behavioral invariants)**，即那些在不同视觉实例中保持恒定的任务属性

💡 核心创新

- **首次** 提出学习**符号化(symbolic)** 的不变奖励函数，而非传统基于像素的奖励模型，实现跨变体泛化 - **极少量演示(5个)** 即可学习，无需在线交互或大量标注数据 - **零样本(zero-shot)** 泛化到位置、视角、物体等**分布外(out-of-distribution, OOD)** 变化，同一奖励表示可重用于多种任务变体 - 相比基线方法，在**过程对齐(process alignment)** 和**策略rollout排序(policy rollout ranking)** 能力上显著提升，加速下游策略学习

🏆 总体贡献

- 为**真实世界机器人(reward-learning in real-world robotics)** 提供了一种从少量演示中学习可泛化奖励函数的新范式 - 在**Meta-World** 和**Franka** 操作任务的多个实验中验证了方法有效性，展示了更强的泛化性和实用性 - 通过**真实世界OOD实验** 证明奖励表示的**可重用性(reusability)**，有助于推动**少样本奖励学习(few-shot reward learning)** 在开放世界中的应用

超越像素：从少量演示中学习用于真实世界机器人的不变奖励
Beyond Pixels: Learning Invariant Rewards for Real-World Robotics From a Few Demonstrations

📊 核心分析

超越像素：从少量演示中学习用于真实世界机器人的不变奖励 Beyond Pixels: Learning Invariant Rewards for Real-World Robotics From a Few Demonstrations

📊 核心分析

超越像素：从少量演示中学习用于真实世界机器人的不变奖励
Beyond Pixels: Learning Invariant Rewards for Real-World Robotics From a Few Demonstrations