← 返回论文列表

超越像素:从少量演示中学习用于真实世界机器人的不变奖励
Beyond Pixels: Learning Invariant Rewards for Real-World Robotics From a Few Demonstrations

作者: Tengye Xu, Yangting Sun, Ziju Shen 等8人
arXiv: 2605.22123v1
分类: cs.RO
📝 论文摘要
设计在受控实验室环境之外也能泛化的奖励函数,仍是机器人学强化学习中的根本性挑战。在开放世界操作问题中,单个任务可能因不同物体实例、位置和相机视角而呈现大量变体。近期基于视觉的奖励模型倾向于记忆特定像素分布,难以在训练条件之外实现泛化。为此,我们提出一种框架,该框架能仅从五次示范中学习不变符号化奖励函数。其核心洞见在于从视觉特征拟合转向行为不变量的发现:即跨不同视觉实例保持恒定的任务级属性。该框架包含两个耦合组件:一是结构化奖励公式,它在保持最优策略不变性的同时编码任务级策略和物理约束;二是混合符号-数值程序,它在无需在线交互的情况下从示范中提炼这些不变量。在八项Meta-World任务和三项Franka操作任务上的实验表明,与基线方法相比,我们的方法在过程对齐度和策略执行排序能力上表现更优,进而加速了下游策略学习。三项真实世界分布外实验进一步证明,同一习得奖励可零样本泛化至位置、视角和物体的变化,使得单一奖励表示能够在实践中跨不同任务变体重用。

📊 核心分析

🎯 研究动机
- 设计能够泛化到**开放世界(open-world)** 环境的**奖励函数(reward function)** 仍是**强化学习(reinforcement learning, RL)** 在机器人领域的根本挑战 - 现有基于视觉的**奖励模型(reward model)** 倾向于记忆特定的像素分布,无法在物体实例、位置、相机视角等变化下泛化 - 同一任务存在大量变体,需要从少量演示中学习**任务级(task-level)** 的不变属性,而非依赖特定视觉特征
🔧 核心方法
- 提出从最少5次演示中学习**不变符号奖励函数(invariant symbolic reward function)** 的框架 - 框架包含两个耦合组件:**结构奖励公式(structural reward formulation)** 编码任务级策略与物理约束,保证**最优策略不变性(optimal policy invariance)**;以及**混合符号-数值过程(hybrid symbolic-numerical procedure)**,从演示中蒸馏不变量,无需在线交互 - 核心思想是从**视觉特征拟合(visual feature-fitting)** 转向发现**行为不变量(behavioral invariants)**,即那些在不同视觉实例中保持恒定的任务属性
💡 核心创新
- **首次** 提出学习**符号化(symbolic)** 的不变奖励函数,而非传统基于像素的奖励模型,实现跨变体泛化 - **极少量演示(5个)** 即可学习,无需在线交互或大量标注数据 - **零样本(zero-shot)** 泛化到位置、视角、物体等**分布外(out-of-distribution, OOD)** 变化,同一奖励表示可重用于多种任务变体 - 相比基线方法,在**过程对齐(process alignment)** 和**策略rollout排序(policy rollout ranking)** 能力上显著提升,加速下游策略学习
🏆 总体贡献
- 为**真实世界机器人(reward-learning in real-world robotics)** 提供了一种从少量演示中学习可泛化奖励函数的新范式 - 在**Meta-World** 和**Franka** 操作任务的多个实验中验证了方法有效性,展示了更强的泛化性和实用性 - 通过**真实世界OOD实验** 证明奖励表示的**可重用性(reusability)**,有助于推动**少样本奖励学习(few-shot reward learning)** 在开放世界中的应用