← 返回论文列表

世界-任务分解用于机器人学习
World-Task Factorization for Robot Learning

作者: Eduardo Sebastián, Adrian Pfisterer, Vito Mengers 等5人
arXiv: 2606.02027v1
分类: cs.RO, cs.LG, cs.MA
📝 论文摘要
机器人学习必须产生能够泛化到约束条件、队友和环境的新组合的策略。为达成此目标,我们必须从结构上对策略进行分解——这一选择决定了哪些部分可泛化、哪些需重新训练、哪些仍相互纠缠。现有方法涵盖广泛光谱:从期望从数据规模化中涌现结构,到通过层级结构、技能库或学习特化模块进行手工设计。本文研究了我们所认为的机器人学中最根本的分解:将世界与任务相分离。我们探究了这种分解具有原理性的条件。世界因素是具身系统与环境的属性,独立于意图存在;任务因素则由任务对世界所允许状态的逻辑定义。我们通过贝叶斯模型证据形式化这种非对称性:它与数据生成过程一致,通过分析性世界模型维持高似然性,并降低奥卡姆剃刀对任务参数的惩罚。我们通过将AICON(一种可微分的递归估计器与互连图,具有组合性、无需任务特定数据运行、并将代价梯度传播至执行器)与一个紧凑的、可学习的策略相结合来实例化该分解,该策略调节梯度路径。梯度作为两个因素间的接口:通过图传递世界结构,通过代价传递任务结构,从而在保持结构泛化的同时实现低维学习。我们在涵盖异构机器人、环境、任务逻辑与感觉运动模态的三项问题中测试了世界/任务分解。我们的框架在所有设置中均优于端到端基线与分析性启发式方法,零样本泛化至分布外配置,并无需重新训练即可迁移至真实硬件。

📊 核心分析

🎯 研究动机
- 机器人学习需要产生能泛化到新组合的约束、队友和环境的策略,现有方法要么依赖数据规模涌现结构,要么手工设计层次结构或技能库,缺乏最基础的结构分解。 - 本文研究核心问题:如何对策略进行结构分解,使得世界因子(具身系统与环境属性)与任务因子(任务逻辑)分离,从而实现泛化与低维学习。
🔧 核心方法
- 提出**世界-任务分解(World-Task Factorization)**,通过贝叶斯模型证据(Bayesian model evidence)形式化世界与任务的不对称性:世界因子与数据生成过程一致,通过分析世界模型保持高似然,减少奥卡姆剃刀对任务参数的惩罚。 - 实例化框架:配对**AICON** (可微递归估计器图,具有组合性,无需任务特定数据,将成本梯度传播到执行器)与紧凑学习策略,该策略调制梯度路径;梯度作为世界和任务因子之间的接口,携带世界结构(通过图)和任务结构(通过成本)。
💡 核心创新
- **首创性**:首次明确区分机器人学习中最基础的分解——世界与任务,并通过贝叶斯模型证据提供理论原则,区别于现有方法(数据规模涌现或手工设计)。 - **分解机制创新**:利用梯度作为接口,使AICON图(无任务数据)与学习策略共同工作,实现低维参数学习同时保持结构泛化,无需重新训练即可零样本泛化到分布外配置并迁移到真实硬件。
🏆 总体贡献
- 为机器人学习领域提供了一种新颖的**世界-任务分解(World-Task Factorization)** 范式,从结构上促进策略的泛化能力。 - 在异构机器人、环境、任务逻辑和感知运动模态的三个测试中,所提框架优于端到端基线和分析启发式,并实现零样本分布外泛化和真实硬件迁移,表明方法的实用性和鲁棒性。