世界-任务分解用于机器人学习

📝 论文摘要

机器人学习必须产生能够泛化到约束条件、队友和环境的新组合的策略。为达成此目标，我们必须从结构上对策略进行分解——这一选择决定了哪些部分可泛化、哪些需重新训练、哪些仍相互纠缠。现有方法涵盖广泛光谱：从期望从数据规模化中涌现结构，到通过层级结构、技能库或学习特化模块进行手工设计。本文研究了我们所认为的机器人学中最根本的分解：将世界与任务相分离。我们探究了这种分解具有原理性的条件。世界因素是具身系统与环境的属性，独立于意图存在；任务因素则由任务对世界所允许状态的逻辑定义。我们通过贝叶斯模型证据形式化这种非对称性：它与数据生成过程一致，通过分析性世界模型维持高似然性，并降低奥卡姆剃刀对任务参数的惩罚。我们通过将AICON（一种可微分的递归估计器与互连图，具有组合性、无需任务特定数据运行、并将代价梯度传播至执行器）与一个紧凑的、可学习的策略相结合来实例化该分解，该策略调节梯度路径。梯度作为两个因素间的接口：通过图传递世界结构，通过代价传递任务结构，从而在保持结构泛化的同时实现低维学习。我们在涵盖异构机器人、环境、任务逻辑与感觉运动模态的三项问题中测试了世界/任务分解。我们的框架在所有设置中均优于端到端基线与分析性启发式方法，零样本泛化至分布外配置，并无需重新训练即可迁移至真实硬件。

🎯 研究动机

- 机器人学习需要产生能泛化到新组合的约束、队友和环境的策略，现有方法要么依赖数据规模涌现结构，要么手工设计层次结构或技能库，缺乏最基础的结构分解。 - 本文研究核心问题：如何对策略进行结构分解，使得世界因子（具身系统与环境属性）与任务因子（任务逻辑）分离，从而实现泛化与低维学习。

🔧 核心方法

- 提出**世界-任务分解(World-Task Factorization)**，通过贝叶斯模型证据(Bayesian model evidence)形式化世界与任务的不对称性：世界因子与数据生成过程一致，通过分析世界模型保持高似然，减少奥卡姆剃刀对任务参数的惩罚。 - 实例化框架：配对**AICON** （可微递归估计器图，具有组合性，无需任务特定数据，将成本梯度传播到执行器）与紧凑学习策略，该策略调制梯度路径；梯度作为世界和任务因子之间的接口，携带世界结构（通过图）和任务结构（通过成本）。

💡 核心创新

- **首创性**：首次明确区分机器人学习中最基础的分解——世界与任务，并通过贝叶斯模型证据提供理论原则，区别于现有方法（数据规模涌现或手工设计）。 - **分解机制创新**：利用梯度作为接口，使AICON图（无任务数据）与学习策略共同工作，实现低维参数学习同时保持结构泛化，无需重新训练即可零样本泛化到分布外配置并迁移到真实硬件。

🏆 总体贡献

- 为机器人学习领域提供了一种新颖的**世界-任务分解(World-Task Factorization)** 范式，从结构上促进策略的泛化能力。 - 在异构机器人、环境、任务逻辑和感知运动模态的三个测试中，所提框架优于端到端基线和分析启发式，并实现零样本分布外泛化和真实硬件迁移，表明方法的实用性和鲁棒性。

世界-任务分解用于机器人学习
World-Task Factorization for Robot Learning

📊 核心分析

世界-任务分解用于机器人学习 World-Task Factorization for Robot Learning

📊 核心分析

世界-任务分解用于机器人学习
World-Task Factorization for Robot Learning