- 机器人学习需要产生能泛化到新组合的约束、队友和环境的策略,现有方法要么依赖数据规模涌现结构,要么手工设计层次结构或技能库,缺乏最基础的结构分解。
- 本文研究核心问题:如何对策略进行结构分解,使得世界因子(具身系统与环境属性)与任务因子(任务逻辑)分离,从而实现泛化与低维学习。
- 提出**世界-任务分解(World-Task Factorization)**,通过贝叶斯模型证据(Bayesian model evidence)形式化世界与任务的不对称性:世界因子与数据生成过程一致,通过分析世界模型保持高似然,减少奥卡姆剃刀对任务参数的惩罚。
- 实例化框架:配对**AICON** (可微递归估计器图,具有组合性,无需任务特定数据,将成本梯度传播到执行器)与紧凑学习策略,该策略调制梯度路径;梯度作为世界和任务因子之间的接口,携带世界结构(通过图)和任务结构(通过成本)。
- **首创性**:首次明确区分机器人学习中最基础的分解——世界与任务,并通过贝叶斯模型证据提供理论原则,区别于现有方法(数据规模涌现或手工设计)。
- **分解机制创新**:利用梯度作为接口,使AICON图(无任务数据)与学习策略共同工作,实现低维参数学习同时保持结构泛化,无需重新训练即可零样本泛化到分布外配置并迁移到真实硬件。
- 为机器人学习领域提供了一种新颖的**世界-任务分解(World-Task Factorization)** 范式,从结构上促进策略的泛化能力。
- 在异构机器人、环境、任务逻辑和感知运动模态的三个测试中,所提框架优于端到端基线和分析启发式,并实现零样本分布外泛化和真实硬件迁移,表明方法的实用性和鲁棒性。