学习基于符号世界模型的双层策略以实现长期规划

Learning Bilevel Policies over Symbolic World Models for Long-Horizon Planning

作者: Dillon Z. Chen, Till Hofmann, Toryn Q. Klassen 等4人

arXiv: 2605.15975v1

分类: cs.AI, cs.RO

📝 论文摘要

我们致力于解决构建能够可靠解决长程规划问题的具身AI智能体的挑战。演示模仿学习已被证明能有效训练机器人完成多种需要精细运动控制和底层连续环境操作的复杂任务。然而，仅通过模仿学习生成长程规划仍是一项艰巨的任务。相比之下，高层符号抽象有助于实现高效且可解释的长程规划。我们提出将底层模仿学习（用于操作与控制）的优势与高层符号抽象（用于长程规划）相结合。通过形式为 $(π^{\mathrm{hl}}, π^{\mathrm{ll}})$ 的**双层策略**实现这一构想，该策略包含一个从底层演示中学习到的神经策略 $π^{\mathrm{ll}}$，以及一个基于底层演示的符号抽象与归纳泛化构建的高层符号策略 $π^{\mathrm{hl}}$。我们在BISON系统中实现了这些思想。在扩展的MetaWorld基准测试上的实验表明，BISON能够泛化至比VLA和端到端方法解决的更长程、物体数量更多的问题，并且在训练和推理过程中具有更高的时间和内存效率。值得注意的是，忽略底层执行时，BISON的高层策略能在不到一分钟内解决涉及10,000个相关物体的高层规划问题。项目页面：https://dillonzchen.github.io/bison

📊 核心分析

🎯 研究动机

- 构建能够可靠解决**长时域规划(long-horizon planning)** 问题的具身AI智能体 - 低级模仿学习在**连续环境(continuous environments)** 中有效，但单独难生成长时域规划 - **高级符号抽象(high-level symbolic abstractions)** 有助于长时域规划，但缺乏与低级控制的结合

🔧 核心方法

- 提出**双层策略(bilevel policies)** 形式$(π^{\mathrm{hl}}, π^{\mathrm{ll}})$：低级神经网络策略$π^{\mathrm{ll}}$从低级演示学习，高级符号策略$π^{\mathrm{hl}}$从低级演示的**符号抽象(symbolic abstractions)** 结合**归纳泛化(inductive generalisation)** 构建 - 在**BISON系统** 中实现这些思想，通过符号世界模型连接高低层

💡 核心创新

- **首次结合低级模仿学习与高级符号抽象**，克服各自在长时域规划中的局限 - **双层策略结构**：高级策略进行高效符号规划，低级策略执行精细控制，实现端到端协同 - **强泛化能力**：在MetaWorld基准上泛化到更长时域和更多物体，且**训练和推理更省时内存**

🏆 总体贡献

- 提出**BISON框架**，在扩展MetaWorld基准上优于**视觉-语言-动作(VLA)** 和端到端方法 - 高级策略可高效解决**含10,000个相关物体的高级问题** （忽略低级执行时在一分钟内完成） - 提供项目页面促进复现，为具身AI长时域规划提供新范式