- 构建能够可靠解决**长时域规划(long-horizon planning)** 问题的具身AI智能体
- 低级模仿学习在**连续环境(continuous environments)** 中有效,但单独难生成长时域规划
- **高级符号抽象(high-level symbolic abstractions)** 有助于长时域规划,但缺乏与低级控制的结合
- 提出**双层策略(bilevel policies)** 形式$(π^{\mathrm{hl}}, π^{\mathrm{ll}})$:低级神经网络策略$π^{\mathrm{ll}}$从低级演示学习,高级符号策略$π^{\mathrm{hl}}$从低级演示的**符号抽象(symbolic abstractions)** 结合**归纳泛化(inductive generalisation)** 构建
- 在**BISON系统** 中实现这些思想,通过符号世界模型连接高低层
- **首次结合低级模仿学习与高级符号抽象**,克服各自在长时域规划中的局限
- **双层策略结构**:高级策略进行高效符号规划,低级策略执行精细控制,实现端到端协同
- **强泛化能力**:在MetaWorld基准上泛化到更长时域和更多物体,且**训练和推理更省时内存**
- 提出**BISON框架**,在扩展MetaWorld基准上优于**视觉-语言-动作(VLA)** 和端到端方法
- 高级策略可高效解决**含10,000个相关物体的高级问题** (忽略低级执行时在一分钟内完成)
- 提供项目页面促进复现,为具身AI长时域规划提供新范式