← 返回论文列表

RePlan-Bot:面向具身指令跟随的多级重新规划
RePlan-Bot: Multi-Level Replanning for Embodied Instruction Following

作者: Xicheng Gong, Guozheng Sun, Peiran Xu 等4人
arXiv: 2605.25851v1
分类: cs.RO
📝 论文摘要
具身指令跟随(EIF)要求智能体在交互式三维环境中理解并执行复杂的自然语言命令。尽管近期取得进展,现有方法在长时域规划和处理不可逆状态变化方面仍存在不足,导致任务成功率较低。为解决这些挑战,我们提出RePlan-Bot——一种在任务执行过程中进行多层级连续重新规划的新型EIF智能体。RePlan-Bot融合了基于大语言模型的高层级审核器,可根据环境反馈动态调整子目标;基于多层实例地图的常识引导搜索机制,实现精准结构化的物体定位;以及轻量级ViT校正器,可预先修正高风险的低层级动作。在ALFRED基准测试上的评估表明,RePlan-Bot在可见与未见环境中均达到最优性能,展现出卓越的适应性与可靠性。

📊 核心分析

🎯 研究动机
- 现有**具身指令跟随(Embodied Instruction Following, EIF)** 方法在**长时程规划(long-horizon planning)** 和**处理不可逆状态变化(irreversible state changes)** 时表现不佳 - 任务成功率低,难以应对复杂自然语言指令与3D交互环境的动态性 - 研究背景:尽管近期有进展,但当前代理缺乏对执行过程持续调整的能力
🔧 核心方法
- 提出**RePlan-Bot**,一个执行**多层次连续重新规划(multi-level continuous replanning)** 的EIF代理 - 集成高层**LLM审计器(LLM-based auditor)**,基于环境反馈动态调整子目标 - 使用**常识引导的搜索机制(commonsense-guided search mechanism)**,基于**多层实例地图(multi-layered instance map)** 实现精确结构化对象定位 - 引入轻量级**ViT修正器(ViT-based corrector)**,提前修正有风险的底层动作
💡 核心创新
- **首创多层次连续重新规划框架**:在高层和低层同时进行实时重新规划,区别于仅依赖静态规划或单次调整的方法 - **多模块协同设计**:将**LLM审计**、**常识搜索** 和**ViT修正** 结合,覆盖从目标分解到动作执行的全链路 - **可应对不可逆状态变化**:通过连续反馈和修正,显著提升了在动态环境中的鲁棒性
🏆 总体贡献
- 在**ALFRED基准** 上达到**所见(seen)和未见(unseen)环境** 的**SOTA(state-of-the-art)** 性能 - 解决了长时程规划和状态变化的**核心瓶颈**,为EIF领域提供新的范式 - 展示了优越的**适应性(adaptability)** 和**可靠性(reliability)**,促进具身代理在真实场景中的应用