RePlan-Bot：面向具身指令跟随的多级重新规划

📝 论文摘要

具身指令跟随（EIF）要求智能体在交互式三维环境中理解并执行复杂的自然语言命令。尽管近期取得进展，现有方法在长时域规划和处理不可逆状态变化方面仍存在不足，导致任务成功率较低。为解决这些挑战，我们提出RePlan-Bot——一种在任务执行过程中进行多层级连续重新规划的新型EIF智能体。RePlan-Bot融合了基于大语言模型的高层级审核器，可根据环境反馈动态调整子目标；基于多层实例地图的常识引导搜索机制，实现精准结构化的物体定位；以及轻量级ViT校正器，可预先修正高风险的低层级动作。在ALFRED基准测试上的评估表明，RePlan-Bot在可见与未见环境中均达到最优性能，展现出卓越的适应性与可靠性。

🎯 研究动机

- 现有**具身指令跟随(Embodied Instruction Following, EIF)** 方法在**长时程规划(long-horizon planning)** 和**处理不可逆状态变化(irreversible state changes)** 时表现不佳 - 任务成功率低，难以应对复杂自然语言指令与3D交互环境的动态性 - 研究背景：尽管近期有进展，但当前代理缺乏对执行过程持续调整的能力

🔧 核心方法

- 提出**RePlan-Bot**，一个执行**多层次连续重新规划(multi-level continuous replanning)** 的EIF代理 - 集成高层**LLM审计器(LLM-based auditor)**，基于环境反馈动态调整子目标 - 使用**常识引导的搜索机制(commonsense-guided search mechanism)**，基于**多层实例地图(multi-layered instance map)** 实现精确结构化对象定位 - 引入轻量级**ViT修正器(ViT-based corrector)**，提前修正有风险的底层动作

💡 核心创新

- **首创多层次连续重新规划框架**：在高层和低层同时进行实时重新规划，区别于仅依赖静态规划或单次调整的方法 - **多模块协同设计**：将**LLM审计**、**常识搜索** 和**ViT修正** 结合，覆盖从目标分解到动作执行的全链路 - **可应对不可逆状态变化**：通过连续反馈和修正，显著提升了在动态环境中的鲁棒性

🏆 总体贡献

- 在**ALFRED基准** 上达到**所见(seen)和未见(unseen)环境** 的**SOTA(state-of-the-art)** 性能 - 解决了长时程规划和状态变化的**核心瓶颈**，为EIF领域提供新的范式 - 展示了优越的**适应性(adaptability)** 和**可靠性(reliability)**，促进具身代理在真实场景中的应用

RePlan-Bot：面向具身指令跟随的多级重新规划
RePlan-Bot: Multi-Level Replanning for Embodied Instruction Following

📊 核心分析

RePlan-Bot：面向具身指令跟随的多级重新规划 RePlan-Bot: Multi-Level Replanning for Embodied Instruction Following

📊 核心分析

RePlan-Bot：面向具身指令跟随的多级重新规划
RePlan-Bot: Multi-Level Replanning for Embodied Instruction Following