该论文旨在解决具身智能体(embodied AI)在复杂室内环境中执行长视野(long-horizon)移动操作任务时面临的挑战。研究背景是现有方法在任务延长时,常因灾难性遗忘(catastrophic forgetting)、空间不一致性(spatial inconsistency)和僵化执行(rigid execution)而性能下降。
论文提出了ESCAPE框架,其核心是一个紧密耦合的感知-接地-执行(perception-grounding-execution)工作流。具体包括:
- 时空融合建图(Spatio-Temporal Fusion Mapping)模块:以自回归(autoregressive)方式构建无需深度信息的持久性3D空间记忆。
- 记忆驱动目标接地(Memory-Driven Target Grounding)模块:用于生成精确的交互掩码(interaction mask)。
- 自适应执行策略(Adaptive Execution Policy):动态协调主动的全局导航(proactive global navigation)和反应式的局部操作(reactive local manipulation),以捕捉机会性目标(opportunistic targets)。
论文的核心创新点在于:
- 提出了一个紧密耦合的、以持久性空间记忆为中心的感知-执行框架,解决了长视野任务中的空间不一致性和灾难性遗忘问题。
- 设计了无需深度信息的自回归3D空间记忆构建方法,增强了感知的鲁棒性(robustness)。
- 引入了自适应执行策略,打破了传统方法中导航与操作僵化分离的模式,能够动态、灵活地协调全局导航与局部操作,从而显著减少冗余探索。
论文对该领域的整体贡献是:
- 在ALFRED基准测试上取得了最先进的(state-of-the-art)性能,在测试可见和未见环境中分别达到65.09%和60.79%的成功率。
- 通过减少冗余探索,在路径长度加权指标(path-length-weighted metrics)上取得了显著提升。
- 证明了即使在长视野任务中缺乏详细指导时,仍能保持鲁棒性能(61.24% / 56.04%),展示了方法的泛化能力和实用性。