ESCAPE：面向长时程移动操作的情景空间记忆与自适应执行策略

📝 论文摘要

在复杂的室内环境中，协调导航与操作并实现稳健性能是具身智能体的核心挑战。然而，当任务时间跨度较长时，现有方法常因灾难性遗忘、空间不一致性及执行僵化等问题而表现不佳。为解决这些难题，我们提出ESCAPE框架（基于自适应执行策略的时空记忆耦合系统），通过紧密耦合的感知-定位-执行工作流实现任务处理。在感知层面，ESCAPE设计了时空融合建图模块，能够以自回归方式构建无需深度信息的持久化三维空间记忆，同时配备记忆驱动的目标定位模块以生成精确的交互掩码。在执行层面，自适应策略动态协调主动式全局导航与反应式局部操作，实现对机会性目标的精准捕捉。在ALFRED基准测试中，ESCAPE取得突破性进展：在逐步指令引导下，可见与不可见测试环境的任务成功率分别达到65.09%和60.79%。通过减少冗余探索，本框架在路径加权指标上实现显著提升，即便面对缺乏详细指导的长时程任务，仍保持稳健性能（61.24%/56.04%）。

🎯 研究动机

该论文旨在解决具身智能体(embodied AI)在复杂室内环境中执行长视野(long-horizon)移动操作任务时面临的挑战。研究背景是现有方法在任务延长时，常因灾难性遗忘(catastrophic forgetting)、空间不一致性(spatial inconsistency)和僵化执行(rigid execution)而性能下降。

🔧 核心方法

论文提出了ESCAPE框架，其核心是一个紧密耦合的感知-接地-执行(perception-grounding-execution)工作流。具体包括： - 时空融合建图(Spatio-Temporal Fusion Mapping)模块：以自回归(autoregressive)方式构建无需深度信息的持久性3D空间记忆。 - 记忆驱动目标接地(Memory-Driven Target Grounding)模块：用于生成精确的交互掩码(interaction mask)。 - 自适应执行策略(Adaptive Execution Policy)：动态协调主动的全局导航(proactive global navigation)和反应式的局部操作(reactive local manipulation)，以捕捉机会性目标(opportunistic targets)。

💡 核心创新

论文的核心创新点在于： - 提出了一个紧密耦合的、以持久性空间记忆为中心的感知-执行框架，解决了长视野任务中的空间不一致性和灾难性遗忘问题。 - 设计了无需深度信息的自回归3D空间记忆构建方法，增强了感知的鲁棒性(robustness)。 - 引入了自适应执行策略，打破了传统方法中导航与操作僵化分离的模式，能够动态、灵活地协调全局导航与局部操作，从而显著减少冗余探索。

🏆 总体贡献

论文对该领域的整体贡献是： - 在ALFRED基准测试上取得了最先进的(state-of-the-art)性能，在测试可见和未见环境中分别达到65.09%和60.79%的成功率。 - 通过减少冗余探索，在路径长度加权指标(path-length-weighted metrics)上取得了显著提升。 - 证明了即使在长视野任务中缺乏详细指导时，仍能保持鲁棒性能（61.24% / 56.04%），展示了方法的泛化能力和实用性。

ESCAPE：面向长时程移动操作的情景空间记忆与自适应执行策略
ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

📊 核心分析

ESCAPE：面向长时程移动操作的情景空间记忆与自适应执行策略 ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

📊 核心分析

ESCAPE：面向长时程移动操作的情景空间记忆与自适应执行策略
ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation