← 返回论文列表

ESCAPE:面向长时程移动操作的情景空间记忆与自适应执行策略
ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

作者: Jingjing Qian, Zeyuan He, Chen Shi 等5人
arXiv: 2604.13633v1
分类: cs.CV, cs.RO
📝 论文摘要
在复杂的室内环境中,协调导航与操作并实现稳健性能是具身智能体的核心挑战。然而,当任务时间跨度较长时,现有方法常因灾难性遗忘、空间不一致性及执行僵化等问题而表现不佳。为解决这些难题,我们提出ESCAPE框架(基于自适应执行策略的时空记忆耦合系统),通过紧密耦合的感知-定位-执行工作流实现任务处理。在感知层面,ESCAPE设计了时空融合建图模块,能够以自回归方式构建无需深度信息的持久化三维空间记忆,同时配备记忆驱动的目标定位模块以生成精确的交互掩码。在执行层面,自适应策略动态协调主动式全局导航与反应式局部操作,实现对机会性目标的精准捕捉。在ALFRED基准测试中,ESCAPE取得突破性进展:在逐步指令引导下,可见与不可见测试环境的任务成功率分别达到65.09%和60.79%。通过减少冗余探索,本框架在路径加权指标上实现显著提升,即便面对缺乏详细指导的长时程任务,仍保持稳健性能(61.24%/56.04%)。

📊 核心分析

🎯 研究动机
该论文旨在解决具身智能体(embodied AI)在复杂室内环境中执行长视野(long-horizon)移动操作任务时面临的挑战。研究背景是现有方法在任务延长时,常因灾难性遗忘(catastrophic forgetting)、空间不一致性(spatial inconsistency)和僵化执行(rigid execution)而性能下降。
🔧 核心方法
论文提出了ESCAPE框架,其核心是一个紧密耦合的感知-接地-执行(perception-grounding-execution)工作流。具体包括: - 时空融合建图(Spatio-Temporal Fusion Mapping)模块:以自回归(autoregressive)方式构建无需深度信息的持久性3D空间记忆。 - 记忆驱动目标接地(Memory-Driven Target Grounding)模块:用于生成精确的交互掩码(interaction mask)。 - 自适应执行策略(Adaptive Execution Policy):动态协调主动的全局导航(proactive global navigation)和反应式的局部操作(reactive local manipulation),以捕捉机会性目标(opportunistic targets)。
💡 核心创新
论文的核心创新点在于: - 提出了一个紧密耦合的、以持久性空间记忆为中心的感知-执行框架,解决了长视野任务中的空间不一致性和灾难性遗忘问题。 - 设计了无需深度信息的自回归3D空间记忆构建方法,增强了感知的鲁棒性(robustness)。 - 引入了自适应执行策略,打破了传统方法中导航与操作僵化分离的模式,能够动态、灵活地协调全局导航与局部操作,从而显著减少冗余探索。
🏆 总体贡献
论文对该领域的整体贡献是: - 在ALFRED基准测试上取得了最先进的(state-of-the-art)性能,在测试可见和未见环境中分别达到65.09%和60.79%的成功率。 - 通过减少冗余探索,在路径长度加权指标(path-length-weighted metrics)上取得了显著提升。 - 证明了即使在长视野任务中缺乏详细指导时,仍能保持鲁棒性能(61.24% / 56.04%),展示了方法的泛化能力和实用性。