该论文旨在解决长视野(long-horizon)具身操作任务中的关键挑战。研究背景是:现有的视觉-语言-动作(Vision-Language-Action, VLA)策略通常依赖有限的观察窗口和端到端(end-to-end)动作预测,导致它们在具有部分可观测性(partial observability)、遮挡(occlusions)和多阶段依赖(multi-stage dependencies)的长视野、依赖记忆的任务中表现脆弱。这类任务不仅需要精确的视觉运动控制(visuomotor control),还需要持久记忆(persistent memory)、自适应任务分解(adaptive task decomposition)以及从执行失败中显式恢复(explicit recovery)的能力。
论文提出了一个用于长视野具身操作的双系统(dual-system)框架。该框架明确地将高层语义推理与低层运动执行分离:
- **高层规划器(Planner)**:实现为一个基于视觉语言模型(Vision-Language Model, VLM)的智能体模块(agentic module)。它维护结构化的任务记忆(structured task memory),并执行目标分解(goal decomposition)、结果验证(outcome verification)和基于错误的纠正(error-driven correction)。
- **低层执行器(Executor)**:实例化为一个基于VLA的视觉运动控制器(visuomotor controller)。它通过基于扩散(diffusion-based)的动作生成来执行每个子任务,其生成过程以经过几何保持滤波(geometry-preserving filtered)的观察为条件。
这两个系统在规划与执行之间形成一个闭环(closed loop),实现了记忆感知推理(memory-aware reasoning)、自适应重规划(adaptive replanning)和鲁棒的在线恢复(robust online recovery)。
论文的核心创新点在于其提出的双系统框架及其关键设计,与现有端到端VLA方法相比具有以下独特之处:
- **明确的系统分离与闭环交互**:将长视野任务分解为独立的、专门的高层规划与低层执行模块,并通过闭环反馈实现动态调整,而非单一的端到端策略。
- **结构化记忆与智能体式规划**:规划器作为智能体模块,主动维护和使用结构化的任务记忆,支持多步骤推理、结果验证和基于错误的纠正,解决了现有方法记忆有限和缺乏显式推理的问题。
- **几何感知的观察滤波与扩散动作生成**:执行器采用几何保持滤波处理观察,并结合扩散模型生成动作,增强了在遮挡和部分观测下的鲁棒性和动作精度。
- **自适应恢复机制**:框架内置了从执行失败中在线恢复的能力,通过规划器的结果验证触发重规划或纠正,这是应对长视野任务中累积错误的关键创新。
论文对该领域的整体贡献包括:
- **提出新框架**:为解决长视野操作任务中记忆、分解和恢复的挑战,提出了一个新颖的双系统闭环框架,将高层语义推理与低层运动控制有效结合。
- **实现性能突破**:在代表性的RMBench任务上的实验表明,该框架显著优于现有基线方法,平均成功率从最强基线的9.8%提升至32.4%。
- **验证关键组件**:通过消融研究(ablation studies)证实了结构化记忆和闭环恢复机制对于长视野操作任务成功的重要性,为后续研究提供了设计指导。
- **推动研究方向**:展示了将大型语言/视觉模型作为主动规划智能体,并与专精的执行器结合的有效性,为构建更鲁棒、更智能的具身AI系统提供了新思路。