目标导向技能：基于自适应规划与反思的长周期操作

📝 论文摘要

近期，视觉-语言-动作系统在具身操控任务中展现出强大能力。然而，现有视觉-语言-动作策略大多依赖有限的观测窗口和端到端动作预测，在需要长期记忆、存在局部可观测性、遮挡和多阶段依赖的任务中表现脆弱。这类任务不仅需要精确的视觉运动控制，还要求系统具备持久记忆、自适应任务分解及显式的执行错误恢复能力。为突破这些局限，我们提出一种面向长周期具身操控的双系统框架。该框架将高层语义推理与底层运动执行显式分离：高层规划器作为基于视觉语言模型的智能体模块，维护结构化任务记忆，执行目标分解、结果验证及误差驱动修正；底层执行器作为基于视觉-语言-动作的视觉运动控制器，通过基于扩散模型的动作生成机制，在保持几何特性的滤波观测条件下完成各子任务。两个系统形成规划与执行的闭环，实现了记忆感知推理、自适应重规划与鲁棒的在线恢复能力。在代表性RMBench任务上的实验表明，该框架显著超越现有基线方法，平均成功率达32.4%（最强基线仅为9.8%）。消融研究进一步验证了结构化记忆与闭环恢复机制对长周期操控任务的重要性。

🎯 研究动机

该论文旨在解决长视野(long-horizon)具身操作任务中的关键挑战。研究背景是：现有的视觉-语言-动作(Vision-Language-Action, VLA)策略通常依赖有限的观察窗口和端到端(end-to-end)动作预测，导致它们在具有部分可观测性(partial observability)、遮挡(occlusions)和多阶段依赖(multi-stage dependencies)的长视野、依赖记忆的任务中表现脆弱。这类任务不仅需要精确的视觉运动控制(visuomotor control)，还需要持久记忆(persistent memory)、自适应任务分解(adaptive task decomposition)以及从执行失败中显式恢复(explicit recovery)的能力。

🔧 核心方法

论文提出了一个用于长视野具身操作的双系统(dual-system)框架。该框架明确地将高层语义推理与低层运动执行分离： - **高层规划器(Planner)**：实现为一个基于视觉语言模型(Vision-Language Model, VLM)的智能体模块(agentic module)。它维护结构化的任务记忆(structured task memory)，并执行目标分解(goal decomposition)、结果验证(outcome verification)和基于错误的纠正(error-driven correction)。 - **低层执行器(Executor)**：实例化为一个基于VLA的视觉运动控制器(visuomotor controller)。它通过基于扩散(diffusion-based)的动作生成来执行每个子任务，其生成过程以经过几何保持滤波(geometry-preserving filtered)的观察为条件。这两个系统在规划与执行之间形成一个闭环(closed loop)，实现了记忆感知推理(memory-aware reasoning)、自适应重规划(adaptive replanning)和鲁棒的在线恢复(robust online recovery)。

💡 核心创新

论文的核心创新点在于其提出的双系统框架及其关键设计，与现有端到端VLA方法相比具有以下独特之处： - **明确的系统分离与闭环交互**：将长视野任务分解为独立的、专门的高层规划与低层执行模块，并通过闭环反馈实现动态调整，而非单一的端到端策略。 - **结构化记忆与智能体式规划**：规划器作为智能体模块，主动维护和使用结构化的任务记忆，支持多步骤推理、结果验证和基于错误的纠正，解决了现有方法记忆有限和缺乏显式推理的问题。 - **几何感知的观察滤波与扩散动作生成**：执行器采用几何保持滤波处理观察，并结合扩散模型生成动作，增强了在遮挡和部分观测下的鲁棒性和动作精度。 - **自适应恢复机制**：框架内置了从执行失败中在线恢复的能力，通过规划器的结果验证触发重规划或纠正，这是应对长视野任务中累积错误的关键创新。

🏆 总体贡献

论文对该领域的整体贡献包括： - **提出新框架**：为解决长视野操作任务中记忆、分解和恢复的挑战，提出了一个新颖的双系统闭环框架，将高层语义推理与低层运动控制有效结合。 - **实现性能突破**：在代表性的RMBench任务上的实验表明，该框架显著优于现有基线方法，平均成功率从最强基线的9.8%提升至32.4%。 - **验证关键组件**：通过消融研究(ablation studies)证实了结构化记忆和闭环恢复机制对于长视野操作任务成功的重要性，为后续研究提供了设计指导。 - **推动研究方向**：展示了将大型语言/视觉模型作为主动规划智能体，并与专精的执行器结合的有效性，为构建更鲁棒、更智能的具身AI系统提供了新思路。

目标导向技能：基于自适应规划与反思的长周期操作
Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

📊 核心分析

目标导向技能：基于自适应规划与反思的长周期操作 Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection

📊 核心分析

目标导向技能：基于自适应规划与反思的长周期操作
Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection