CodeGraphVLP：代码即规划器结合语义图状态用于非马尔可夫视觉-语言-动作模型

📝 论文摘要

视觉-语言-动作（VLA）模型有望实现通用机器人操作，但它们通常作为短视策略进行训练和部署，假设最新的观测足以支持动作推理。这一假设在非马尔可夫长期任务中失效，因为与任务相关的证据可能被遮挡或仅在轨迹早期出现，而杂乱和干扰物使得细粒度视觉基础变得脆弱。我们提出CodeGraphVLP，一个层次化框架，通过将持久语义图状态与基于代码的可执行规划器以及进度引导的视觉-语言提示相结合，实现了可靠的长期操作。语义图在部分可观测性下维护任务相关实体及其关系。合成的规划器在该语义图上执行以进行高效的进度检查，并输出子任务指令及子任务相关对象。我们利用这些输出构建抑制杂乱物的观测，将VLA执行器的注意力聚焦于关键证据。在真实世界的非马尔可夫任务中，CodeGraphVLP相较于强大的VLA基线和启用历史信息的变体提高了任务完成率，同时与使用VLM循环的规划相比大幅降低了规划延迟。我们还进行了广泛的消融研究，以确认每个组件的贡献。

🎯 研究动机

- 现有的**视觉-语言-动作(Vision-Language-Action, VLA)**模型通常作为短视域策略训练和部署，假设最新观察足以进行动作推理，这一假设在**非马尔可夫长期任务(non-Markovian long-horizon tasks)**中失效 - 在长期任务中，任务相关的证据可能被遮挡或仅出现在轨迹早期，且杂乱和干扰物使**细粒度视觉接地(fine-grained visual grounding)**变得脆弱 - 需要一种能够处理**部分可观测性(partial observability)**和长期依赖的机器人操作框架

🔧 核心方法

- 提出**CodeGraphVLP**层次化框架，结合**持久语义图状态(persistent semantic-graph state)**与**可执行代码规划器(executable code-based planner)**及**进度引导的视觉语言提示(progress-guided visual-language prompting)** - **语义图(semantic-graph)**在部分可观测条件下维护任务相关的实体和关系 - **代码规划器(code-based planner)**在语义图上执行高效的进度检查，输出**子任务指令(subtask instruction)**和**子任务相关对象(subtask-relevant objects)** - 利用这些输出构造**杂乱抑制观察(clutter-suppressed observations)**，使**VLA执行器(VLA executor)**聚焦于关键证据

💡 核心创新

- **首创性**：首次将**代码即规划器(Code-as-Planner)**与**语义图状态(semantic-graph state)**结合，显式处理非马尔可夫长期任务中的部分可观测性和状态记忆 - **效率提升**：相比**视觉-语言模型循环规划(VLM-in-the-loop planning)**，大幅度降低了规划延迟 - **鲁棒性增强**：通过子任务相关对象构造杂乱抑制观察，缓解了干扰物对VLA视觉接地的负面影响 - **层次化设计**：将长任务分解为语义图上的进度检查与子任务执行，避免端到端模型的记忆瓶颈

🏆 总体贡献

- 在真实世界的非马尔可夫任务上，**CodeGraphVLP**显著提升了任务完成率，超越了强VLA基线及历史增强变体 - 通过广泛的**消融研究(ablation studies)**确认了每个组件（语义图、代码规划器、杂乱抑制观察）的贡献 - 为机器人长期操作提供了一个可解释、低延迟的**层次化框架(hierarchical framework)**，有效结合了符号规划与视觉语言执行

CodeGraphVLP：代码即规划器结合语义图状态用于非马尔可夫视觉-语言-动作模型
CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models

📊 核心分析

CodeGraphVLP：代码即规划器结合语义图状态用于非马尔可夫视觉-语言-动作模型 CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models

📊 核心分析

CodeGraphVLP：代码即规划器结合语义图状态用于非马尔可夫视觉-语言-动作模型
CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models