- 现有的**视觉-语言-动作(Vision-Language-Action, VLA)**模型通常作为短视域策略训练和部署,假设最新观察足以进行动作推理,这一假设在**非马尔可夫长期任务(non-Markovian long-horizon tasks)**中失效
- 在长期任务中,任务相关的证据可能被遮挡或仅出现在轨迹早期,且杂乱和干扰物使**细粒度视觉接地(fine-grained visual grounding)**变得脆弱
- 需要一种能够处理**部分可观测性(partial observability)**和长期依赖的机器人操作框架
- 提出**CodeGraphVLP**层次化框架,结合**持久语义图状态(persistent semantic-graph state)**与**可执行代码规划器(executable code-based planner)**及**进度引导的视觉语言提示(progress-guided visual-language prompting)**
- **语义图(semantic-graph)**在部分可观测条件下维护任务相关的实体和关系
- **代码规划器(code-based planner)**在语义图上执行高效的进度检查,输出**子任务指令(subtask instruction)**和**子任务相关对象(subtask-relevant objects)**
- 利用这些输出构造**杂乱抑制观察(clutter-suppressed observations)**,使**VLA执行器(VLA executor)**聚焦于关键证据
- **首创性**:首次将**代码即规划器(Code-as-Planner)**与**语义图状态(semantic-graph state)**结合,显式处理非马尔可夫长期任务中的部分可观测性和状态记忆
- **效率提升**:相比**视觉-语言模型循环规划(VLM-in-the-loop planning)**,大幅度降低了规划延迟
- **鲁棒性增强**:通过子任务相关对象构造杂乱抑制观察,缓解了干扰物对VLA视觉接地的负面影响
- **层次化设计**:将长任务分解为语义图上的进度检查与子任务执行,避免端到端模型的记忆瓶颈
- 在真实世界的非马尔可夫任务上,**CodeGraphVLP**显著提升了任务完成率,超越了强VLA基线及历史增强变体
- 通过广泛的**消融研究(ablation studies)**确认了每个组件(语义图、代码规划器、杂乱抑制观察)的贡献
- 为机器人长期操作提供了一个可解释、低延迟的**层次化框架(hierarchical framework)**,有效结合了符号规划与视觉语言执行