- 长期机器人操作需要规划同时具备**逻辑连贯性(logical coherence)** 和**几何基础(geometric grounding)**
- 现有**视觉-语言-动作(VLA)策略** 要么将规划隐藏在隐状态中,要么仅暴露单一模态:**纯文本链式推理(text-only chain-of-thought)** 编码因果顺序但丢失空间约束,**视觉预测(visual prediction)** 提供几何线索但常是局部的且语义约束不足
- 长期任务中缺少一种显式中间表示来同时捕获因果顺序和空间几何信息
- 提出**交错视觉-语言推理(Interleaved Vision-Language Reasoning, IVLR)** 框架,核心是**交错轨迹(Interleaved Vision-Language Reasoning Trace)** 显式中间表示,交替文本子目标和视觉关键帧
- 测试时,一个原生**多模态transformer(multimodal transformer)** 从初始观测和指令自生成全局语义几何轨迹并缓存,然后基于该轨迹、原始指令和当前观测条件化一个**闭环动作解码器(closed-loop action decoder)**
- 训练时通过时间分割演示并用**视觉-语言模型(VLM)** 为每个阶段生成字幕来构造**伪监督(pseudo-supervision)**
- **首创交错表示**:首次将**交错文本子目标与视觉关键帧** 作为显式中间表示用于长期机器人操作,同时编码因果顺序与空间几何约束
- **自生成与缓存机制**:多模态transformer在测试时自生成全局轨迹并缓存,避免重复推理,兼顾全局一致性与实时动作解码
- **伪监督构造**:利用VLM自动从演示数据生成交错轨迹标注,无需人工标注,拓展了数据来源
- **必要性验证**:消融实验证明两种模态缺一不可,纯文本或纯视觉轨迹性能显著下降,而交错轨迹在**LIBERO-Long** 上从37.7%(无轨迹)提升至92.4%
- 在多个长期操作模拟基准上达到**SOTA性能**:LIBERO平均成功率95.5%,LIBERO-Long 92.4%,SimplerEnv-WidowX 59.4%
- 提供了一种**新的范式**,将**文本推理的语义严谨性** 与**视觉预测的几何细节** 显式结合,为长期操作规划提供可解释的中间表示
- 证明交错轨迹对**执行干扰(execution perturbations)** 和**局部内容损坏(local corruption)** 具有中度鲁棒性,但依赖全局规划准确性,为未来鲁棒性研究奠定基础