← 返回论文列表

文字与图像中的思考:面向长时域机器人操作的视觉-语言交错推理轨迹
Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

作者: Jinkun Liu, Haohan Chi, Lingfeng Zhang 等9人
arXiv: 2605.00438v1
分类: cs.AI, cs.RO
📝 论文摘要
长时域机器人操作需要同时具备逻辑一致性和几何基础的计划。现有视觉-语言-动作策略通常将规划隐藏于隐状态中,或仅暴露单一模态:纯文本思维链能编码因果顺序但缺失空间约束,而视觉预测虽提供几何线索却往往局限于局部且语义约束不足。本文提出交错视觉-语言推理(IVLR),这是一种围绕\trace{}构建的策略框架——该显式中间表示在整个任务时域中用文本子目标与视觉关键帧交替呈现。在测试阶段,单一原生多模态Transformer根据初始观测和指令自动生成此全局语义-几何轨迹,对其进行缓存,并基于该轨迹、原始指令和当前观测构建闭环动作解码器的条件。由于标准机器人数据集缺乏此类轨迹,我们通过时间分割演示并用视觉语言模型对每个阶段添加描述来构建伪监督。在长时域操作和视觉分布偏移的模拟基准测试中,\method{}在LIBERO上达到95.5%的平均成功率(其中LIBERO-Long为92.4%),在SimplerEnv-WidowX上整体成功率为59.4%。消融实验表明两种模态均不可或缺:无轨迹时LIBERO-Long成功率降至37.7%;纯文本与纯视觉轨迹分别达到62.0%和68.4%,而完整交错轨迹则达到92.4%。执行扰动与轨迹内容掩码的压力测试显示性能适度下降,表明该轨迹能容忍局部损坏和执行适度偏移,但在过时或错误的全局规划下仍存在局限。

📊 核心分析

🎯 研究动机
- 长期机器人操作需要规划同时具备**逻辑连贯性(logical coherence)** 和**几何基础(geometric grounding)** - 现有**视觉-语言-动作(VLA)策略** 要么将规划隐藏在隐状态中,要么仅暴露单一模态:**纯文本链式推理(text-only chain-of-thought)** 编码因果顺序但丢失空间约束,**视觉预测(visual prediction)** 提供几何线索但常是局部的且语义约束不足 - 长期任务中缺少一种显式中间表示来同时捕获因果顺序和空间几何信息
🔧 核心方法
- 提出**交错视觉-语言推理(Interleaved Vision-Language Reasoning, IVLR)** 框架,核心是**交错轨迹(Interleaved Vision-Language Reasoning Trace)** 显式中间表示,交替文本子目标和视觉关键帧 - 测试时,一个原生**多模态transformer(multimodal transformer)** 从初始观测和指令自生成全局语义几何轨迹并缓存,然后基于该轨迹、原始指令和当前观测条件化一个**闭环动作解码器(closed-loop action decoder)** - 训练时通过时间分割演示并用**视觉-语言模型(VLM)** 为每个阶段生成字幕来构造**伪监督(pseudo-supervision)**
💡 核心创新
- **首创交错表示**:首次将**交错文本子目标与视觉关键帧** 作为显式中间表示用于长期机器人操作,同时编码因果顺序与空间几何约束 - **自生成与缓存机制**:多模态transformer在测试时自生成全局轨迹并缓存,避免重复推理,兼顾全局一致性与实时动作解码 - **伪监督构造**:利用VLM自动从演示数据生成交错轨迹标注,无需人工标注,拓展了数据来源 - **必要性验证**:消融实验证明两种模态缺一不可,纯文本或纯视觉轨迹性能显著下降,而交错轨迹在**LIBERO-Long** 上从37.7%(无轨迹)提升至92.4%
🏆 总体贡献
- 在多个长期操作模拟基准上达到**SOTA性能**:LIBERO平均成功率95.5%,LIBERO-Long 92.4%,SimplerEnv-WidowX 59.4% - 提供了一种**新的范式**,将**文本推理的语义严谨性** 与**视觉预测的几何细节** 显式结合,为长期操作规划提供可解释的中间表示 - 证明交错轨迹对**执行干扰(execution perturbations)** 和**局部内容损坏(local corruption)** 具有中度鲁棒性,但依赖全局规划准确性,为未来鲁棒性研究奠定基础