- **双系统视觉-语言-动作(Vision-Language-Action, VLA)模型** 虽达SOTA但推理被**视觉语言模型(Vision-Language Model, VLM)** 主干严重瓶颈,需在每个控制步执行
- VLM推理产生大量**时间冗余特征(temporally redundant features)**,重复计算开销大
- 现有高效方法缺乏对**特征空间增量预测(feature delta prediction)** 的利用,且难以跨VLA架构通用
- 提出**Latent Bridge** 轻量模型,预测相邻时间步的**VLM输出增量(VLM output delta)**,使动作头直接在预测特征上运作
- 只在**周期性间隔(periodically)** 调用昂贵VLM主干,中间步使用增量预测代替完整推理
- 在两种架构上实例化:**GR00T-N1.6** 采用**特征空间桥接(feature-space bridge)**,**π0.5** 采用**KV-cache桥接(KV-cache bridge)**
- 使用**任务无关的DAgger训练(tasks-agnostic DAgger training pipeline)**,无需修改即可跨基准迁移
- **首创特征增量预测范式**:首次将**delta预测** 引入VLA高效推理,替代传统完整特征复现或缓存策略
- **跨架构通用性**:在**两种典型VLA设计** 上成功泛化,证明方法不依赖特定模型结构
- **高效与性能兼得**:在**4个LIBERO套件、24个RoboCasa厨房任务和ALOHA模拟任务** 中实现**95-100%性能保留**,同时减少**50-75%的VLM调用**
- **任务无关训练**:DAgger训练流程无需人工标注或任务特化,支持直接迁移
- 为**双系统VLA模型推理** 提供一种高效、通用且轻量的加速方法,突破主干瓶颈
- 在**多个机器人操作基准** 上验证,实现**1.65-1.73倍端到端加速**,性能损失极小
- 揭示**特征空间增量预测** 在VLA推理中的潜力,为后续高效机器人基础模型研究奠定方向
- 方法设计**模块化且架构无关**,便于集成到现有VLA系统中