潜在桥梁：用于高效双系统视觉-语言-动作模型推理的特征增量预测

📝 论文摘要

双系统视觉-语言-动作（VLA）模型在机器人操作任务中达到了最优性能，但其瓶颈在于视觉-语言模型（VLM）主干网络——该网络需在每个控制步骤执行，同时产生时间冗余特征。我们提出Latent Bridge，一种轻量级模型，用于预测时间步之间VLM输出的增量变化，从而使动作头能够基于预测输出运行，而昂贵的VLM主干网络仅需周期性调用。我们在两种架构不同的VLA模型上实例化Latent Bridge：GR00T-N1.6（特征空间桥接）和π0.5（KV缓存桥接），证明该方法可泛化至不同VLA设计。我们的任务无关DAgger训练流程无需修改即可跨基准测试迁移。在四个LIBERO套件、24个RoboCasa厨房任务以及ALOHA模拟转移方块任务中，Latent Bridge在保留95-100%性能的同时，将VLM调用次数减少50-75%，实现每个回合1.65-1.73倍的净加速。

🎯 研究动机

- **双系统视觉-语言-动作(Vision-Language-Action, VLA)模型** 虽达SOTA但推理被**视觉语言模型(Vision-Language Model, VLM)** 主干严重瓶颈，需在每个控制步执行 - VLM推理产生大量**时间冗余特征(temporally redundant features)**，重复计算开销大 - 现有高效方法缺乏对**特征空间增量预测(feature delta prediction)** 的利用，且难以跨VLA架构通用

🔧 核心方法

- 提出**Latent Bridge** 轻量模型，预测相邻时间步的**VLM输出增量(VLM output delta)**，使动作头直接在预测特征上运作 - 只在**周期性间隔(periodically)** 调用昂贵VLM主干，中间步使用增量预测代替完整推理 - 在两种架构上实例化：**GR00T-N1.6** 采用**特征空间桥接(feature-space bridge)**，**π0.5** 采用**KV-cache桥接(KV-cache bridge)** - 使用**任务无关的DAgger训练(tasks-agnostic DAgger training pipeline)**，无需修改即可跨基准迁移

💡 核心创新

- **首创特征增量预测范式**：首次将**delta预测** 引入VLA高效推理，替代传统完整特征复现或缓存策略 - **跨架构通用性**：在**两种典型VLA设计** 上成功泛化，证明方法不依赖特定模型结构 - **高效与性能兼得**：在**4个LIBERO套件、24个RoboCasa厨房任务和ALOHA模拟任务** 中实现**95-100%性能保留**，同时减少**50-75%的VLM调用** - **任务无关训练**：DAgger训练流程无需人工标注或任务特化，支持直接迁移

🏆 总体贡献

- 为**双系统VLA模型推理** 提供一种高效、通用且轻量的加速方法，突破主干瓶颈 - 在**多个机器人操作基准** 上验证，实现**1.65-1.73倍端到端加速**，性能损失极小 - 揭示**特征空间增量预测** 在VLA推理中的潜力，为后续高效机器人基础模型研究奠定方向 - 方法设计**模块化且架构无关**，便于集成到现有VLA系统中

潜在桥梁：用于高效双系统视觉-语言-动作模型推理的特征增量预测
Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference

📊 核心分析

潜在桥梁：用于高效双系统视觉-语言-动作模型推理的特征增量预测 Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference

📊 核心分析

潜在桥梁：用于高效双系统视觉-语言-动作模型推理的特征增量预测
Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference