← 返回论文列表

潜在桥梁:用于高效双系统视觉-语言-动作模型推理的特征增量预测
Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference

作者: Yudong Liu, Yuan Li, Zijia Tang 等15人
arXiv: 2605.02739v1
分类: cs.RO
📝 论文摘要
双系统视觉-语言-动作(VLA)模型在机器人操作任务中达到了最优性能,但其瓶颈在于视觉-语言模型(VLM)主干网络——该网络需在每个控制步骤执行,同时产生时间冗余特征。我们提出Latent Bridge,一种轻量级模型,用于预测时间步之间VLM输出的增量变化,从而使动作头能够基于预测输出运行,而昂贵的VLM主干网络仅需周期性调用。我们在两种架构不同的VLA模型上实例化Latent Bridge:GR00T-N1.6(特征空间桥接)和π0.5(KV缓存桥接),证明该方法可泛化至不同VLA设计。我们的任务无关DAgger训练流程无需修改即可跨基准测试迁移。在四个LIBERO套件、24个RoboCasa厨房任务以及ALOHA模拟转移方块任务中,Latent Bridge在保留95-100%性能的同时,将VLM调用次数减少50-75%,实现每个回合1.65-1.73倍的净加速。

📊 核心分析

🎯 研究动机
- **双系统视觉-语言-动作(Vision-Language-Action, VLA)模型** 虽达SOTA但推理被**视觉语言模型(Vision-Language Model, VLM)** 主干严重瓶颈,需在每个控制步执行 - VLM推理产生大量**时间冗余特征(temporally redundant features)**,重复计算开销大 - 现有高效方法缺乏对**特征空间增量预测(feature delta prediction)** 的利用,且难以跨VLA架构通用
🔧 核心方法
- 提出**Latent Bridge** 轻量模型,预测相邻时间步的**VLM输出增量(VLM output delta)**,使动作头直接在预测特征上运作 - 只在**周期性间隔(periodically)** 调用昂贵VLM主干,中间步使用增量预测代替完整推理 - 在两种架构上实例化:**GR00T-N1.6** 采用**特征空间桥接(feature-space bridge)**,**π0.5** 采用**KV-cache桥接(KV-cache bridge)** - 使用**任务无关的DAgger训练(tasks-agnostic DAgger training pipeline)**,无需修改即可跨基准迁移
💡 核心创新
- **首创特征增量预测范式**:首次将**delta预测** 引入VLA高效推理,替代传统完整特征复现或缓存策略 - **跨架构通用性**:在**两种典型VLA设计** 上成功泛化,证明方法不依赖特定模型结构 - **高效与性能兼得**:在**4个LIBERO套件、24个RoboCasa厨房任务和ALOHA模拟任务** 中实现**95-100%性能保留**,同时减少**50-75%的VLM调用** - **任务无关训练**:DAgger训练流程无需人工标注或任务特化,支持直接迁移
🏆 总体贡献
- 为**双系统VLA模型推理** 提供一种高效、通用且轻量的加速方法,突破主干瓶颈 - 在**多个机器人操作基准** 上验证,实现**1.65-1.73倍端到端加速**,性能损失极小 - 揭示**特征空间增量预测** 在VLA推理中的潜力,为后续高效机器人基础模型研究奠定方向 - 方法设计**模块化且架构无关**,便于集成到现有VLA系统中