TempoVLA: 学习可控制速度的视觉-语言-行动策略

📝 论文摘要

机器人操作在低风险的过渡阶段需要快速执行，而在高风险的接触阶段则需要缓慢、精确的运动。然而，现有的视觉-语言-动作模型（VLAs）仅从训练示范中继承单一固定速度。先前通过模型压缩、KV缓存重用或强化学习加速VLA的努力，只是将策略从一个固定速度转移到另一个固定速度，而减速问题几乎未被探索。我们发现，每个预测动作的幅度本身已决定了机器人的运动速度，这为可控执行速度提供了一条直接路径。我们将这一发现转化为TempoVLA，一种通过显式条件控制执行速度的单一VLA。TempoVLA结合了两个耦合组件：（1）数据侧的变速轨迹增强（VSTA），通过合并或拆分动作同时保持运动语义，将示范重新定速至任意目标速度；（2）模型侧的条件机制，将速度输入策略。统计表明，VSTA在达到请求速度时运动误差可忽略不计。在仿真和真实世界任务上的实验表明，TempoVLA实现了双向的灵活速度控制，而VSTA通过更好的数据利用进一步提升了默认的1倍性能。此外，通过与大型多模态模型协作，TempoVLA实现了动态速度控制：在低风险阶段加速，在高风险阶段减速。

🎯 研究动机

- 机器人操作在低风险阶段需要快速执行，高风险阶段需要慢速精确运动，但现有**视觉-语言-动作模型(Vision-Language-Action, VLA)** 仅继承训练演示中的单一固定速度，无法灵活调整。 - 先前加速VLA的方法（如模型压缩、KV-cache复用、强化学习）只能将策略从一种固定速度迁移到另一种，几乎没有探索减速控制。 - 观察到每个预测动作的幅度本身决定了机器人移动速度，这为直接控制执行速度提供了内在机制，但现有工作未利用这一特性实现速度可控。

🔧 核心方法

- 提出**TempoVLA** 框架，包含两个耦合组件：数据端**可变速度轨迹增强(Variable-Speed Trajectory Augmentation, VSTA)** 和模型端条件机制。 - **VSTA** 通过合并或分割动作（action merging/splitting）将演示轨迹重新定时到任意目标速度，同时保持运动语义不变。 - 模型端将显式速度条件（如标量速度值）输入策略网络，使单一VLA可根据条件输出对应速度的动作。 - 与大型多模态模型(large multimodal model)协作，实现动态速度控制：在低风险阶段加速、高风险阶段减速。

💡 核心创新

- **首次实现VLA的双向速度可控（加速与减速）**，突破先前只能切换到另一固定速度的限制，通过显式条件控制而非隐式调优。 - **数据增强创新**：VSTA在不修改原始演示内容的前提下，通过分配合并与分割操作为任意目标速度生成精确训练样本，达到请求速度且运动误差可忽略。 - **统一框架**：单一TempoVLA模型即可覆盖多种速度，无需训练多个专用模型或依赖外部调速模块。 - **动态速度协同**：与大型多模态模型结合后，实现基于场景风险的实时速度调节，无需人工设置固定速度。

🏆 总体贡献

- 为**机器人操作领域** 提供了一种**速度可控的VLA范式**，解决了长期存在的固定速度限制问题，使策略能够灵活适应操作阶段的风险差异。 - **VSTA数据增强方法** 不仅实现速度可控，还通过更好的数据利用显著提升了默认1×速度下的性能（性能提升）。 - 在仿真和真实世界任务中验证了**TempoVLA** 的有效性，展示了灵活的双向速度控制以及动态风险自适应能力。 - 开源或公开方法为后续研究提供了可复现的基础，推动**视觉-语言-动作模型** 向更实用、更安全的执行方向发展。

TempoVLA: 学习可控制速度的视觉-语言-行动策略
TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

📊 核心分析

TempoVLA: 学习可控制速度的视觉-语言-行动策略 TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

📊 核心分析

TempoVLA: 学习可控制速度的视觉-语言-行动策略
TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies