← 返回论文列表

TempoVLA: 学习可控制速度的视觉-语言-行动策略
TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies

作者: Dong Jing, Jingchen Nie, Tianqi Zhang 等7人
arXiv: 2606.06491v1
分类: cs.RO, cs.AI
📝 论文摘要
机器人操作在低风险的过渡阶段需要快速执行,而在高风险的接触阶段则需要缓慢、精确的运动。然而,现有的视觉-语言-动作模型(VLAs)仅从训练示范中继承单一固定速度。先前通过模型压缩、KV缓存重用或强化学习加速VLA的努力,只是将策略从一个固定速度转移到另一个固定速度,而减速问题几乎未被探索。我们发现,每个预测动作的幅度本身已决定了机器人的运动速度,这为可控执行速度提供了一条直接路径。我们将这一发现转化为TempoVLA,一种通过显式条件控制执行速度的单一VLA。TempoVLA结合了两个耦合组件:(1)数据侧的变速轨迹增强(VSTA),通过合并或拆分动作同时保持运动语义,将示范重新定速至任意目标速度;(2)模型侧的条件机制,将速度输入策略。统计表明,VSTA在达到请求速度时运动误差可忽略不计。在仿真和真实世界任务上的实验表明,TempoVLA实现了双向的灵活速度控制,而VSTA通过更好的数据利用进一步提升了默认的1倍性能。此外,通过与大型多模态模型协作,TempoVLA实现了动态速度控制:在低风险阶段加速,在高风险阶段减速。

📊 核心分析

🎯 研究动机
- 机器人操作在低风险阶段需要快速执行,高风险阶段需要慢速精确运动,但现有**视觉-语言-动作模型(Vision-Language-Action, VLA)** 仅继承训练演示中的单一固定速度,无法灵活调整。 - 先前加速VLA的方法(如模型压缩、KV-cache复用、强化学习)只能将策略从一种固定速度迁移到另一种,几乎没有探索减速控制。 - 观察到每个预测动作的幅度本身决定了机器人移动速度,这为直接控制执行速度提供了内在机制,但现有工作未利用这一特性实现速度可控。
🔧 核心方法
- 提出**TempoVLA** 框架,包含两个耦合组件:数据端**可变速度轨迹增强(Variable-Speed Trajectory Augmentation, VSTA)** 和模型端条件机制。 - **VSTA** 通过合并或分割动作(action merging/splitting)将演示轨迹重新定时到任意目标速度,同时保持运动语义不变。 - 模型端将显式速度条件(如标量速度值)输入策略网络,使单一VLA可根据条件输出对应速度的动作。 - 与大型多模态模型(large multimodal model)协作,实现动态速度控制:在低风险阶段加速、高风险阶段减速。
💡 核心创新
- **首次实现VLA的双向速度可控(加速与减速)**,突破先前只能切换到另一固定速度的限制,通过显式条件控制而非隐式调优。 - **数据增强创新**:VSTA在不修改原始演示内容的前提下,通过分配合并与分割操作为任意目标速度生成精确训练样本,达到请求速度且运动误差可忽略。 - **统一框架**:单一TempoVLA模型即可覆盖多种速度,无需训练多个专用模型或依赖外部调速模块。 - **动态速度协同**:与大型多模态模型结合后,实现基于场景风险的实时速度调节,无需人工设置固定速度。
🏆 总体贡献
- 为**机器人操作领域** 提供了一种**速度可控的VLA范式**,解决了长期存在的固定速度限制问题,使策略能够灵活适应操作阶段的风险差异。 - **VSTA数据增强方法** 不仅实现速度可控,还通过更好的数据利用显著提升了默认1×速度下的性能(性能提升)。 - 在仿真和真实世界任务中验证了**TempoVLA** 的有效性,展示了灵活的双向速度控制以及动态风险自适应能力。 - 开源或公开方法为后续研究提供了可复现的基础,推动**视觉-语言-动作模型** 向更实用、更安全的执行方向发展。