- 机器人操作在低风险阶段需要快速执行,高风险阶段需要慢速精确运动,但现有**视觉-语言-动作模型(Vision-Language-Action, VLA)** 仅继承训练演示中的单一固定速度,无法灵活调整。
- 先前加速VLA的方法(如模型压缩、KV-cache复用、强化学习)只能将策略从一种固定速度迁移到另一种,几乎没有探索减速控制。
- 观察到每个预测动作的幅度本身决定了机器人移动速度,这为直接控制执行速度提供了内在机制,但现有工作未利用这一特性实现速度可控。
- 提出**TempoVLA** 框架,包含两个耦合组件:数据端**可变速度轨迹增强(Variable-Speed Trajectory Augmentation, VSTA)** 和模型端条件机制。
- **VSTA** 通过合并或分割动作(action merging/splitting)将演示轨迹重新定时到任意目标速度,同时保持运动语义不变。
- 模型端将显式速度条件(如标量速度值)输入策略网络,使单一VLA可根据条件输出对应速度的动作。
- 与大型多模态模型(large multimodal model)协作,实现动态速度控制:在低风险阶段加速、高风险阶段减速。
- **首次实现VLA的双向速度可控(加速与减速)**,突破先前只能切换到另一固定速度的限制,通过显式条件控制而非隐式调优。
- **数据增强创新**:VSTA在不修改原始演示内容的前提下,通过分配合并与分割操作为任意目标速度生成精确训练样本,达到请求速度且运动误差可忽略。
- **统一框架**:单一TempoVLA模型即可覆盖多种速度,无需训练多个专用模型或依赖外部调速模块。
- **动态速度协同**:与大型多模态模型结合后,实现基于场景风险的实时速度调节,无需人工设置固定速度。
- 为**机器人操作领域** 提供了一种**速度可控的VLA范式**,解决了长期存在的固定速度限制问题,使策略能够灵活适应操作阶段的风险差异。
- **VSTA数据增强方法** 不仅实现速度可控,还通过更好的数据利用显著提升了默认1×速度下的性能(性能提升)。
- 在仿真和真实世界任务中验证了**TempoVLA** 的有效性,展示了灵活的双向速度控制以及动态风险自适应能力。
- 开源或公开方法为后续研究提供了可复现的基础,推动**视觉-语言-动作模型** 向更实用、更安全的执行方向发展。