← 返回论文列表

克服动力学盲:面向VLA模型的无需训练的步速与路径校正
Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

作者: Yanyan Zhang, Chaoda Song, Vikash Singh 等9人
arXiv: 2605.11459v1
分类: cs.RO, cs.AI, cs.CV, cs.LG
📝 论文摘要
视觉-语言-动作(VLA)模型展现出超越经典控制范式的显著灵活性与泛化能力。然而,现有主流VLA模型普遍采用单帧观测范式进行训练,导致其在结构上对时间动态存在盲区。因此,即使经过动态数据集训练或微调,这些模型在非平稳场景下仍会出现严重性能退化。现有方法要么需要昂贵的重训练,要么面临延迟瓶颈和动作分块间时间一致性差的问题。本文提出节奏-路径校正方法——一种无需训练、闭式推理时算子,可封装任意分块动作VLA模型。通过联合最小化单一二次代价函数,得到可正交分解为两个独立通道的统一解:节奏通道沿规划方向压缩执行,路径通道施加正交空间偏移,两者共同吸收分块窗口内的感知动态。我们在专为隔离运动作为唯一受控变量而设计的综合诊断基准MoveBench上评估了该方法。实验结果表明,我们的框架持续超越最先进的无训练封装器和动态自适应方法,在纯动态环境与静态-动态混合环境中,相较于基础VLA模型,成功率分别绝对提升28.8%和25.9%。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在单帧观测下训练,对时间动力学(dynamics)存在结构性盲区,导致在非平稳场景中性能严重退化 - 现有解决方案要么需要昂贵的重训练,要么存在延迟瓶颈和分块动作( action chunks)间的时序不一致问题
🔧 核心方法
- 提出**步速-路径校正(Pace-and-Path Correction)**,一种训练免费(training-free)、闭合形式(closed-form)的推理时操作符,可包装任何分块动作VLA模型 - 从单一二次代价(quadratic cost)函数出发,通过联合最小化得到正交分解的两个通道:**步速通道(pace channel)** 沿计划方向压缩执行,**路径通道(path channel)** 施加正交空间偏移,共同吸收分块窗口内的感知动力学
💡 核心创新
- **训练免费(training-free)**:不需要任何重训练或微调,仅作为推理时操作符注入现有VLA模型 - **闭合形式(closed-form)求解**:从二次代价解析导出最优解,避免迭代优化带来的延迟 - **正交分解(orthogonal decomposition)**:将动力学校正解耦为沿运动方向的步速调整和正交方向的空间偏移,实现高效且相互独立的控制
🏆 总体贡献
- 为克服VLA模型的动力学盲区提供了一种轻量、高效的推理时校正范式 - 在专门设计的诊断基准**MoveBench** 上,相比于现有最先进的训练免费包装器和动态自适应方法,在纯动态环境和动静混合环境中成功率分别绝对提升高达28.8%和25.9%