克服动力学盲：面向VLA模型的无需训练的步速与路径校正

📝 论文摘要

视觉-语言-动作(VLA)模型展现出超越经典控制范式的显著灵活性与泛化能力。然而，现有主流VLA模型普遍采用单帧观测范式进行训练，导致其在结构上对时间动态存在盲区。因此，即使经过动态数据集训练或微调，这些模型在非平稳场景下仍会出现严重性能退化。现有方法要么需要昂贵的重训练，要么面临延迟瓶颈和动作分块间时间一致性差的问题。本文提出节奏-路径校正方法——一种无需训练、闭式推理时算子，可封装任意分块动作VLA模型。通过联合最小化单一二次代价函数，得到可正交分解为两个独立通道的统一解：节奏通道沿规划方向压缩执行，路径通道施加正交空间偏移，两者共同吸收分块窗口内的感知动态。我们在专为隔离运动作为唯一受控变量而设计的综合诊断基准MoveBench上评估了该方法。实验结果表明，我们的框架持续超越最先进的无训练封装器和动态自适应方法，在纯动态环境与静态-动态混合环境中，相较于基础VLA模型，成功率分别绝对提升28.8%和25.9%。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在单帧观测下训练，对时间动力学(dynamics)存在结构性盲区，导致在非平稳场景中性能严重退化 - 现有解决方案要么需要昂贵的重训练，要么存在延迟瓶颈和分块动作( action chunks)间的时序不一致问题

🔧 核心方法

- 提出**步速-路径校正(Pace-and-Path Correction)**，一种训练免费(training-free)、闭合形式(closed-form)的推理时操作符，可包装任何分块动作VLA模型 - 从单一二次代价(quadratic cost)函数出发，通过联合最小化得到正交分解的两个通道：**步速通道(pace channel)** 沿计划方向压缩执行，**路径通道(path channel)** 施加正交空间偏移，共同吸收分块窗口内的感知动力学

💡 核心创新

- **训练免费(training-free)**：不需要任何重训练或微调，仅作为推理时操作符注入现有VLA模型 - **闭合形式(closed-form)求解**：从二次代价解析导出最优解，避免迭代优化带来的延迟 - **正交分解(orthogonal decomposition)**：将动力学校正解耦为沿运动方向的步速调整和正交方向的空间偏移，实现高效且相互独立的控制

🏆 总体贡献

- 为克服VLA模型的动力学盲区提供了一种轻量、高效的推理时校正范式 - 在专门设计的诊断基准**MoveBench** 上，相比于现有最先进的训练免费包装器和动态自适应方法，在纯动态环境和动静混合环境中成功率分别绝对提升高达28.8%和25.9%

克服动力学盲：面向VLA模型的无需训练的步速与路径校正
Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

📊 核心分析

克服动力学盲：面向VLA模型的无需训练的步速与路径校正 Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

📊 核心分析

克服动力学盲：面向VLA模型的无需训练的步速与路径校正
Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models