解决具身智能(embodied intelligence)中高层语义理解与低层物理控制之间的时空尺度不匹配问题,现有生成式VLA策略采用“从噪声生成(Generation-from-Noise)”范式,忽略了这一差异,导致表示效率低下和条件对齐(condition alignment)弱。
提出ResVLA架构,将范式转变为“从意图精炼(Refinement-from-Intent)”。利用频谱分析(spectral analysis)将控制解耦为确定性低频锚点(deterministic low-frequency anchor)和随机高频残差(stochastic high-frequency residual),并通过残差扩散桥(residual diffusion bridge)在预测意图上锚定生成过程,仅精炼局部动力学(local dynamics)。
核心创新在于将生成范式从“从噪声生成”转变为“从意图精炼”,通过频谱分析解耦控制为低频意图锚点和高频残差,并利用残差扩散桥实现局部动力学精炼,从而有效对齐认知与动作的时空尺度,提升表示效率和条件对齐能力。
提出了一种新的生成式VLA架构ResVLA,在仿真和真实机器人实验中实现了竞争性能、对语言和机器人形态扰动的强鲁棒性,以及比标准生成基线更快的收敛速度,为具身智能中的语义-控制桥接提供了有效方案。