← 返回论文列表

从噪声到意图:基于残差桥接的生成式VLA策略锚定
From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

作者: Yiming Zhong, Yaoyu He, Zemin Yang 等8人
arXiv: 2604.21391v1
分类: cs.RO, cs.AI
📝 论文摘要
在具身智能中,高层语义理解与低层物理控制之间的鸿沟始终是核心挑战,其根源在于认知与行动在时空尺度上的根本性不匹配。现有生成式视觉-语言-动作(VLA)策略通常采用"从噪声生成"范式,这种范式忽视了上述差异,导致优化过程中表征效率低下与条件对齐能力薄弱。本文提出ResVLA架构,将范式转变为"从意图精炼"。基于机器人运动可自然分解为全局意图与局部动力学的认知,ResVLA利用频谱分析将控制解耦为确定性低频锚点与随机性高频残差。通过将生成过程锚定于预测意图,本模型通过残差扩散桥严格聚焦于局部动力学的精炼。大量仿真实验表明,ResVLA在保持竞争性能的同时,对语言及机器人本体扰动具有强鲁棒性,且收敛速度优于标准生成式基线。真实机器人实验亦验证了其卓越性能。

📊 核心分析

🎯 研究动机
解决具身智能(embodied intelligence)中高层语义理解与低层物理控制之间的时空尺度不匹配问题,现有生成式VLA策略采用“从噪声生成(Generation-from-Noise)”范式,忽略了这一差异,导致表示效率低下和条件对齐(condition alignment)弱。
🔧 核心方法
提出ResVLA架构,将范式转变为“从意图精炼(Refinement-from-Intent)”。利用频谱分析(spectral analysis)将控制解耦为确定性低频锚点(deterministic low-frequency anchor)和随机高频残差(stochastic high-frequency residual),并通过残差扩散桥(residual diffusion bridge)在预测意图上锚定生成过程,仅精炼局部动力学(local dynamics)。
💡 核心创新
核心创新在于将生成范式从“从噪声生成”转变为“从意图精炼”,通过频谱分析解耦控制为低频意图锚点和高频残差,并利用残差扩散桥实现局部动力学精炼,从而有效对齐认知与动作的时空尺度,提升表示效率和条件对齐能力。
🏆 总体贡献
提出了一种新的生成式VLA架构ResVLA,在仿真和真实机器人实验中实现了竞争性能、对语言和机器人形态扰动的强鲁棒性,以及比标准生成基线更快的收敛速度,为具身智能中的语义-控制桥接提供了有效方案。