从噪声到意图：基于残差桥接的生成式VLA策略锚定

📝 论文摘要

在具身智能中，高层语义理解与低层物理控制之间的鸿沟始终是核心挑战，其根源在于认知与行动在时空尺度上的根本性不匹配。现有生成式视觉-语言-动作（VLA）策略通常采用"从噪声生成"范式，这种范式忽视了上述差异，导致优化过程中表征效率低下与条件对齐能力薄弱。本文提出ResVLA架构，将范式转变为"从意图精炼"。基于机器人运动可自然分解为全局意图与局部动力学的认知，ResVLA利用频谱分析将控制解耦为确定性低频锚点与随机性高频残差。通过将生成过程锚定于预测意图，本模型通过残差扩散桥严格聚焦于局部动力学的精炼。大量仿真实验表明，ResVLA在保持竞争性能的同时，对语言及机器人本体扰动具有强鲁棒性，且收敛速度优于标准生成式基线。真实机器人实验亦验证了其卓越性能。

🎯 研究动机

解决具身智能(embodied intelligence)中高层语义理解与低层物理控制之间的时空尺度不匹配问题，现有生成式VLA策略采用“从噪声生成(Generation-from-Noise)”范式，忽略了这一差异，导致表示效率低下和条件对齐(condition alignment)弱。

🔧 核心方法

提出ResVLA架构，将范式转变为“从意图精炼(Refinement-from-Intent)”。利用频谱分析(spectral analysis)将控制解耦为确定性低频锚点(deterministic low-frequency anchor)和随机高频残差(stochastic high-frequency residual)，并通过残差扩散桥(residual diffusion bridge)在预测意图上锚定生成过程，仅精炼局部动力学(local dynamics)。

💡 核心创新

核心创新在于将生成范式从“从噪声生成”转变为“从意图精炼”，通过频谱分析解耦控制为低频意图锚点和高频残差，并利用残差扩散桥实现局部动力学精炼，从而有效对齐认知与动作的时空尺度，提升表示效率和条件对齐能力。

🏆 总体贡献

提出了一种新的生成式VLA架构ResVLA，在仿真和真实机器人实验中实现了竞争性能、对语言和机器人形态扰动的强鲁棒性，以及比标准生成基线更快的收敛速度，为具身智能中的语义-控制桥接提供了有效方案。

从噪声到意图：基于残差桥接的生成式VLA策略锚定
From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

📊 核心分析

从噪声到意图：基于残差桥接的生成式VLA策略锚定 From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

📊 核心分析

从噪声到意图：基于残差桥接的生成式VLA策略锚定
From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges