该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在动作生成中的三个关键瓶颈:
• 架构偏差导致模型忽略视觉细节
• 过多的视觉标记(tokens)使注意力难以聚焦于正确区域
• 任务无关的视觉信息引入大量噪声
这些瓶颈共同严重影响了动作生成的质量。研究背景是当前自回归(autoregressive)策略在利用视觉信息方面存在根本性限制。
论文提出了FocusVLA框架,包含两个核心技术:
• 模态级联注意力(Modality Cascaded Attention):通过消除捷径路径,强制VLA模型依赖任务相关的视觉细节进行动作生成
• 聚焦注意力(Focus Attention):动态选择任务相关的视觉补丁(patch),控制信息量,同时显式调节其影响以抑制任务无关的噪声
论文的核心创新在于:
• 首次系统性地识别并验证了VLA模型性能主要受限于视觉信息利用方式,而非视觉表示质量本身
• 提出了全新的注意力机制范式,通过主动引导模型关注任务相关视觉区域,有效桥接视觉与动作
• 创新性地结合了架构设计(消除捷径)和动态选择机制(聚焦相关补丁),从两个层面解决了视觉利用问题
论文对该领域的整体贡献包括:
• 在模拟和真实机器人基准测试上的广泛实验表明,FocusVLA能够有效利用视觉细节执行灵巧操作
• 显著提升了多种任务上的性能表现并加速了收敛过程
• 为VLA模型设计提供了新的研究方向,即如何更有效地利用视觉信息而非仅仅改进视觉表示