视觉-语言-动作(Vision-Language-Action, VLA)策略在将语言指令和视觉观察映射到机器人动作方面取得了显著进展,但其在存在干扰物的杂乱场景中的可靠性会下降。通过分析失败案例,研究发现许多错误并非源于不可行的运动,而是源于实例级的基础(grounding)失败:策略经常产生看似合理的抓取轨迹,但最终略微偏离目标或甚至抓取到错误的物体实例。
论文提出了TAG (Target-Agnostic Guidance,目标无关引导),一种简单的推理时引导机制。该方法受无分类器引导(classifier-free guidance, CFG)启发,通过对比策略在原始观察和物体擦除观察下的预测,并将它们的差异用作残差引导信号,从而在决策过程中加强物体证据的影响。该方法无需修改策略架构,可以以最小的训练和推理改动集成到现有的VLA策略中。
核心创新在于提出了一种推理时引导机制TAG,以显式减少VLA策略中由干扰物和外观引起的偏差。其独特之处在于:
• 将无分类器引导(CFG)的思想创新性地应用于机器人视觉-语言-动作(VLA)策略的推理过程,通过对比有无目标物体信息的预测来生成引导信号。
• 该方法专注于解决实例级的基础(grounding)失败问题,而非运动规划问题,直接针对策略在杂乱场景中容易抓错或抓偏的根本原因。
• 具有目标无关性(Target-Agnostic),且无需修改底层策略模型架构,是一种轻量级的即插即用式改进方案。
论文的整体贡献包括:
• 提出并验证了TAG方法,一种能有效提升VLA策略在杂乱场景中鲁棒性的推理时引导机制。
• 在LIBERO、LIBERO-Plus和VLABench等标准操作基准测试中进行了系统评估,证明TAG能一致性地提升策略在杂乱环境下的鲁棒性,减少接近成功(near-miss)和抓错物体(wrong-object)的执行错误。
• 为改善VLA策略的物体中心化(object-centric)推理提供了一种简单、通用且无需重训练模型的新思路。