← 返回论文列表

标签:视觉-语言-动作模型中稳定目标中心推理的无目标引导
TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models

作者: Jiaying Zhou, Zhihao Zhan, Ruifeng Zhai 等8人
arXiv: 2603.24584v1
分类: cs.CV, cs.RO
📝 论文摘要
视觉-语言-动作(VLA)策略在将语言指令和视觉观察映射到机器人动作方面取得了显著进展,但在存在干扰物的杂乱场景中,其可靠性会下降。通过分析失败案例,我们发现许多错误并非源于不可行的运动,而是由于实例级定位失败:策略常常生成看似合理的抓取轨迹,但最终落点略微偏离目标,甚至落在错误的物体实例上。为解决这一问题,我们提出了TAG(目标无关引导),这是一种简单的推理时引导机制,旨在明确减少VLA策略中由干扰物和外观引起的偏差。受无分类器引导(CFG)的启发,TAG对比了原始观察和物体擦除观察下的策略预测,并将它们的差异用作残差引导信号,从而增强物体证据在决策过程中的影响力。TAG无需修改策略架构,只需对现有VLA策略进行极少的训练和推理调整即可集成。我们在标准操作基准测试(包括LIBERO、LIBERO-Plus和VLABench)上评估了TAG,结果显示它在杂乱环境下持续提升了鲁棒性,并减少了接近失误和错误物体的执行情况。

📊 核心分析

🎯 研究动机
视觉-语言-动作(Vision-Language-Action, VLA)策略在将语言指令和视觉观察映射到机器人动作方面取得了显著进展,但其在存在干扰物的杂乱场景中的可靠性会下降。通过分析失败案例,研究发现许多错误并非源于不可行的运动,而是源于实例级的基础(grounding)失败:策略经常产生看似合理的抓取轨迹,但最终略微偏离目标或甚至抓取到错误的物体实例。
🔧 核心方法
论文提出了TAG (Target-Agnostic Guidance,目标无关引导),一种简单的推理时引导机制。该方法受无分类器引导(classifier-free guidance, CFG)启发,通过对比策略在原始观察和物体擦除观察下的预测,并将它们的差异用作残差引导信号,从而在决策过程中加强物体证据的影响。该方法无需修改策略架构,可以以最小的训练和推理改动集成到现有的VLA策略中。
💡 核心创新
核心创新在于提出了一种推理时引导机制TAG,以显式减少VLA策略中由干扰物和外观引起的偏差。其独特之处在于: • 将无分类器引导(CFG)的思想创新性地应用于机器人视觉-语言-动作(VLA)策略的推理过程,通过对比有无目标物体信息的预测来生成引导信号。 • 该方法专注于解决实例级的基础(grounding)失败问题,而非运动规划问题,直接针对策略在杂乱场景中容易抓错或抓偏的根本原因。 • 具有目标无关性(Target-Agnostic),且无需修改底层策略模型架构,是一种轻量级的即插即用式改进方案。
🏆 总体贡献
论文的整体贡献包括: • 提出并验证了TAG方法,一种能有效提升VLA策略在杂乱场景中鲁棒性的推理时引导机制。 • 在LIBERO、LIBERO-Plus和VLABench等标准操作基准测试中进行了系统评估,证明TAG能一致性地提升策略在杂乱环境下的鲁棒性,减少接近成功(near-miss)和抓错物体(wrong-object)的执行错误。 • 为改善VLA策略的物体中心化(object-centric)推理提供了一种简单、通用且无需重训练模型的新思路。