← 返回论文列表

轨迹中的捉迷藏:发现VLA运行时监控的故障信号
Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

作者: Seongheon Park, Wendi Li, Changdae Oh 等7人
arXiv: 2605.30834v1
分类: cs.RO, cs.AI
📝 论文摘要
视觉-语言-动作(VLA)模型使机器人能够遵循自然语言指令并在不同任务间泛化,但在实际部署中仍易受执行故障影响,从而损害其可靠性。因此,在执行过程中检测此类故障对于具身系统的鲁棒部署至关重要。现有故障检测方法要么依赖昂贵的动作重采样或外部模型,要么将轨迹级标签均匀地传播到每个时间步,从而模糊了局部故障信号。本文提出**Hide-and-Seek**框架,将VLA故障检测形式化为粗监督学习问题。通过结合轨迹间和轨迹内对比目标,Hide-and-Seek能够定位指示故障的动作,并仅从轨迹级监督中诱导出具有时间结构的故障信号,无需任何步骤级标注。我们在LIBERO、VLABench以及一个真实机器人平台上,基于三种代表性VLA策略(OpenVLA、$π_0$和$π_{0.5}$)对Hide-and-Seek进行了评估。我们的方法在共形预测下实现了实用性的精度-时效权衡,取得了最先进的多任务故障检测性能,并能良好地泛化到已知和未见任务。

📊 核心分析

🎯 研究动机
- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在执行过程中易出现**执行失败(failure)**,从而影响真实场景部署可靠性的问题 - 现有失败检测方法存在局限:要么依赖昂贵的**动作重采样(action resampling)** 或外部模型,要么将**轨迹级标签(trajectory-level labels)** 均匀传播到每个时间步,掩盖了**局部失败信号(localized failure signals)** - 研究背景:VLA模型在机器人领域虽能泛化,但实际部署中仍易受失败干扰,亟需高效、无额外标注的运行时监控手段
🔧 核心方法
- 提出**Hide-and-Seek框架**,将VLA失败检测公式化为**粗监督学习(coarsely supervised learning)** 问题 - 结合**轨迹间对比(inter-trajectory contrastive)** 和**轨迹内对比(intra-trajectory contrastive)** 目标,从**轨迹级监督(trajectory-level supervision)** 中学习 - 通过对比学习自动定位**失败指示动作(failure-indicative actions)**,并诱导出**时间结构化失败信号(temporally structured failure signals)**,完全无需**步骤级注释(step-level annotation)**
💡 核心创新
- **首创粗监督学习范式**:首次将VLA失败检测问题转化为粗监督学习,突破了传统方法对细粒度标签的依赖 - **无步骤级注释**:仅利用轨迹级成功/失败标签,通过轨迹间和轨迹内对比自动挖掘局部失败信号,显著降低标注成本 - **时间结构化信号生成**:对比学习自然地产生具有时间结构的失败指示,避免了均匀传播导致的信号模糊,提升了检测的**准确性与时效性(accuracy-timeliness trade-off)**
🏆 总体贡献
- 在**LIBERO、VLABench** 以及真实机器人平台上,针对**OpenVLA、π₀、π₀.₅** 三种代表性VLA策略进行验证,取得**多任务失败检测(state-of-the-art)** 性能 - 在**共形预测(conformal prediction)** 框架下实现了实用的**准确度-时效性权衡(accuracy–timeliness trade-off)**,兼顾检测精度与响应速度 - 方法在**未见任务(unseen tasks)** 上表现出良好的**泛化能力(generalization)**,为VLA模型的安全部署提供了高效、可扩展的运行时监控方案