轨迹中的捉迷藏：发现VLA运行时监控的故障信号

📝 论文摘要

视觉-语言-动作（VLA）模型使机器人能够遵循自然语言指令并在不同任务间泛化，但在实际部署中仍易受执行故障影响，从而损害其可靠性。因此，在执行过程中检测此类故障对于具身系统的鲁棒部署至关重要。现有故障检测方法要么依赖昂贵的动作重采样或外部模型，要么将轨迹级标签均匀地传播到每个时间步，从而模糊了局部故障信号。本文提出**Hide-and-Seek**框架，将VLA故障检测形式化为粗监督学习问题。通过结合轨迹间和轨迹内对比目标，Hide-and-Seek能够定位指示故障的动作，并仅从轨迹级监督中诱导出具有时间结构的故障信号，无需任何步骤级标注。我们在LIBERO、VLABench以及一个真实机器人平台上，基于三种代表性VLA策略（OpenVLA、$π_0$和$π_{0.5}$）对Hide-and-Seek进行了评估。我们的方法在共形预测下实现了实用性的精度-时效权衡，取得了最先进的多任务故障检测性能，并能良好地泛化到已知和未见任务。

🎯 研究动机

- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在执行过程中易出现**执行失败(failure)**，从而影响真实场景部署可靠性的问题 - 现有失败检测方法存在局限：要么依赖昂贵的**动作重采样(action resampling)** 或外部模型，要么将**轨迹级标签(trajectory-level labels)** 均匀传播到每个时间步，掩盖了**局部失败信号(localized failure signals)** - 研究背景：VLA模型在机器人领域虽能泛化，但实际部署中仍易受失败干扰，亟需高效、无额外标注的运行时监控手段

🔧 核心方法

- 提出**Hide-and-Seek框架**，将VLA失败检测公式化为**粗监督学习(coarsely supervised learning)** 问题 - 结合**轨迹间对比(inter-trajectory contrastive)** 和**轨迹内对比(intra-trajectory contrastive)** 目标，从**轨迹级监督(trajectory-level supervision)** 中学习 - 通过对比学习自动定位**失败指示动作(failure-indicative actions)**，并诱导出**时间结构化失败信号(temporally structured failure signals)**，完全无需**步骤级注释(step-level annotation)**

💡 核心创新

- **首创粗监督学习范式**：首次将VLA失败检测问题转化为粗监督学习，突破了传统方法对细粒度标签的依赖 - **无步骤级注释**：仅利用轨迹级成功/失败标签，通过轨迹间和轨迹内对比自动挖掘局部失败信号，显著降低标注成本 - **时间结构化信号生成**：对比学习自然地产生具有时间结构的失败指示，避免了均匀传播导致的信号模糊，提升了检测的**准确性与时效性(accuracy-timeliness trade-off)**

🏆 总体贡献

- 在**LIBERO、VLABench** 以及真实机器人平台上，针对**OpenVLA、π₀、π₀.₅** 三种代表性VLA策略进行验证，取得**多任务失败检测(state-of-the-art)** 性能 - 在**共形预测(conformal prediction)** 框架下实现了实用的**准确度-时效性权衡(accuracy–timeliness trade-off)**，兼顾检测精度与响应速度 - 方法在**未见任务(unseen tasks)** 上表现出良好的**泛化能力(generalization)**，为VLA模型的安全部署提供了高效、可扩展的运行时监控方案

轨迹中的捉迷藏：发现VLA运行时监控的故障信号
Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

📊 核心分析

轨迹中的捉迷藏：发现VLA运行时监控的故障信号 Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

📊 核心分析

轨迹中的捉迷藏：发现VLA运行时监控的故障信号
Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring