DreamAvoid: 关键阶段测试时模拟以避免VLA策略中的失败

📝 论文摘要

视觉-语言-动作（VLA）模型在精细操作中往往具有脆弱性，关键阶段的微小动作误差会迅速升级为不可恢复的失败。由于现有VLA模型主要依赖成功示范进行训练，它们缺乏对这些关键阶段失败的显式感知。为解决这一问题，我们提出DreamAvoid——一种关键阶段测试时梦想框架，使VLA模型能够预测并避免失败。同时，我们引入了一种自主边界学习范式，以优化系统对成功与失败之间微妙边界的理解。具体而言，我们（1）利用梦想触发器判断执行是否进入关键阶段，（2）通过动作提议器从VLA中采样多个候选动作片段，（3）采用在混合数据（成功、失败和边界案例）上联合训练的梦想评估器，对候选动作对应的短视未来进行“梦想”，评估其价值并选择最优动作。我们在真实世界操作任务和仿真基准上进行了广泛评估。结果表明，DreamAvoid能有效避免失败，从而提升整体任务成功率。我们的代码开源在https://github.com/XianzheFan/DreamAvoid。

🎯 研究动机

- 现有的**视觉-语言-动作(VLA)** 模型在**细粒度操作(fine-grained manipulation)** 中表现脆弱，关键阶段(critical phases)的微小动作误差会迅速升级为不可恢复的失败 - 现有VLA模型主要依赖**成功示范(successful demonstrations)** 进行训练，缺乏对关键阶段失败的显式感知能力 - 研究背景：机器人操作任务中，失败往往发生在特定关键阶段，现有方法未能有效建模这些阶段的成败边界

🔧 核心方法

- 提出**DreamAvoid框架**，在测试时(test-time)对关键阶段进行**梦想(dreaming)** 以预见并避免失败 - 包含三个核心组件：(1)**梦想触发器(Dream Trigger)** 判断执行是否进入关键阶段，(2)**动作提议器(Action Proposer)** 从VLA模型采样多个候选动作块，(3)**梦想评估器(Dream Evaluator)** 基于混合数据(成功、失败和边界案例)联合训练，对候选动作的短期未来进行“梦想”并评估其价值，选择最优动作 - 引入**自主边界学习范式(autonomous boundary learning paradigm)**，系统自动精炼对成功与失败之间微妙边界的理解

💡 核心创新

- **首创性**：首次提出**关键阶段测试时梦想(critical-phase test-time dreaming)** 方法，使VLA模型能在推理过程中主动预见并规避失败 - **自主边界学习(autonomous boundary learning)**：通过训练梦想评估器在混合数据上区分成功、失败和边界状态，无需人工标注边界案例，自动学习成败临界条件 - **多候选动作评估**：从VLA模型采样多个候选动作块，利用未来“梦想”进行价值评估，选择最优动作，避免贪婪采样导致的局部错误累积

🏆 总体贡献

- 为**VLA策略故障规避** 提供了一种新颖的测试时框架，弥补了现有模型缺乏失败意识的关键缺陷 - 在真实世界操作任务和模拟基准上显著提升任务成功率，验证了方法的有效性 - 开源代码(https://github.com/XianzheFan/DreamAvoid)推动社区在**测试时自适应(test-time adaptation)** 和**失败预测(failure anticipation)** 方向的研究

DreamAvoid: 关键阶段测试时模拟以避免VLA策略中的失败
DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies

📊 核心分析

DreamAvoid: 关键阶段测试时模拟以避免VLA策略中的失败 DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies

📊 核心分析

DreamAvoid: 关键阶段测试时模拟以避免VLA策略中的失败
DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies