- 现有的**视觉-语言-动作(VLA)** 模型在**细粒度操作(fine-grained manipulation)** 中表现脆弱,关键阶段(critical phases)的微小动作误差会迅速升级为不可恢复的失败
- 现有VLA模型主要依赖**成功示范(successful demonstrations)** 进行训练,缺乏对关键阶段失败的显式感知能力
- 研究背景:机器人操作任务中,失败往往发生在特定关键阶段,现有方法未能有效建模这些阶段的成败边界
- 提出**DreamAvoid框架**,在测试时(test-time)对关键阶段进行**梦想(dreaming)** 以预见并避免失败
- 包含三个核心组件:(1)**梦想触发器(Dream Trigger)** 判断执行是否进入关键阶段,(2)**动作提议器(Action Proposer)** 从VLA模型采样多个候选动作块,(3)**梦想评估器(Dream Evaluator)** 基于混合数据(成功、失败和边界案例)联合训练,对候选动作的短期未来进行“梦想”并评估其价值,选择最优动作
- 引入**自主边界学习范式(autonomous boundary learning paradigm)**,系统自动精炼对成功与失败之间微妙边界的理解
- **首创性**:首次提出**关键阶段测试时梦想(critical-phase test-time dreaming)** 方法,使VLA模型能在推理过程中主动预见并规避失败
- **自主边界学习(autonomous boundary learning)**:通过训练梦想评估器在混合数据上区分成功、失败和边界状态,无需人工标注边界案例,自动学习成败临界条件
- **多候选动作评估**:从VLA模型采样多个候选动作块,利用未来“梦想”进行价值评估,选择最优动作,避免贪婪采样导致的局部错误累积
- 为**VLA策略故障规避** 提供了一种新颖的测试时框架,弥补了现有模型缺乏失败意识的关键缺陷
- 在真实世界操作任务和模拟基准上显著提升任务成功率,验证了方法的有效性
- 开源代码(https://github.com/XianzheFan/DreamAvoid)推动社区在**测试时自适应(test-time adaptation)** 和**失败预测(failure anticipation)** 方向的研究