- 多步机器人操作需要在场景如何演化的不确定性下做出决策,现有方法在探索和策略适应方面面临挑战
- 研究背景:在复杂操作任务中,缺乏有效的未来结构化先验来引导策略,现有方法要么依赖精确的未来预测,要么忽略未来信息
- 提出**未来经验条件化(Future-Experience Conditioning, FEC)** 接口,通过潜在表示将短视距未来视频条件化到闭环策略
- 三阶段生成未来片段:第一阶段**LLM推理器(LLM reasoner)** 基于任务本体和当前场景状态生成未来假设;第二阶段进行**机器人自由数字孪生(robot-free digital-twin rollout)** 展开目标对象运动;第三阶段使用**无掩码视频扩散模型(mask-free video diffusion model)** 合成机器人一致的未来视频
- 主要实例化于**行为克隆(BC)** 和**BC+强化学习(BC+RL)**,并对比**流式流策略(Streaming Flow Policy, SFP)** 基线
- **结构化未来先验**:首次提出使用短期未来视频作为探索和策略适应的结构化先验,而非长期规划或精确预测
- **LLM+数字孪生+扩散的生成范式**:结合**LLM推理**、**数字孪生展开** 和**视频扩散模型**,无需推理时分割即可生成与任务一致的未来假设
- **因果效应验证**:通过对比“无未来”、“正确未来”、“生成未来”和“错误未来”条件,揭示未来匹配度对性能的因果影响(匹配提升、错配降低)
- 提出**FEC** 框架,为多步机器人操作提供了一种利用短视距未来视频来改善探索和策略适应性的新范式
- 在**RoboCasa** 和**CALVIN** 基准上实验证明,未来条件化显著提升性能,且BC+RL实例化达到最强总体结果
- 学习曲线分析显示,正确未来条件化加快学习速度并提升最终性能,为未来不完美预测场景提供了实用指导