← 返回论文列表

用于多步机器人操作中视野感知探索的LLM引导未来假设
LLM-Guided Future Hypotheses for Horizon-Aware Exploration in Multi-Step Robot Manipulation

作者: Mohammad Khoshnazar, Andrew Melnik, Michael Beetz
arXiv: 2605.29864v1
分类: cs.RO
📝 论文摘要
多步机器人操作需要在场景如何演化的不确定性中行动,这使得探索和策略自适应极具挑战性。我们研究短视界、任务一致的未来视频能否为控制和强化学习微调提供有用的结构化先验。通过未来经验条件控制(FEC)这一方法,我们形式化了这一思想——该接口基于短期未来视频的潜在表示来调节闭环策略。在我们的仿真设定中,未来片段通过三个阶段生成:一个基于当前场景状态初始化的任务本体的LLM推理器、一个预期物体运动的无机器人数字孪生展开、以及一个无需推理时分割的无掩模视频扩散模型,用于合成与机器人一致的未来片段。我们主要采用行为克隆(BC)和BC+强化学习(BC+RL)实例化这一未来条件接口,并在RoboCasa和CALVIN基准上,分别针对无未来条件(NoFuture)、真实未来(GTFuture)、生成未来(GenFuture)和错误未来(WrongFuture)设定,与基于未来条件的流式流策略(Streaming Flow Policy, SFP)基线进行比较。生成未来相比无未来条件提升了性能,而不匹配的未来则导致性能下降;我们的BC+RL实例化取得了整体最优结果。针对CALVIN中8个任务的BC+RL平均学习曲线分析进一步表明:GTFuture提升最快,GenFuture相比NoFuture更早且达到更高水平,而WrongFuture在整个训练过程中始终为零。这些结果表明,在未来预测不完美的情况下,短视界未来视频可作为探索和策略自适应的有效结构化先验。详见https://enact2026.github.io/

📊 核心分析

🎯 研究动机
- 多步机器人操作需要在场景如何演化的不确定性下做出决策,现有方法在探索和策略适应方面面临挑战 - 研究背景:在复杂操作任务中,缺乏有效的未来结构化先验来引导策略,现有方法要么依赖精确的未来预测,要么忽略未来信息
🔧 核心方法
- 提出**未来经验条件化(Future-Experience Conditioning, FEC)** 接口,通过潜在表示将短视距未来视频条件化到闭环策略 - 三阶段生成未来片段:第一阶段**LLM推理器(LLM reasoner)** 基于任务本体和当前场景状态生成未来假设;第二阶段进行**机器人自由数字孪生(robot-free digital-twin rollout)** 展开目标对象运动;第三阶段使用**无掩码视频扩散模型(mask-free video diffusion model)** 合成机器人一致的未来视频 - 主要实例化于**行为克隆(BC)** 和**BC+强化学习(BC+RL)**,并对比**流式流策略(Streaming Flow Policy, SFP)** 基线
💡 核心创新
- **结构化未来先验**:首次提出使用短期未来视频作为探索和策略适应的结构化先验,而非长期规划或精确预测 - **LLM+数字孪生+扩散的生成范式**:结合**LLM推理**、**数字孪生展开** 和**视频扩散模型**,无需推理时分割即可生成与任务一致的未来假设 - **因果效应验证**:通过对比“无未来”、“正确未来”、“生成未来”和“错误未来”条件,揭示未来匹配度对性能的因果影响(匹配提升、错配降低)
🏆 总体贡献
- 提出**FEC** 框架,为多步机器人操作提供了一种利用短视距未来视频来改善探索和策略适应性的新范式 - 在**RoboCasa** 和**CALVIN** 基准上实验证明,未来条件化显著提升性能,且BC+RL实例化达到最强总体结果 - 学习曲线分析显示,正确未来条件化加快学习速度并提升最终性能,为未来不完美预测场景提供了实用指导