← 返回论文列表

面向混合具身任务中长期演化的世界-自我建模
World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks

作者: Zuyao Lin, Jianhui Zhang, Peidong Jia 等6人
arXiv: 2605.19957v1
分类: cs.CV, cs.AI, cs.RO
📝 论文摘要
世界模型在具身智能中被广泛探索,但它们通常会在单一流中预测世界和自我的不同演化过程,其中世界捕捉与指令无关的持久场景规律,而自我捕捉以机器人为中心、受指令调控的动态变化。这种世界-自我纠缠会导致长程具身场景性能下降,尤其是在包含导航与操控行为交替的混合任务中。本文提出**世界-自我建模**(World-Ego Modeling)这一全新概念范式,将未来演化分解为世界分量和自我分量。我们从运动、语义和意图三个视角定义世界-自我的边界,并分析了后解耦、预解耦和全解耦三种策略。进一步,我们将该范式实例化为世界-自我模型(WEM),这是一种统一的具身世界模型,结合了隐式分离的世界-自我规划器与级联并行混合专家(CP-MoE)扩散生成器。为便于严格评估,我们构建了HTEWorld——首个针对导航-操控混合任务的长程世界建模基准,提供125K个视频片段(超过450万帧)及细粒度动作标注,以及300条多轮评估轨迹(超过2000条指令)。大量实验表明,WEM在HTEWorld上达到了最先进性能,同时在现有纯操控基准上保持竞争力。

📊 核心分析

🎯 研究动机
- 现有**世界模型(world model)** 在具身智能中通常将**世界演化(world evolution)** 与**自我演化(ego evolution)** 在单个流中混合预测,导致**世界-自我纠缠(world-ego entanglement)** - 这种纠缠在**长时程具身场景(long-horizon embodied scenario)** 中性能下降,尤其是在**导航与操作交织的混合任务(hybrid task)** 中 - 需要一种新范式来显式解耦世界和自我,以更好地捕捉**指令无关的场景规律** 与**机器人中心的指令条件动态**
🔧 核心方法
- 提出**世界-自我建模(World-Ego Modeling)** 范式,将未来演化分解为世界组件和自我组件 - 从**运动(motion)**、**语义(semantic)**、**意图(intention)** 三个视角定义世界-自我边界,并分析**后解耦(post-disentanglement)**、**前解耦(pre-disentanglement)** 和**全解耦(full disentanglement)** 三种策略 - 实例化为**世界-自我模型(World-Ego Model, WEM)**,耦合一个**隐式分离的世界-自我规划器(implicit separate world-ego planner)** 与**级联并行混合专家扩散生成器(cascade-parallel mixture-of-experts, CP-MoE diffusion generator)** - 构建首个用于**长时程混合导航-操作任务** 的基准**HTEWorld**,包含125K视频片段(超过450万帧)、细粒度动作标注和300条多轮评估轨迹(超过2000条指令)
💡 核心创新
- **概念创新**:首次提出**世界-自我建模** 这一新范式,将世界和自我的演化显式解耦,不同于传统单流世界模型 - **边界定义**:从运动、语义、意图三个视角系统性地定义世界-自我边界,并分析多种解耦策略 - **架构创新**:提出**CP-MoE扩散生成器**,结合混合专家和级联并行结构,实现高效且解耦的轨迹生成 - **基准贡献**:构建**HTEWorld**,首个专注于长时程混合任务的世界建模基准,填补了现有基准在导航-操作交织场景上的空白
🏆 总体贡献
- 为**长时程混合具身任务** 提供了一种**世界-自我解耦** 的新范式,显著缓解了传统纠缠带来的性能退化 - **WEM模型** 在HTEWorld基准上达到**最先进(SOTA)** 性能,同时在现有仅操作基准上保持竞争力,验证了方法的通用性 - 公开**HTEWorld基准** 及其大规模数据集,促进该领域的标准化评估与后续研究 - 系统性地分析了世界-自我边界和解耦策略,为未来**解耦世界模型(disentangled world model)** 研究提供了理论基础和可复现的框架