面向混合具身任务中长期演化的世界-自我建模

📝 论文摘要

世界模型在具身智能中被广泛探索，但它们通常会在单一流中预测世界和自我的不同演化过程，其中世界捕捉与指令无关的持久场景规律，而自我捕捉以机器人为中心、受指令调控的动态变化。这种世界-自我纠缠会导致长程具身场景性能下降，尤其是在包含导航与操控行为交替的混合任务中。本文提出**世界-自我建模**（World-Ego Modeling）这一全新概念范式，将未来演化分解为世界分量和自我分量。我们从运动、语义和意图三个视角定义世界-自我的边界，并分析了后解耦、预解耦和全解耦三种策略。进一步，我们将该范式实例化为世界-自我模型（WEM），这是一种统一的具身世界模型，结合了隐式分离的世界-自我规划器与级联并行混合专家（CP-MoE）扩散生成器。为便于严格评估，我们构建了HTEWorld——首个针对导航-操控混合任务的长程世界建模基准，提供125K个视频片段（超过450万帧）及细粒度动作标注，以及300条多轮评估轨迹（超过2000条指令）。大量实验表明，WEM在HTEWorld上达到了最先进性能，同时在现有纯操控基准上保持竞争力。

🎯 研究动机

- 现有**世界模型(world model)** 在具身智能中通常将**世界演化(world evolution)** 与**自我演化(ego evolution)** 在单个流中混合预测，导致**世界-自我纠缠(world-ego entanglement)** - 这种纠缠在**长时程具身场景(long-horizon embodied scenario)** 中性能下降，尤其是在**导航与操作交织的混合任务(hybrid task)** 中 - 需要一种新范式来显式解耦世界和自我，以更好地捕捉**指令无关的场景规律** 与**机器人中心的指令条件动态**

🔧 核心方法

- 提出**世界-自我建模(World-Ego Modeling)** 范式，将未来演化分解为世界组件和自我组件 - 从**运动(motion)**、**语义(semantic)**、**意图(intention)** 三个视角定义世界-自我边界，并分析**后解耦(post-disentanglement)**、**前解耦(pre-disentanglement)** 和**全解耦(full disentanglement)** 三种策略 - 实例化为**世界-自我模型(World-Ego Model, WEM)**，耦合一个**隐式分离的世界-自我规划器(implicit separate world-ego planner)** 与**级联并行混合专家扩散生成器(cascade-parallel mixture-of-experts, CP-MoE diffusion generator)** - 构建首个用于**长时程混合导航-操作任务** 的基准**HTEWorld**，包含125K视频片段（超过450万帧）、细粒度动作标注和300条多轮评估轨迹（超过2000条指令）

💡 核心创新

- **概念创新**：首次提出**世界-自我建模** 这一新范式，将世界和自我的演化显式解耦，不同于传统单流世界模型 - **边界定义**：从运动、语义、意图三个视角系统性地定义世界-自我边界，并分析多种解耦策略 - **架构创新**：提出**CP-MoE扩散生成器**，结合混合专家和级联并行结构，实现高效且解耦的轨迹生成 - **基准贡献**：构建**HTEWorld**，首个专注于长时程混合任务的世界建模基准，填补了现有基准在导航-操作交织场景上的空白

🏆 总体贡献

- 为**长时程混合具身任务** 提供了一种**世界-自我解耦** 的新范式，显著缓解了传统纠缠带来的性能退化 - **WEM模型** 在HTEWorld基准上达到**最先进(SOTA)** 性能，同时在现有仅操作基准上保持竞争力，验证了方法的通用性 - 公开**HTEWorld基准** 及其大规模数据集，促进该领域的标准化评估与后续研究 - 系统性地分析了世界-自我边界和解耦策略，为未来**解耦世界模型(disentangled world model)** 研究提供了理论基础和可复现的框架

面向混合具身任务中长期演化的世界-自我建模
World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks

📊 核心分析

面向混合具身任务中长期演化的世界-自我建模 World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks

📊 核心分析

面向混合具身任务中长期演化的世界-自我建模
World-Ego Modeling for Long-Horizon Evolution in Hybrid Embodied Tasks