- 现有**世界模型(world model)** 在具身智能中通常将**世界演化(world evolution)** 与**自我演化(ego evolution)** 在单个流中混合预测,导致**世界-自我纠缠(world-ego entanglement)**
- 这种纠缠在**长时程具身场景(long-horizon embodied scenario)** 中性能下降,尤其是在**导航与操作交织的混合任务(hybrid task)** 中
- 需要一种新范式来显式解耦世界和自我,以更好地捕捉**指令无关的场景规律** 与**机器人中心的指令条件动态**
- 提出**世界-自我建模(World-Ego Modeling)** 范式,将未来演化分解为世界组件和自我组件
- 从**运动(motion)**、**语义(semantic)**、**意图(intention)** 三个视角定义世界-自我边界,并分析**后解耦(post-disentanglement)**、**前解耦(pre-disentanglement)** 和**全解耦(full disentanglement)** 三种策略
- 实例化为**世界-自我模型(World-Ego Model, WEM)**,耦合一个**隐式分离的世界-自我规划器(implicit separate world-ego planner)** 与**级联并行混合专家扩散生成器(cascade-parallel mixture-of-experts, CP-MoE diffusion generator)**
- 构建首个用于**长时程混合导航-操作任务** 的基准**HTEWorld**,包含125K视频片段(超过450万帧)、细粒度动作标注和300条多轮评估轨迹(超过2000条指令)
- **概念创新**:首次提出**世界-自我建模** 这一新范式,将世界和自我的演化显式解耦,不同于传统单流世界模型
- **边界定义**:从运动、语义、意图三个视角系统性地定义世界-自我边界,并分析多种解耦策略
- **架构创新**:提出**CP-MoE扩散生成器**,结合混合专家和级联并行结构,实现高效且解耦的轨迹生成
- **基准贡献**:构建**HTEWorld**,首个专注于长时程混合任务的世界建模基准,填补了现有基准在导航-操作交织场景上的空白
- 为**长时程混合具身任务** 提供了一种**世界-自我解耦** 的新范式,显著缓解了传统纠缠带来的性能退化
- **WEM模型** 在HTEWorld基准上达到**最先进(SOTA)** 性能,同时在现有仅操作基准上保持竞争力,验证了方法的通用性
- 公开**HTEWorld基准** 及其大规模数据集,促进该领域的标准化评估与后续研究
- 系统性地分析了世界-自我边界和解耦策略,为未来**解耦世界模型(disentangled world model)** 研究提供了理论基础和可复现的框架