- 当前世界模型研究被三种分离路线主导:**2D视频生成模型(video-generative models)**、**3D场景中心模型(3D scene-centric models)** 和 **JEPA潜在模型(JEPA-like latent models)**,它们各自取得进展但难以提供物理可靠、动作可控、长程稳定的预测
- 论文认为瓶颈不再是能否生成逼真的未来,而是这些未来是否**物理上有意义** 且对**行动有用**
- 研究背景:世界模型作为具身智能、机器人、自动驾驶和基于模型强化学习的中心范式重新兴起
- 提出 **哈密顿世界模型(Hamiltonian World Models)**,其核心思想是将观察编码到 **结构化的潜在相空间(structured latent phase space)**
- 通过带有控制项、耗散项和残差项的**哈密顿动力学(Hamiltonian-inspired dynamics)** 演化潜在状态
- 将预测轨迹解码为未来观察,并利用生成的回滚(rollouts)进行规划
- **首创性**:首次从**哈密顿力学(Hamiltonian mechanics)** 视角构建世界模型,使预测具有物理可解释性
- **结构化潜在空间**:通过相空间编码和哈密顿动力学,提升可解释性、数据效率和长程稳定性
- **处理复杂现实场景**:讨论了在摩擦、接触、非保守力和可变形物体等真实机器人场景中的实际挑战,区分于理想物理环境
- 为世界建模领域提供了一种**物理基础(physically grounded)** 的新视角,超越了单纯视觉生成或抽象表示
- 通过引入哈密顿结构,有望改善**动作可控性(action controllability)** 和**长程稳定性(long-horizon stability)**,推动具身决策
- 指出实际挑战并激励后续研究解决非保守力和可变形物体等难题,促进世界模型在真实机器人中的应用