- 现有**世界模型(world models)** 在处理复杂3D场景中刚体物体的动作条件动力学时能力有限,难以准确预测多物体交互的后果
- 传统方法通常依赖网格或点云表示,无法灵活处理任意形状物体和遮挡下的部分观测
- 研究背景:**智能体(agent)** 需要高效预测动作对环境的动态影响,以实现复杂操作任务,如**非抓取操作(non-prehensile manipulation)**
- 提出**多刚体物体高斯世界模型(MRO-GWM)**,使用**物体为中心的3D高斯( object-centric Gaussians)** 表示场景,每个物体由其规范帧中的高斯描述,并通过**刚体变换(rigid body transformation)** 建模运动
- 开发**新型空时transformer(spatio-temporal transformer)** 架构,输入历史物体高斯状态和未来动作序列,直接预测未来的刚体运动参数
- 训练数据来自多视角重建,模型需处理**遮挡(occlusions)** 导致的部分观测,并通过自监督方式学习动态预测
- **首创**:将**物体为中心的3D高斯泼溅(object-centric Gaussian splatting)** 与**动作条件世界模型(action-conditional world model)** 结合,实现多刚体物体的可解释、可变形3D动态预测
- **表示优势**:使用规范帧高斯和刚体变换,统一了任意形状物体的运动表示,且自然支持多物体场景中的遮挡推理
- **架构创新**:提出专用spatio-temporal transformer,融合物体历史轨迹与未来动作,高效捕捉物体间的交互动力学
- 为**基于模型的强化学习(model-based reinforcement learning)** 和**机器人操作(robotic manipulation)** 提供了一种新颖的3D世界模型框架,能够预测多刚体物体在动作影响下的未来状态
- 在合成数据集(典型家居物体、机器人末端执行器交互)上验证了预测性能,并展示其在**模型预测控制(model-predictive control)** 中用于非抓取任务的可行性
- 推动了**3D高斯泼洒(3D Gaussian splatting)** 在动态场景理解和动作规划中的应用,为将视觉表示与物理推理融合开辟了新路径