← 返回论文列表

学习用于刚体对象的动作条件与以对象为中心的高斯溅射世界模型
Learning Action-Conditional and Object-Centric Gaussian Splatting World Models for Rigid Objects

作者: Jens U. Kreber, Lukas Mack, Joerg Stueckler
arXiv: 2606.01950v1
分类: cs.RO, cs.CV, cs.LG
📝 论文摘要
世界模型使智能体能够预测其行为对环境的影响。本文提出多刚体对象高斯世界模型(MRO-GWM),一种能够学习3D刚性物体动作条件动力学的新型模型。通过以物体为中心的高斯函数表示场景,我们能够表征任意物体形状和多物体场景。我们开发了新颖的时空变换器架构,该架构根据历史物体高斯函数和未来动作预测未来刚体运动。物体通过其规范坐标系下的高斯函数表示,从而可将物体运动描述为刚体变换。我们的模型使用多视角重建数据进行训练,这要求模型能够处理因遮挡导致的物体部分观测问题。我们在包含典型家居物品的多物体动力学及机器人末端执行器交互的合成数据集上分析了方法的预测性能,并在仿真中评估了该模型在非抓取操作模型预测控制中的表现。

📊 核心分析

🎯 研究动机
- 现有**世界模型(world models)** 在处理复杂3D场景中刚体物体的动作条件动力学时能力有限,难以准确预测多物体交互的后果 - 传统方法通常依赖网格或点云表示,无法灵活处理任意形状物体和遮挡下的部分观测 - 研究背景:**智能体(agent)** 需要高效预测动作对环境的动态影响,以实现复杂操作任务,如**非抓取操作(non-prehensile manipulation)**
🔧 核心方法
- 提出**多刚体物体高斯世界模型(MRO-GWM)**,使用**物体为中心的3D高斯( object-centric Gaussians)** 表示场景,每个物体由其规范帧中的高斯描述,并通过**刚体变换(rigid body transformation)** 建模运动 - 开发**新型空时transformer(spatio-temporal transformer)** 架构,输入历史物体高斯状态和未来动作序列,直接预测未来的刚体运动参数 - 训练数据来自多视角重建,模型需处理**遮挡(occlusions)** 导致的部分观测,并通过自监督方式学习动态预测
💡 核心创新
- **首创**:将**物体为中心的3D高斯泼溅(object-centric Gaussian splatting)** 与**动作条件世界模型(action-conditional world model)** 结合,实现多刚体物体的可解释、可变形3D动态预测 - **表示优势**:使用规范帧高斯和刚体变换,统一了任意形状物体的运动表示,且自然支持多物体场景中的遮挡推理 - **架构创新**:提出专用spatio-temporal transformer,融合物体历史轨迹与未来动作,高效捕捉物体间的交互动力学
🏆 总体贡献
- 为**基于模型的强化学习(model-based reinforcement learning)** 和**机器人操作(robotic manipulation)** 提供了一种新颖的3D世界模型框架,能够预测多刚体物体在动作影响下的未来状态 - 在合成数据集(典型家居物体、机器人末端执行器交互)上验证了预测性能,并展示其在**模型预测控制(model-predictive control)** 中用于非抓取任务的可行性 - 推动了**3D高斯泼洒(3D Gaussian splatting)** 在动态场景理解和动作规划中的应用,为将视觉表示与物理推理融合开辟了新路径