GS-Playground：一个用于视觉引导机器人学习的高吞吐量逼真模拟器

📝 论文摘要

具身人工智能研究正经历向以视觉为中心的感知范式的转变。尽管大规模并行模拟器已推动基于本体感觉的运动控制取得突破性进展，但由于大规模逼真渲染带来的高昂计算开销，其在视觉信息驱动任务中的潜力尚未被充分挖掘。此外，可即时用于仿真的三维资产创建高度依赖人工建模，而显著的仿真到现实物理鸿沟阻碍了接触密集型操作策略的迁移。为解决上述瓶颈，我们提出GS-Playground——一个旨在加速端到端感知学习的多模态仿真框架。我们开发了一种新型高性能并行物理引擎，其专为集成批处理三维高斯泼溅（3DGS）渲染管线而设计，以确保高保真同步。该系统在640×480分辨率下实现了每秒10^4帧的吞吐量突破，显著降低了大规模视觉强化学习的门槛。同时，我们引入自动化真实到仿真工作流，可重建逼真、物理一致且内存高效的环境，简化复杂可仿真场景的生成流程。在运动控制、导航与操作任务上的大量实验表明，GS-Playground有效弥合了不同具身任务中的感知与物理鸿沟。项目主页：https://gsplayground.github.io。

🎯 研究动机

- 现有**大规模并行模拟器(massively parallel simulators) ** 在基于本体感觉(proprioception)的移动任务中取得突破，但因大规模逼真渲染的计算开销过高，未能有效支持视觉感知任务 - ** 3D资产创建**严重依赖人工建模，效率低下，难以规模化生成仿真场景 - ** 仿真到现实(sim-to-real)** 的物理差距显著，阻碍接触丰富的操作策略迁移

🔧 核心方法

- 设计**高性能并行物理引擎(high-performance parallel physics engine) ** ，与** 批量3D高斯溅射(batch 3D Gaussian Splatting, 3DGS) ** 渲染管线紧密集成，实现高保真同步 - 提出** 自动Real2Sim工作流(automated Real2Sim workflow) ** ，从真实场景重建逼真、物理一致且内存高效的仿真环境 - 整个框架支持** 端到端(end-to-end)** 视觉强化学习训练，以每秒10⁴帧（640×480分辨率）的吞吐量运行

💡 核心创新

- **高通量渲染突破** ：首次实现10⁴ FPS的逼真渲染吞吐量，大幅降低大规模**视觉强化学习(visual RL) ** 的门槛 - ** 自动化场景生成**：Real2Sim工作流无需人工手动建模即可生成物理一致的复杂仿真场景 - ** 跨任务通用性**：该框架在运动(locomotion)、导航(navigation)和操作(manipulation)等多样化任务中均有效缩小了感知与物理差距

🏆 总体贡献

- 为具身AI(Embodied AI)领域的视觉中心感知研究提供了**高通量、高保真的仿真平台** - 提出的Real2Sim自动化流程简化了复杂场景的仿真准备，促进大规模学习 - 在多个具身任务上验证了框架的有效性，推动了** 视觉-物理联合仿真(vision-physics co-simulation)** 的实用化

GS-Playground：一个用于视觉引导机器人学习的高吞吐量逼真模拟器
GS-Playground: A High-Throughput Photorealistic Simulator for Vision-Informed Robot Learning

📊 核心分析

GS-Playground：一个用于视觉引导机器人学习的高吞吐量逼真模拟器 GS-Playground: A High-Throughput Photorealistic Simulator for Vision-Informed Robot Learning

📊 核心分析

GS-Playground：一个用于视觉引导机器人学习的高吞吐量逼真模拟器
GS-Playground: A High-Throughput Photorealistic Simulator for Vision-Informed Robot Learning