面向视觉逼真仿真：评估仿真中机器人操作能力的基准

📝 论文摘要

对机器人操作策略的可靠仿真评估可作为真实世界性能的高保真代理。现有基准虽涵盖广泛任务类别，但缺乏视觉真实感，导致仿真与现实之间存在巨大领域差距，削弱了基于仿真的评估对真实世界性能的预测可靠性。为缩小仿真到现实的视觉差距，我们通过系统分析隔离光照和材质的影响，结果表明这些因素在几何推理与空间定位中起关键作用，却在现有基准中常被忽视。基于该分析，我们提出VISER——一个用于仿真环境下评估机器人操作的视觉真实基准。VISER包含超过1000个具有基于物理渲染材质的高保真三维资产数据集，并通过精心设计的布局或生成方式基于这些资产构建三维场景。为此，我们提出利用多模态大语言模型的自动化流程，实现材质感知的部件分割与材质检索，从而支持可扩展的物理合理资产生成。基于高保真三维资产数据集，我们构建了包含抓取、放置及长时域任务等多种评估任务，支持对视觉-语言-动作模型的可扩展可重复评估。本基准在仿真与真实世界性能间展现出强相关性，不同策略的平均皮尔逊相关系数达0.92。

🎯 研究动机

- 现有**机器人操作仿真(robot manipulation simulation)** 基准缺乏视觉真实感，导致仿真与现实之间存在较大领域差距(sim-to-real gap)，降低了仿真评估预测真实性能的可靠性 - 通过系统分析发现，**光照(lighting)** 和**材质(material)** 是影响几何推理和空间定位(geometric reasoning and spatial grounding)的关键因素，但现有基准却普遍忽视这些因素

🔧 核心方法

- 提出**VISER基准**，包含一个超过1000个3D资产的高保真数据集，资产使用**基于物理的渲染(PBR)材质**，并通过精心布局或生成方式构建3D场景 - 设计自动化管线，利用**多模态大语言模型(MLLM)** 进行材质感知部分分割(material-aware part segmentation)和材质检索(material retrieval)，实现可扩展的物理可信资产生成 - 基于高保真3D资产数据集，构建多样化评估任务，如**抓取(grasping)**、**放置(placing)** 和**长时序任务(long-horizon tasks)**，用于可扩展、可重复地评估**视觉-语言-动作(Vision-Language-Action, VLA)** 模型

💡 核心创新

- **首次系统分析**：定量分离光照和材质对仿真视觉真实感的影响，揭示其在几何推理和空间定位中的关键作用 - **视觉逼真基准**：提出VISER，填补了现有基准在视觉真实感上的空白，显著缩小了仿真与现实之间的视觉差距 - **自动化资产生成**：利用MLLM驱动材质感知分割和材质检索，实现了大规模、自动化生成物理可信3D资产，突破了手工制作的瓶颈 - **强相关性验证**：仿真与现实性能的**皮尔逊相关系数(Pearson correlation coefficient)** 平均达到0.92，证明VISER能可靠预测真实场景表现

🏆 总体贡献

- 为机器人操作策略的仿真评估提供了高保真、视觉真实的基准，有效缓解了**仿真到现实(sim-to-real)** 的视觉差距问题 - 大规模开源高保真3D资产数据集和自动化生成管线，促进社区对**视觉逼真模拟(visually realistic simulation)** 的研究与复现 - 在多种VLA模型上验证了仿真与现实性能的强相关性，确立了视觉真实感作为仿真评估关键指标的地位

面向视觉逼真仿真：评估仿真中机器人操作能力的基准
Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation

📊 核心分析

面向视觉逼真仿真：评估仿真中机器人操作能力的基准 Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation

📊 核心分析

面向视觉逼真仿真：评估仿真中机器人操作能力的基准
Toward Visually Realistic Simulation: A Benchmark for Evaluating Robot Manipulation in Simulation