- 现有**机器人操作仿真(robot manipulation simulation)** 基准缺乏视觉真实感,导致仿真与现实之间存在较大领域差距(sim-to-real gap),降低了仿真评估预测真实性能的可靠性
- 通过系统分析发现,**光照(lighting)** 和**材质(material)** 是影响几何推理和空间定位(geometric reasoning and spatial grounding)的关键因素,但现有基准却普遍忽视这些因素
- 提出**VISER基准**,包含一个超过1000个3D资产的高保真数据集,资产使用**基于物理的渲染(PBR)材质**,并通过精心布局或生成方式构建3D场景
- 设计自动化管线,利用**多模态大语言模型(MLLM)** 进行材质感知部分分割(material-aware part segmentation)和材质检索(material retrieval),实现可扩展的物理可信资产生成
- 基于高保真3D资产数据集,构建多样化评估任务,如**抓取(grasping)**、**放置(placing)** 和**长时序任务(long-horizon tasks)**,用于可扩展、可重复地评估**视觉-语言-动作(Vision-Language-Action, VLA)** 模型
- **首次系统分析**:定量分离光照和材质对仿真视觉真实感的影响,揭示其在几何推理和空间定位中的关键作用
- **视觉逼真基准**:提出VISER,填补了现有基准在视觉真实感上的空白,显著缩小了仿真与现实之间的视觉差距
- **自动化资产生成**:利用MLLM驱动材质感知分割和材质检索,实现了大规模、自动化生成物理可信3D资产,突破了手工制作的瓶颈
- **强相关性验证**:仿真与现实性能的**皮尔逊相关系数(Pearson correlation coefficient)** 平均达到0.92,证明VISER能可靠预测真实场景表现
- 为机器人操作策略的仿真评估提供了高保真、视觉真实的基准,有效缓解了**仿真到现实(sim-to-real)** 的视觉差距问题
- 大规模开源高保真3D资产数据集和自动化生成管线,促进社区对**视觉逼真模拟(visually realistic simulation)** 的研究与复现
- 在多种VLA模型上验证了仿真与现实性能的强相关性,确立了视觉真实感作为仿真评估关键指标的地位