OSMa-Bench++：面向使用提示生成合成场景的操作语义映射的开放式基准测试

📝 论文摘要

语义映射方法越来越多地被用作下游机器人推理和操作的中级场景表示，然而其评估在很大程度上仍依赖于固定基准数据集，这些数据集对操作相关边缘案例的覆盖有限。在这项工作中，我们将OSMa-Bench扩展为一种基于提示生成合成室内场景的可控基准测试框架。我们的流程自动生成场景描述，利用SceneSmith合成相应环境，并将所得资产适配为兼容OSMa-Bench的仿真格式。这一适配需要一个重要的中间层，包括语义归一化、材质与纹理修复、着色器回退策略、地板处理、导航设置以及受控照明配置。所提设置的一个关键优势在于，原始场景生成提示是预先已知的，因此可以作为预期场景的辅助语义规范。我们利用这一特性，在OSMa-Bench的VQA组件中扩展了一个基于提示的问题类别。最终框架支持在杂乱、小物体、部分遮挡和光照变化等条件下对语义场景表示进行有针对性的压力测试，使基准测试更具可扩展性，并更好地与下游操作需求对齐。我们的代码可在https://github.com/be2rlab/OSMa-Bench-v2获取。

🎯 研究动机

- 现有语义映射评估受限于固定基准数据集，对操作相关的边界案例（如杂乱、小物体、遮挡、光照变化）覆盖不足 - 研究背景：**语义映射(semantic mapping)** 作为中间场景表示广泛用于机器人推理与操作，但缺乏可控、开放式的基准测试方法 - 需要一种能够自动生成多样化场景并针对性测试语义表示鲁棒性的评估框架

🔧 核心方法

- 扩展**OSMa-Bench** 框架，利用**提示生成(prompt generation)** 合成室内场景：通过**SceneSmith** 自动生成场景描述并合成3D环境 - 对合成资源进行适配转换，包括**语义归一化(semantic normalization)**、材质与纹理修复、着色器回退策略、地板处理、导航设置及受控光照配置 - 利用已知的原始场景生成提示，扩展**视觉问答(VQA)** 组件，增加**提示接地问题(prompt-grounded question category)** 作为辅助语义规范

💡 核心创新

- **首创可控合成场景基准**：首次在语义映射评估中引入**提示驱动的合成场景生成(prompt-driven synthetic scene generation)**，实现针对操作边界案例的定向压力测试 - **关键属性利用**：原始场景生成提示已知，可作为**辅助语义规范(auxiliary semantic specification)**，支撑**提示接地(prompt-grounded)** 的VQA扩展 - **全面适配层**：提出包含语义归一化、材质修复、光照配置等在内的中间层，实现合成资产到仿真格式的无缝转换

🏆 总体贡献

- 提出**OSMa-Bench++** 框架，为语义映射评估提供**开放式、可控(open-ended, controllable)** 的基准测试范式 - 支持在**杂乱(clutter)、小物体(small objects)、部分遮挡(partial occlusion)、光照变化(lighting variation)** 等条件下对场景表示进行系统性压力测试 - 使基准测试更**可扩展(extensible)** 且更符合下游操作需求，并开源代码促进社区复现与后续研究

OSMa-Bench++：面向使用提示生成合成场景的操作语义映射的开放式基准测试
OSMa-Bench++: Toward Open-Ended Benchmarking of Semantic Mapping for Manipulation with Prompt-Generated Synthetic Scenes

📊 核心分析

OSMa-Bench++：面向使用提示生成合成场景的操作语义映射的开放式基准测试 OSMa-Bench++: Toward Open-Ended Benchmarking of Semantic Mapping for Manipulation with Prompt-Generated Synthetic Scenes

📊 核心分析

OSMa-Bench++：面向使用提示生成合成场景的操作语义映射的开放式基准测试
OSMa-Bench++: Toward Open-Ended Benchmarking of Semantic Mapping for Manipulation with Prompt-Generated Synthetic Scenes