- 现有**语言条件导航(language-conditioned navigation)** 数据集多局限于单一场景或缺乏高质量专家动作标签,难以评估模型在多场景下的**分布外(Out-of-Distribution, OOD)** 泛化能力
- 研究背景:**视觉-语言-动作(Vision-Language-Action, VLA)** 模型需要多场景、高保真模拟数据集以训练和评测语言引导的机器人导航能力
- 构建**MiniVLA-Nav v1** 数据集,基于**NVIDIA Isaac Sim** 在四个照片级逼真环境(办公室、医院、完整仓库、多层货架仓库)中采集
- 每段轨迹包含同步的**640×640 RGB图像**、**度量深度图(float32,米)** 和**实例分割掩码**,以及由**视觉比例控制器** 在60Hz下生成的连续(v,ω)和**7×7 tokenized专家动作标签**
- 通过三种生成距离层级(近:1.5-3.5m,中:3.5-7.0m,远:全局点)确保轨迹多样性,覆盖12个物体类别、18个训练模板和12个**释义(paraphrase)OOD模板**
- **首创性**:首次提供多场景、兼备RGB+深度+分割多模态信号与连续及tokenized专家动作的**语言条件目标接近(Language-Conditioned Object Approach, LCOA)** 导航数据集
- **OOD评估设计**:包含五种评估分割,支持**分布内准确性(in-distribution accuracy)**、**模板释义鲁棒性(template-paraphrase robustness)** 和**OOD物体类别基准(OOD object-category benchmark)**
- **高相关性**:生成距离与轨迹长度间的**皮尔逊相关系数(Pearson r)** 高达0.94,保证轨迹质量与可控性
- 为**语言条件机器人导航** 领域提供一个标准化、多场景、含高质量专家轨迹的公开数据集,降低数据获取门槛
- 通过精心设计的OOD评估分割,推动模型在多样环境下的**泛化性(generalization)** 研究
- 数据集已在Hugging Face上开源,促进社区复现与后续基准测试