MiniVLA-Nav v1：面向语言条件机器人导航的多场景仿真数据集

📝 论文摘要

我们提出MiniVLA-Nav v1，这是一个用于语言条件物体接近（LCOA）导航的仿真数据集：给定一条简短的自然语言指令，一台NVIDIA Nova Carter差速驱动机器人需在四个逼真的Isaac Sim环境（办公室、医院、完整仓库和多货架仓库）中导航至指定物体，并在1米范围内停止。全部1174个轨迹中，每个指令都配有同步的640×640 RGB图像、公制深度图（float32，以米为单位）和实例分割掩码，以及基于视觉的比例控制器以60 Hz记录的连续（v,ω）和7×7离散化专家动作标签。轨迹多样性通过三种生成距离层级（近：1.5-3.5米，中：3.5-7.0米，远：全局精心选取点；生成距离与轨迹长度之间的Pearson相关系数r=0.94）、12个物体类别、18个训练模板和12个释义-分布外模板来保证。五个评估划分支持分布内准确性、模板-释义鲁棒性以及分布外物体类别基准测试。该数据集公开于https://huggingface.co/datasets/alibustami/miniVLA-Nav。

🎯 研究动机

- 现有**语言条件导航(language-conditioned navigation)** 数据集多局限于单一场景或缺乏高质量专家动作标签，难以评估模型在多场景下的**分布外(Out-of-Distribution, OOD)** 泛化能力 - 研究背景：**视觉-语言-动作(Vision-Language-Action, VLA)** 模型需要多场景、高保真模拟数据集以训练和评测语言引导的机器人导航能力

🔧 核心方法

- 构建**MiniVLA-Nav v1** 数据集，基于**NVIDIA Isaac Sim** 在四个照片级逼真环境（办公室、医院、完整仓库、多层货架仓库）中采集 - 每段轨迹包含同步的**640×640 RGB图像**、**度量深度图(float32,米)** 和**实例分割掩码**，以及由**视觉比例控制器** 在60Hz下生成的连续(v,ω)和**7×7 tokenized专家动作标签** - 通过三种生成距离层级（近:1.5-3.5m，中:3.5-7.0m，远:全局点）确保轨迹多样性，覆盖12个物体类别、18个训练模板和12个**释义(paraphrase)OOD模板**

💡 核心创新

- **首创性**：首次提供多场景、兼备RGB+深度+分割多模态信号与连续及tokenized专家动作的**语言条件目标接近(Language-Conditioned Object Approach, LCOA)** 导航数据集 - **OOD评估设计**：包含五种评估分割，支持**分布内准确性(in-distribution accuracy)**、**模板释义鲁棒性(template-paraphrase robustness)** 和**OOD物体类别基准(OOD object-category benchmark)** - **高相关性**：生成距离与轨迹长度间的**皮尔逊相关系数(Pearson r)** 高达0.94，保证轨迹质量与可控性

🏆 总体贡献

- 为**语言条件机器人导航** 领域提供一个标准化、多场景、含高质量专家轨迹的公开数据集，降低数据获取门槛 - 通过精心设计的OOD评估分割，推动模型在多样环境下的**泛化性(generalization)** 研究 - 数据集已在Hugging Face上开源，促进社区复现与后续基准测试

MiniVLA-Nav v1：面向语言条件机器人导航的多场景仿真数据集
MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation

📊 核心分析

MiniVLA-Nav v1：面向语言条件机器人导航的多场景仿真数据集 MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation

📊 核心分析

MiniVLA-Nav v1：面向语言条件机器人导航的多场景仿真数据集
MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation