← 返回论文列表

MiniVLA-Nav v1:面向语言条件机器人导航的多场景仿真数据集
MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation

作者: Ali Al-Bustami, Jaerock Kwon
arXiv: 2605.00397v1
分类: cs.RO
📝 论文摘要
我们提出MiniVLA-Nav v1,这是一个用于语言条件物体接近(LCOA)导航的仿真数据集:给定一条简短的自然语言指令,一台NVIDIA Nova Carter差速驱动机器人需在四个逼真的Isaac Sim环境(办公室、医院、完整仓库和多货架仓库)中导航至指定物体,并在1米范围内停止。全部1174个轨迹中,每个指令都配有同步的640×640 RGB图像、公制深度图(float32,以米为单位)和实例分割掩码,以及基于视觉的比例控制器以60 Hz记录的连续(v,ω)和7×7离散化专家动作标签。轨迹多样性通过三种生成距离层级(近:1.5-3.5米,中:3.5-7.0米,远:全局精心选取点;生成距离与轨迹长度之间的Pearson相关系数r=0.94)、12个物体类别、18个训练模板和12个释义-分布外模板来保证。五个评估划分支持分布内准确性、模板-释义鲁棒性以及分布外物体类别基准测试。该数据集公开于https://huggingface.co/datasets/alibustami/miniVLA-Nav。

📊 核心分析

🎯 研究动机
- 现有**语言条件导航(language-conditioned navigation)** 数据集多局限于单一场景或缺乏高质量专家动作标签,难以评估模型在多场景下的**分布外(Out-of-Distribution, OOD)** 泛化能力 - 研究背景:**视觉-语言-动作(Vision-Language-Action, VLA)** 模型需要多场景、高保真模拟数据集以训练和评测语言引导的机器人导航能力
🔧 核心方法
- 构建**MiniVLA-Nav v1** 数据集,基于**NVIDIA Isaac Sim** 在四个照片级逼真环境(办公室、医院、完整仓库、多层货架仓库)中采集 - 每段轨迹包含同步的**640×640 RGB图像**、**度量深度图(float32,米)** 和**实例分割掩码**,以及由**视觉比例控制器** 在60Hz下生成的连续(v,ω)和**7×7 tokenized专家动作标签** - 通过三种生成距离层级(近:1.5-3.5m,中:3.5-7.0m,远:全局点)确保轨迹多样性,覆盖12个物体类别、18个训练模板和12个**释义(paraphrase)OOD模板**
💡 核心创新
- **首创性**:首次提供多场景、兼备RGB+深度+分割多模态信号与连续及tokenized专家动作的**语言条件目标接近(Language-Conditioned Object Approach, LCOA)** 导航数据集 - **OOD评估设计**:包含五种评估分割,支持**分布内准确性(in-distribution accuracy)**、**模板释义鲁棒性(template-paraphrase robustness)** 和**OOD物体类别基准(OOD object-category benchmark)** - **高相关性**:生成距离与轨迹长度间的**皮尔逊相关系数(Pearson r)** 高达0.94,保证轨迹质量与可控性
🏆 总体贡献
- 为**语言条件机器人导航** 领域提供一个标准化、多场景、含高质量专家轨迹的公开数据集,降低数据获取门槛 - 通过精心设计的OOD评估分割,推动模型在多样环境下的**泛化性(generalization)** 研究 - 数据集已在Hugging Face上开源,促进社区复现与后续基准测试