该论文旨在解决图像目标视觉导航(image-goal visual navigation)领域对大规模数据集、大量预训练(pre-training)和强大计算资源的依赖问题。研究背景是现有主流方法通常需要昂贵的计算成本和数据收集过程,这限制了快速策略原型开发和实际部署。
论文提出的MINav方法包含以下关键技术:
- 将图像目标导航问题形式化为离线目标条件强化学习(offline goal-conditioned reinforcement learning)问题
- 采用无监督数据收集(unsupervised data collection)自动生成训练数据
- 使用后见目标重标记(hindsight goal relabeling)技术提高数据利用率
- 结合离线策略学习(offline policy learning)从收集的数据中直接学习导航策略
论文的核心创新点包括:
- 首次实现了在120分钟内、仅用消费级笔记本电脑完成从数据收集到真实世界部署的完整导航系统开发
- 提出了完全自动化的无监督探索框架,无需任何人工干预或预训练模型
- 将离线强化学习(offline RL)与目标条件导航相结合,实现了高效的数据利用和策略学习
- 证明了小规模、快速收集的数据集足以训练有效的真实世界导航策略,挑战了该领域对大规模数据的传统假设
论文对该领域的总体贡献是:
- 提出了一个计算效率极高的图像目标导航框架MINav,显著降低了机器人学习的门槛
- 通过实验证明在模拟和真实环境中,该方法都能提高探索效率,并优于零样本导航基线
- 展示了该方法能够随数据集规模良好扩展,为快速策略原型开发和部署提供了新范式
- 为资源受限环境下的机器人学习提供了可行方案,推动了高效机器人学习的发展