NavOL：在线模仿学习的导航策略

📝 论文摘要

学习鲁棒的导航策略仍是机器人学的核心挑战。离线模仿学习在部署时存在分布偏移和累积误差问题，而强化学习需要奖励工程且学习效率低下。本文提出NavOL——一种在线模仿学习范式，通过与模拟器交互并利用在线收集的专家演示进行自我更新。基于预训练的将局部观测映射至未来航点的导航扩散策略，NavOL在部署-更新循环中训练：在部署阶段，策略在模拟器中执行动作，并向具有全局环境特权访问的全局规划器查询最优路径段作为真值轨迹标签；在更新阶段，策略在在线采集的观测-轨迹对上进行训练。该在线模仿循环消除了奖励设计需求、提升了学习效率，并通过在策略自身探索的部署轨迹上训练缓解了分布偏移。基于IsaacLab构建的系统利用快速高保真并行渲染及相机位姿与起止点对的域随机化，在8块RTX 4090 GPU上覆盖50个场景，每小时采集超2000条新轨迹（每条平均超400步）。我们还引入了一个室内视觉导航基准，包含预定义的起止位置用于零样本泛化。在仿真基准（包括NavDP基准和本文所提基准）及精心设计的真实世界实验中的广泛评估表明，NavOL在在线模仿学习中展现出持续的性能提升。

🎯 研究动机

- 机器人导航中学习鲁棒策略是核心挑战，现有方法存在局限 - **离线模仿学习(offline imitation learning)** 在策略部署时面临**分布偏移(distribution shift)** 和**复合误差(compounding errors)** - **强化学习(reinforcement learning)** 需要繁琐的**奖励工程(reward engineering)**，学习效率低且不稳定

🔧 核心方法

- 提出**NavOL**，一种**在线模仿学习(online imitation learning)** 范式，通过交互式模拟器收集专家演示并在线更新策略 - 基于预训练的**导航扩散策略(navigation diffusion policy)**，将局部观测映射到未来路径点 - 采用**滚动更新循环(rollout update loop)**：策略在模拟器中执行动作，并查询具有全局环境特权信息的**全局规划器(global planner)** 获取最优路径段作为真实轨迹标签；随后在在线收集的观测-轨迹对上进行训练 - 系统搭建在**IsaacLab** 上，利用快速高保真并行渲染和**域随机化(domain randomization)** （相机姿态、起始-目标对），在8块RTX 4090 GPU上跨50个场景并行，实现每小时收集超过2000条平均400步以上的新轨迹

💡 核心创新

- **首创在线模仿学习范式**：无需奖励函数设计，通过在线收集专家演示并训练策略，彻底避免了离线模仿学习的分布偏移和强化学习的奖励工程难题 - **分布偏移缓解机制**：策略仅在自身探索的滚动轨迹上训练，使训练数据分布与部署分布一致，有效消除复合误差 - **极高数据收集效率**：借助高速仿真并行器和域随机化，实现了大规模在线数据生成（每小时2000+条长轨迹），显著提升学习效率和样本利用率 - **新基准贡献**：引入一个针对室内视觉导航的**零样本泛化(zero-shot generalization)** 基准，包含预定义的起始和目标位置，便于评估导航策略的泛化能力

🏆 总体贡献

- 提出一种新颖的在线模仿学习框架**NavOL**，为机器人导航领域提供了摆脱奖励设计和分布偏移的新范式 - 在多个仿真基准（NavDP基准和自建基准）及真实世界实验中均取得一致的效果提升，证明了方法的有效性和鲁棒性 - 通过可扩展的系统设计（多GPU并行、域随机化），展示了在大规模场景下高效训练导航策略的能力 - 公开的室内视觉导航基准和系统实现（推断）促进了社区的可复现性和后续研究

NavOL：在线模仿学习的导航策略
NavOL: Navigation Policy with Online Imitation Learning

📊 核心分析

NavOL：在线模仿学习的导航策略 NavOL: Navigation Policy with Online Imitation Learning

📊 核心分析

NavOL：在线模仿学习的导航策略
NavOL: Navigation Policy with Online Imitation Learning