- 机器人导航中学习鲁棒策略是核心挑战,现有方法存在局限
- **离线模仿学习(offline imitation learning)** 在策略部署时面临**分布偏移(distribution shift)** 和**复合误差(compounding errors)**
- **强化学习(reinforcement learning)** 需要繁琐的**奖励工程(reward engineering)**,学习效率低且不稳定
- 提出**NavOL**,一种**在线模仿学习(online imitation learning)** 范式,通过交互式模拟器收集专家演示并在线更新策略
- 基于预训练的**导航扩散策略(navigation diffusion policy)**,将局部观测映射到未来路径点
- 采用**滚动更新循环(rollout update loop)**:策略在模拟器中执行动作,并查询具有全局环境特权信息的**全局规划器(global planner)** 获取最优路径段作为真实轨迹标签;随后在在线收集的观测-轨迹对上进行训练
- 系统搭建在**IsaacLab** 上,利用快速高保真并行渲染和**域随机化(domain randomization)** (相机姿态、起始-目标对),在8块RTX 4090 GPU上跨50个场景并行,实现每小时收集超过2000条平均400步以上的新轨迹
- **首创在线模仿学习范式**:无需奖励函数设计,通过在线收集专家演示并训练策略,彻底避免了离线模仿学习的分布偏移和强化学习的奖励工程难题
- **分布偏移缓解机制**:策略仅在自身探索的滚动轨迹上训练,使训练数据分布与部署分布一致,有效消除复合误差
- **极高数据收集效率**:借助高速仿真并行器和域随机化,实现了大规模在线数据生成(每小时2000+条长轨迹),显著提升学习效率和样本利用率
- **新基准贡献**:引入一个针对室内视觉导航的**零样本泛化(zero-shot generalization)** 基准,包含预定义的起始和目标位置,便于评估导航策略的泛化能力
- 提出一种新颖的在线模仿学习框架**NavOL**,为机器人导航领域提供了摆脱奖励设计和分布偏移的新范式
- 在多个仿真基准(NavDP基准和自建基准)及真实世界实验中均取得一致的效果提升,证明了方法的有效性和鲁棒性
- 通过可扩展的系统设计(多GPU并行、域随机化),展示了在大规模场景下高效训练导航策略的能力
- 公开的室内视觉导航基准和系统实现(推断)促进了社区的可复现性和后续研究