该论文旨在解决地面机器人目标导航模型在分布偏移(如环境、机器人或传感器配置变化)下避障能力下降的问题。研究背景是:基于监督学习训练的目标导航模型虽然展现出良好的零样本迁移能力,但其在现实世界部署时,面对与训练数据不同的情况,性能会显著退化。
论文提出了名为ViLiNT的多模态、基于注意力(attention)的导航策略,其核心方法包括:
- **多模态Transformer架构**:融合RGB图像、3D激光雷达(LiDAR)点云、目标嵌入(goal embedding)和机器人本体描述符(embodiment descriptor),以捕捉互补的几何(geometry)和外观(appearance)信息。
- **扩散模型(Diffusion Model)轨迹生成**:使用Transformer的输出作为条件,驱动一个扩散模型来生成可导航的轨迹。
- **轨迹排序机制**:利用自动生成的离线标签,训练一个路径通过性(path clearance)预测头,用于对扩散模型生成的轨迹进行评分和排序。该排序机制同样依赖于机器人本体描述符。
论文的核心创新点在于:
1. **多模态与本体感知的Transformer融合**:首次将机器人本体描述符(即物理尺寸等参数)作为可学习的令牌(token)与多模态感知数据(RGB和LiDAR)共同输入Transformer,使模型能根据机器人具体形态生成和选择轨迹。
2. **扩散模型与可学习排序器的结合**:提出了一种新颖的架构,用Transformer条件化的扩散模型生成多样化的轨迹候选,再通过一个专门训练的本体感知排序头进行筛选,实现了生成与评估的解耦与优化。
3. **面向鲁棒性的异构数据训练**:模型直接在来自多个平台和环境的异构数据上进行训练,旨在从根本上提升对分布偏移的鲁棒性,而非针对单一环境过拟合。
论文对该领域的总体贡献是:
- 提出了ViLiNT模型,通过结合多模态感知、机器人本体建模以及扩散模型与排序机制,显著提升了越野导航在分布偏移下的鲁棒性。
- 在三个模拟环境中,平均成功率比最先进的纯视觉基线(NoMaD)提高了166%,并通过真实世界的漫游车部署验证了性能提升。
- 证明了将多模态融合与碰撞预测机制相结合,是提高离线导航鲁棒性的有效途径。