← 返回论文列表

多模态具身感知导航变换器
Multimodal embodiment-aware navigation transformer

作者: Louis Dezons, Quentin Picard, Rémi Marsal 等5人
arXiv: 2604.19267v1
分类: cs.RO
📝 论文摘要
基于监督学习训练的地面机器人目标导航模型展现出良好的零样本迁移能力,但其避障性能在分布偏移(如环境、机器人或传感器配置变化)下仍会下降。我们提出ViLiNT——一种基于注意力机制的多模态目标导航策略,通过在多平台多环境的异构数据上进行训练,以两大核心特性提升系统鲁棒性。首先,我们通过Transformer架构融合RGB图像、3D激光雷达点云、目标嵌入向量及机器人本体描述符,以捕捉互补的几何与外观特征。Transformer的输出用于调节扩散模型,生成可导航轨迹。其次,利用自动生成的离线标签,我们训练了路径净空预测模块,对扩散模型生成的轨迹进行评分与排序。扩散条件调节与轨迹排序模块均依赖机器人本体标识符,使模型能根据机器人尺寸生成并筛选轨迹。在三个仿真环境中,ViLiNT的平均成功率较同等水平的纯视觉基线模型(NoMaD)提升166%。该性能提升在真实场景的障碍场地导航实验中得到了验证。这些结果表明,多模态融合与碰撞预测机制的结合显著增强了越野导航的鲁棒性。

📊 核心分析

🎯 研究动机
该论文旨在解决地面机器人目标导航模型在分布偏移(如环境、机器人或传感器配置变化)下避障能力下降的问题。研究背景是:基于监督学习训练的目标导航模型虽然展现出良好的零样本迁移能力,但其在现实世界部署时,面对与训练数据不同的情况,性能会显著退化。
🔧 核心方法
论文提出了名为ViLiNT的多模态、基于注意力(attention)的导航策略,其核心方法包括: - **多模态Transformer架构**:融合RGB图像、3D激光雷达(LiDAR)点云、目标嵌入(goal embedding)和机器人本体描述符(embodiment descriptor),以捕捉互补的几何(geometry)和外观(appearance)信息。 - **扩散模型(Diffusion Model)轨迹生成**:使用Transformer的输出作为条件,驱动一个扩散模型来生成可导航的轨迹。 - **轨迹排序机制**:利用自动生成的离线标签,训练一个路径通过性(path clearance)预测头,用于对扩散模型生成的轨迹进行评分和排序。该排序机制同样依赖于机器人本体描述符。
💡 核心创新
论文的核心创新点在于: 1. **多模态与本体感知的Transformer融合**:首次将机器人本体描述符(即物理尺寸等参数)作为可学习的令牌(token)与多模态感知数据(RGB和LiDAR)共同输入Transformer,使模型能根据机器人具体形态生成和选择轨迹。 2. **扩散模型与可学习排序器的结合**:提出了一种新颖的架构,用Transformer条件化的扩散模型生成多样化的轨迹候选,再通过一个专门训练的本体感知排序头进行筛选,实现了生成与评估的解耦与优化。 3. **面向鲁棒性的异构数据训练**:模型直接在来自多个平台和环境的异构数据上进行训练,旨在从根本上提升对分布偏移的鲁棒性,而非针对单一环境过拟合。
🏆 总体贡献
论文对该领域的总体贡献是: - 提出了ViLiNT模型,通过结合多模态感知、机器人本体建模以及扩散模型与排序机制,显著提升了越野导航在分布偏移下的鲁棒性。 - 在三个模拟环境中,平均成功率比最先进的纯视觉基线(NoMaD)提高了166%,并通过真实世界的漫游车部署验证了性能提升。 - 证明了将多模态融合与碰撞预测机制相结合,是提高离线导航鲁棒性的有效途径。