基于视觉的自主无人机竞速中的双姿态图语义定位

Dual Pose-Graph Semantic Localization for Vision-Based Autonomous Drone Racing

作者: David Perez-Saura, Miguel Fernandez-Cortizas, Alvaro J. Gaona 等4人

arXiv: 2604.15168v1

分类: cs.RO

📝 论文摘要

自主无人机竞速需要在极端条件下实现鲁棒的实时定位:高速飞行、剧烈机动以及通常仅依赖单目摄像头进行感知的载荷受限平台。现有视觉SLAM系统虽然在常规场景中表现良好，但难以应对竞速动态固有的运动模糊和特征不稳定问题，且未能利用竞速环境的结构化特性。本研究提出一种融合里程计与语义检测的双位姿图架构，通过临时图在关键帧之间累积多个门框观测，将其优化为每个地标的单一精化约束后，再提升至持久主图中。该设计既保留了频繁检测的信息丰富性，又防止了图结构增长导致的实时性能下降。系统设计具备传感器无关性，本文采用单目视觉惯性里程计与视觉门框检测进行验证。在TII-RATM数据集上的实验评估表明，与独立VIO相比平均轨迹误差降低56%至74%；消融研究证实双图架构在相同计算成本下比单图基线精度提升10%至12%。在A2RL竞赛中的部署实践表明，该系统能在飞行过程中实现实时板载定位，每圈最大可减少里程计基线漂移4.2米。

📊 核心分析

🎯 研究动机

解决自主无人机竞速中视觉定位的鲁棒性问题。研究背景是： - 无人机竞速面临极端条件：高速飞行、剧烈机动、载荷受限（通常仅依赖单目相机） - 现有视觉SLAM系统在竞速场景中存在局限： - 难以处理运动模糊和特征不稳定问题 - 未充分利用竞速环境的结构化特性

🔧 核心方法

采用双位姿图(dual pose-graph)架构，融合里程计与语义检测： - 临时图(temporary graph)：在关键帧之间累积多个门(gate)观测，优化为每个地标(landmark)生成单个精化约束 - 持久主图(persistent main graph)：接收来自临时图的精化约束 - 传感器无关设计（本文验证使用单目视觉惯性里程计(VIO)和视觉门检测）

💡 核心创新

提出创新的双图架构设计： - 通过临时图处理高频检测：保留丰富观测信息的同时，避免因图增长导致实时性能下降 - 与单图基线相比：在相同计算成本下实现10%-12%的精度提升 - 充分利用竞速环境的结构化语义信息（门检测），与传统仅依赖低层特征的SLAM形成区别

🏆 总体贡献

整体贡献包括： - 在TII-RATM数据集上实现56%-74%的绝对轨迹误差(ATE)降低（相比独立VIO） - 在A2RL竞赛中验证实时机载定位能力：每圈减少里程计基线漂移达4.2米 - 为高速动态环境下的语义定位提供可扩展的框架设计