← 返回论文列表

基于原型语义部件发现的天气鲁棒跨视角地理定位
Weather-Robust Cross-View Geo-Localization via Prototype-Based Semantic Part Discovery

作者: Chi-Nguyen Tran, Dao Sy Duy Minh, Huynh Trung Kiet 等6人
arXiv: 2605.11654v1
分类: cs.CV, cs.AI, cs.RO
📝 论文摘要
跨视角地理定位(CVGL)旨在将倾斜的无人机视角图像与地理参考卫星瓦片进行匹配,已在全球导航卫星系统(GNSS)信号受到干扰、欺骗或不可用时,成为自主无人机导航的关键替代方案。尽管近期取得了显著进展,但仍存在三个局限性:(1)全局描述符设计将补丁网格压缩为单一向量,未能跨越视角差异分离布局与纹理信息;(2)与高度相关的尺度变化保留在学习嵌入中而非被边缘化;(3)多目标训练依赖人工调参的标量权重,而这些损失项基于不可兼容的梯度尺度。我们提出SkyPart,一种轻量级可替换头部模块,适用于基于补丁的视觉Transformer(ViTs),在补丁网格上实现显式部件分组。SkyPart包含四个基于理论支撑的组件:(i)通过单次余弦分配实现的可学习原型,竞争补丁令牌;(ii)仅在训练时应用的基于高度的线性调制,使检索嵌入在推理时与高度无关;(iii)基于图注意力的活跃原型读出机制;(iv)基于Kendall不确定性加权的多目标损失函数,其平稳点符合帕累托平稳性。SkyPart以26.95M参数和22.14 GFLOPs的计算量,成为性能最优方法中体积最小的模型,并在SUES-200、University-1652和DenseUAV数据集上,采用单次前向、无重排序、无测试时增强(TTA)协议下,刷新了最新技术水平。在十种天气条件的WeatherPrompt鲁棒性基准测试中,SkyPart相较于最强基线的优势进一步扩大。

📊 核心分析

🎯 研究动机
- 现有**跨视图地理定位(CVGL)** 方法存在三个主要局限:全局描述符将patch网格压缩为单向量,无法分离布局与纹理信息;高度相关的尺度变化被保留在嵌入中,未做边缘化处理;多目标训练依赖手动调节损失标量,梯度尺度不兼容 - 无人机在**GNSS信号被干扰、欺骗或不可用** 时,需要鲁棒的视觉定位替代方案,但现有方法在天气变化等条件下性能下降明显
🔧 核心方法
- 提出**SkyPart**,一种轻量级可交换头,用于基于patch的**视觉Transformer(ViT)**,将显式的部分分组引入patch网格 - 包含四个理论驱动的组件:**(i)可学习原型** 通过单次余弦分配与patch tokens竞争;**(ii)高度条件线性调制** 仅在训练时应用,使推理时的检索嵌入与高度无关;**(iii)图注意力读出** 作用于激活的原型;**(iv)Kendall不确定加权多目标损失**,其不动点达到Pareto平稳
💡 核心创新
- **首创原型驱动的语义部分发现**:利用可学习原型在patch网格上进行显式部分分组,克服了全局描述符无法分离布局与纹理的缺陷 - **高度无关的检索嵌入**:通过训练时的高度条件线性调制,在推理时消除高度变化对嵌入的影响,无需显式高度估计 - **自动多目标损失加权**:采用Kendall不确定性加权,自动平衡不同损失的梯度尺度,避免手动调参,并且保证收敛到Pareto最优
🏆 总体贡献
- 在**SUES-200、University-1652、DenseUAV** 三个基准上以单次前向、无重排、无测试时增强的协议达到新的**SOTA(state-of-the-art)** - 模型参数仅**26.95M**,GFLOPs仅**22.14**,是当前最优方法中最小的,适合无人机等资源受限平台部署 - 在**WeatherPrompt十种天气退化基准** 下,与最强基线相比优势进一步扩大,展现出优异的天气鲁棒性