该论文旨在解决无人机在拒止全球导航卫星系统(GNSS-denied)环境下的跨模态热红外地理定位(Cross-modal Thermal Geo-localization)问题。研究背景是:热红外模态与可见光卫星图像之间存在巨大的模态鸿沟(modality gap),导致严重的特征模糊性(feature ambiguity),从而系统性地破坏了传统的由粗到精配准(coarse-to-fine registration)流程。
论文提出了一个统一的语义级联共识框架SCC-Loc。其核心方法包括三个紧密耦合的组件:
- 语义引导视口对齐(Semantic-Guided Viewport Alignment, SGVA)模块:自适应优化卫星图像裁剪区域,纠正初始空间偏差。
- 级联空间自适应纹理-结构滤波(Cascaded Spatial-Adaptive Texture-Structure Filtering, C-SATSF)机制:显式地强制几何一致性(geometric consistency),消除密集的跨模态异常点(cross-modal outliers)。
- 共识驱动的可靠性感知位置选择(Consensus-Driven Reliability-Aware Position Selection, CD-RAPS)策略:通过物理约束的姿态优化(physically constrained pose optimization)协同得出最优解。
此外,该方法在全局检索(global retrieval)和精细匹配(MINIMA$_{\text{RoMa}}$ matching)中共享单个DINOv2主干网络,以减少内存占用并实现零样本(zero-shot)高精度绝对位置估计。
论文的核心创新点在于提出了一个统一的、语义驱动的级联共识框架,从三个层面系统性地解决了跨模态地理定位中的根本性挑战:
1. **架构创新**:首次将全局检索与精细匹配统一在一个共享主干网络中,实现了内存高效和零样本的端到端定位。
2. **方法创新**:设计了SGVA、C-SATSF和CD-RAPS三个新颖组件,分别从语义引导的区域对齐、几何一致的异常点滤除、以及物理约束的共识优化三个递进层面,协同攻克了模态鸿沟导致的特征模糊和配准失效问题。
3. **数据创新**:构建了大规模、多样化的Thermal-UAV数据集,包含大量热红外查询图像、卫星正射影像和数字表面模型(DSM),解决了该领域数据稀缺的瓶颈。
论文对该领域的整体贡献包括:
- **技术贡献**:提出了SCC-Loc框架,在跨模态热红外地理定位任务上取得了新的最先进(state-of-the-art)性能,将平均定位误差降至9.37米,并在严格的5米误差阈值内将准确率提升了7.6倍。
- **理论/方法贡献**:为克服严重的跨模态差异提供了一套系统性的解决方案,即通过语义引导、级联滤波和共识优化来逐步建立可靠对应关系,这一范式对相关跨模态匹配问题具有借鉴意义。
- **资源贡献**:开源了代码并发布了Thermal-UAV数据集,为后续研究提供了重要的基准和基础。