研究动机: 解决资源受限的边缘设备(如智能眼镜)上实现精确、实时的视觉定位(visual localization)问题。现有高效模型仍需进一步降低计算开销而不牺牲精度,以满足实际部署中对电池续航和散热的严格要求。
核心方法: 提出了一种非对称视觉定位(asymmetric visual localization)框架 AsymLoc。
- 采用师生(Teacher-Student)架构:大型教师(Teacher)模型离线处理预建图数据库图像,轻量级学生(Student)模型在线处理查询(query)图像。
- 设计了一种新颖的蒸馏(distillation)框架,通过结合几何驱动匹配目标(geometry-driven matching objective)和联合检测器-描述符蒸馏目标(joint detector-descriptor distillation objective),使学生模型的特征与教师模型对齐。
- 最终实现快速、无参数的最近邻匹配(nearest-neighbor matching)。
核心创新点:
- 提出了非对称视觉定位(asymmetric visual localization)范式,将计算负担分离到离线(教师)和在线(学生)阶段,从根本上改变效率瓶颈。
- 设计了创新的蒸馏框架,解决了从两个不同模型提取的特征进行匹配的核心挑战,无需依赖计算量大的学习型匹配器(learned matcher)。
- 通过几何驱动和联合蒸馏目标的组合,实现了学生模型特征空间与教师模型的高效对齐,使得轻量级模型能复用教师模型的强大表示能力。
总体贡献:
- 在 HPatches, ScanNet, IMC2022 和 Aachen 等多个数据集上的大量实验表明,AsymLoc 使用小一个数量级的模型,能达到教师模型高达95%的定位精度。
- 显著超越了现有基线方法,在视觉定位领域建立了新的效率-精度权衡(state-of-the-art efficiency-accuracy trade-off)的先进水平。
- 为在资源受限的边缘设备上部署高精度视觉定位系统提供了切实可行的解决方案。