← 返回论文列表

FlatVPR:面向基础模型特征流形几何矫正的即插即用几何线性残差适配器
FlatVPR: Plug-and-play Geo-linear Residual Adapter for Geometric Rectification of Foundation Model Feature Manifolds

作者: Rai Hisada, Kanji Tanaka
arXiv: 2606.01734v1
分类: cs.CV, cs.LG, cs.RO
📝 论文摘要
本文提出“FlatVPR”,一种新颖的几何校正范式,通过强制特征流形结构有效弥合视觉位置识别(VPR)中地图轻量化与定位精度之间的权衡。在该结构下,任意两个相邻锚点$\mathbf{z}_A$与$\mathbf{z}_B$之间的描述符可通过线性插值$\hat{\mathbf{z}}_{pseudo} = (1-t)\mathbf{z}_A + t\mathbf{z}_B$(其中$t \in [0,1]$表示相对位置)精确重构。虽然DINOv2-ViT-S/14等最先进的基础模型提供了稳健的语义特征,但其潜在流形呈现显著曲率,将物理空间中的均匀线性运动投影到特征空间中高度非线性的轨迹上,从而阻碍了稀疏锚点条件下的可靠重构。为实现上述基于插值的重构,我们在原始基础特征$\mathbf{z}$上引入残差变换$\hat{\mathbf{z}} = \mathbf{z} + \text{Res}(\mathbf{z})$,其中$\text{Res}(\cdot)$表示一个可学习的适配器。该方法通过数学上严谨的回拉平直性损失显式抑制流形曲率,该损失最小化中间特征与连接相邻锚点的线性段之间的偏差,从而最小化流形的内在曲率。通过这种空间平直化处理,地图构建被表述为期望最大化(EM)框架,解耦为用于流形适应的连续M步和用于最优锚点选择准则的概念性E步。在NCLT数据集上的实验表明,即使在锚点间隔100米、季节变化极端的极端稀疏锚点条件下,所提出的适配器的应用仍能带来显著的性能提升。

📊 核心分析

🎯 研究动机
- 解决**视觉地点识别(Visual Place Recognition, VPR)** 中**地图轻量化** 与**定位精度** 之间的权衡问题 - 现有**基础模型(foundation models)** 如DINOv2-ViT-S/14提供鲁棒的语义特征,但其**隐式流形(latent manifold)** 存在显著曲率,导致物理空间中的均匀线性运动在特征空间中投射为高度非线性轨迹 - 在稀疏锚点条件下,无法通过线性插值可靠重建描述子,阻碍了高精度定位
🔧 核心方法
- 提出**FlatVPR** 范式,引入可学习的**残差适配器(Residual Adapter)** $\text{Res}(\cdot)$ 对原始基础特征进行校正:$\hat{\mathbf{z}} = \mathbf{z} + \text{Res}(\mathbf{z})$ - 设计**Pullback Flatness Loss**,通过数学上严谨的方式最小化相邻锚点之间中间特征与线性插值段的偏差,显式抑制流形曲率 - 将地图构建问题形式化为**期望最大化(Expectation-Maximization, EM)** 框架:连续M步进行流形适应,概念E步制定最优锚点选择准则
💡 核心创新
- **首创性**:首次提出**几何线性残差适配器(Geo-linear Residual Adapter)**,即插即用地校正基础模型特征流形的曲率 - **数学严谨性**:通过**Pullback Flatness Loss** 从微分几何角度最小化流形内在曲率,使任意两锚点间的描述子可经线性插值精确重建 - **解耦范式**:将VPR地图构建解耦为EM框架中的流形适应(M步)和锚点选择(E步),实现稀疏锚点下的高效定位
🏆 总体贡献
- 提出**FlatVPR** 这一新的几何校正范式,有效桥接了地图轻量化与定位精度的矛盾 - 在**NCLT数据集** 上,即使面对100米间隔的极端稀疏锚点和剧烈季节变化,依然取得显著性能提升 - 提供了一种**即插即用(plug-and-play)** 的适配器方法,可轻松集成到现有基础模型(如DINOv2)中,推动VPR在实际部署中的实用性