← 返回论文列表

COMPASS:用于基于楼层平面图的视觉定位的紧凑型多通道先验地图与场景签名
COMPASS: COmpact Multi-channel Prior-map And Scene Signature for Floor-Plan-Based Visual Localization

作者: Muhammad Shaheer, Miguel Fernandez-Cortizas, Asier Bikandi-Noya 等5人
arXiv: 2604.25388v1
分类: cs.CV, cs.RO
📝 论文摘要
建筑平面图是广泛可用的先验信息,不仅包含环境的几何形状,还包含语义信息,然而现有的定位方法大多忽略了这些语义信息。为解决这一问题,我们提出了COMPASS算法,该算法利用平面图中的几何和语义先验信息来估计配备双鱼眼相机的机器人的位姿。受基于激光雷达位置识别的扫描上下文描述符启发,我们设计了一种多通道径向描述符,用于编码位置周围的几何布局。从平面图中,在360度方位角区间内发射射线,并将结果编码为五个通道:归一化距离、结构命中类型(墙壁、窗户或开口)、距离梯度、逆距离和局部距离方差。在图像方面,通过检测鱼眼图像中的结构元素来填充相同的描述符结构。作为迈向完整跨模态匹配的第一步,我们提出了一种针对鱼眼图像的窗户检测算法,该算法使用线段检测器通过垂直边缘聚类和亮度验证来识别窗户框架。检测到的窗户通过鱼眼相机模型投影到方位角方向,生成视觉描述符的命中类型通道。作为概念验证,我们在Hilti-Trimble SLAM Challenge 2026数据集的单个已知位姿处生成两种描述符,并证明从每个相机第一帧提取的墙壁-窗户模式与平面图描述符高度匹配,验证了跨模态结构匹配的可行性。

📊 核心分析

🎯 研究动机
- 现有基于**平面图(floor plan) ** 的视觉定位方法大多忽略其丰富的** 语义信息(semantic information)** ,仅利用几何信息 - 建筑平面图广泛可用,包含几何布局和语义元素(如墙、窗、开口),但未被充分利用 - 研究背景:机器人定位需要从图像和先验地图中估计位姿,跨模态匹配(视觉-平面图)面临巨大挑战
🔧 核心方法
- 提出**COMPASS** 算法,设计**多通道径向描述符(multi-channel radial descriptor) ** ,从平面图通过360°射线投射编码5个通道:归一化距离、结构命中类型(墙/窗/开口)、距离梯度、逆距离、局部距离方差 - 从鱼眼图像侧,通过** 窗口检测算法(window detection) ** 使用**线段检测器(line segment detector) ** 结合垂直边缘聚类和亮度验证识别窗框 - 检测到的窗户通过** 鱼眼相机模型**投影到方位角,填充视觉描述符的命中类型通道,实现与平面图描述符的结构对齐
💡 核心创新
- **首次引入语义先验** :在平面图定位中同时利用几何和语义信息(尤其是窗户结构),超越传统仅用几何的方法 - **跨模态描述符对齐** :设计了统一的**多通道径向描述符** ,使得从平面图生成的描述符与从鱼眼图像生成的描述符具有相同结构,支持后续匹配 - ** 鱼眼图像窗口检测方法**:针对鱼眼图像失真特点,提出专门的窗框检测算法,为跨模态匹配提供关键语义线索
🏆 总体贡献
- 提出一种利用**平面图语义先验** 的视觉定位新范式,证明跨模态结构匹配的可行性 - 在**Hilti-Trimble SLAM Challenge 2026** 数据集上展示概念验证,墙窗模式匹配成功,为后续完整定位系统奠定基础 - 提供的**多通道描述符设计** 和**鱼眼窗口检测** 方法可扩展到其他场景,推动平面图辅助的语义定位研究