Hyp2Former: 面向开放集全景分割的层次感知双曲嵌入

Hyp2Former: Hierarchy-Aware Hyperbolic Embeddings for Open-Set Panoptic Segmentation

作者: Yao Lu, Rohit Mohan, Florian Drews 等5人

arXiv: 2605.02580v1

分类: cs.CV, cs.AI, cs.RO

📝 论文摘要

对未知物体的识别对于自动驾驶和机器人等安全关键应用至关重要。开放集全景分割（OPS）旨在分割已知物体和类别区域，同时将有效的未知物体识别为独立实例。以往的OPS方法大多将已知类别视为扁平标签集，忽略了语义层次结构，而这种结构为区分未知物体与分布内类别提供了宝贵的结构先验。在本工作中，我们提出Hyp2Former，一种端到端的OPS框架，无需在训练期间显式建模未知物体，而是在双曲空间中连续学习层次语义相似性。通过显式编码已知类别间的层次关系，模型学习到一个结构化嵌入空间，捕获多个层级的语义抽象。因此，无法被自信地分类为已知类别的未知物体仍然与更高层次概念保持接近（例如，未知动物与"动物"或"物体"的距离仍比与"电子产品"或"类别"等无关概念更近），从而能够被可靠检测，即使其细粒度类别在训练中未出现。在MS COCO、Cityscapes和Lost&Found等多个公共数据集上的实证评估表明，Hyp2Former在OPS上优于现有方法，在未知物体发现与分布内鲁棒性之间实现了最佳平衡。

📊 核心分析

🎯 研究动机

- 现有**开放集全景分割(OPS)** 方法将已知类别视为扁平标签集，忽略语义层次结构，导致难以区分未知对象与分布内类别 - 安全关键应用（如自动驾驶、机器人）需要识别未知对象，但现有方法在训练中需要显式建模未知，泛化性受限 - 语义层次提供了有价值的结构先验，但尚未被充分用于OPS任务

🔧 核心方法

- 提出**Hyp2Former**，一个端到端(end-to-end)框架，无需在训练时显式建模未知对象 - 在**双曲空间(hyperbolic space)** 中连续学习已知类别之间的**层次语义相似性(hierarchical semantic similarities)** - 通过显式编码已知类别的层次关系，学习结构化嵌入空间，使未知对象因靠近高层概念而被检测

💡 核心创新

- **首次** 将**双曲空间嵌入(hyperbolic embeddings)** 用于开放集全景分割，编码语义层次先验 - 无需显式未知类建模，通过层次相似性自动发现未知对象，避免训练偏差 - 在已知类别鲁棒性与未知对象发现之间取得更优平衡，优于传统扁平标签方法

🏆 总体贡献

- 为**开放集全景分割(OPS)** 提供了一种利用语义层次结构的新范式，提升未知对象识别能力 - 在MS COCO、Cityscapes、Lost&Found等多个数据集上达到**最先进(SOTA)** 性能 - 证明了双曲空间嵌入在开放集视觉任务中的有效性，有望推广至其他语义分割任务