SENSE：立体开放词汇语义分割

📝 论文摘要

开放词汇语义分割使模型能够分割超出固定类别集合的物体或图像区域，为动态环境提供了灵活性。然而，现有方法通常依赖单视角图像，在空间精度方面存在不足，尤其是在遮挡和物体边界附近。我们提出了SENSE，这是首个基于立体视觉的开放词汇语义分割方法，它利用立体视觉和视觉语言模型来增强开放词汇语义分割。通过引入立体图像对，我们引入了几何线索，从而提升了空间推理和分割精度。在PhraseStereo数据集上训练后，我们的方法在短语定位任务中表现出色，并在零样本设置中展示了泛化能力。在PhraseStereo上，我们的方法相较于基线方法平均精度提升了2.9%，相较于最佳竞争方法提升了0.76%。此外，SENSE在Cityscapes数据集上实现了3.5%的mIoU相对提升，在KITTI数据集上提升了18%。通过对语义和几何的联合推理，SENSE支持从自然语言中实现精确的场景理解，这对于自主机器人和智能交通系统至关重要。

🎯 研究动机

该论文旨在解决开放词汇语义分割(open-vocabulary semantic segmentation)中存在的空间精度不足问题。研究背景是：现有方法通常依赖单视图图像，在动态环境中虽然灵活，但在遮挡和物体边界附近的空间推理能力较弱，限制了其在自动驾驶等需要精确场景理解的应用中的效果。

🔧 核心方法

论文提出了SENSE方法，这是首个面向立体视觉的开放词汇语义分割工作。具体技术包括： - 利用立体图像对(stereo image pairs)提供几何线索(geometric cues)。 - 结合视觉语言模型(vision-language models)进行语义理解。 - 在PhraseStereo数据集上进行训练，以支持基于短语的定位(phrase-grounded)任务和零样本(zero-shot)泛化。 - 通过联合推理语义(semantics)和几何(geometry)来提升分割精度。

💡 核心创新

论文的核心创新点在于： - **首次将立体视觉引入开放词汇语义分割**：这是首个专门为立体图像设计的开放词汇语义分割框架，通过立体图像对提供的深度和几何信息来增强空间推理。 - **几何与语义的联合推理**：与现有单视图方法相比，SENSE独特地整合了立体视觉的几何线索与视觉语言模型的语义理解能力，显著提升了在遮挡和边界区域的分割准确性。 - **在多个基准上实现显著提升**：在PhraseStereo、Cityscapes和KITTI数据集上均超越了基线方法和最佳竞争方法，证明了其有效性和泛化能力。

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了首个立体开放词汇语义分割框架SENSE，为动态环境下的精确场景理解提供了新解决方案。 - 通过实验验证了结合立体视觉和视觉语言模型能有效提升开放词汇分割的空间精度和鲁棒性。 - 为自动驾驶机器人(autonomous robots)和智能交通系统(Intelligent Transportation Systems)等需要自然语言交互和精确几何感知的应用提供了关键技术支撑。

SENSE：立体开放词汇语义分割
SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

📊 核心分析

SENSE：立体开放词汇语义分割 SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

📊 核心分析

SENSE：立体开放词汇语义分割
SENSE: Stereo OpEN Vocabulary SEmantic Segmentation