该论文旨在解决开放词汇语义分割(open-vocabulary semantic segmentation)中存在的空间精度不足问题。研究背景是:现有方法通常依赖单视图图像,在动态环境中虽然灵活,但在遮挡和物体边界附近的空间推理能力较弱,限制了其在自动驾驶等需要精确场景理解的应用中的效果。
论文提出了SENSE方法,这是首个面向立体视觉的开放词汇语义分割工作。具体技术包括:
- 利用立体图像对(stereo image pairs)提供几何线索(geometric cues)。
- 结合视觉语言模型(vision-language models)进行语义理解。
- 在PhraseStereo数据集上进行训练,以支持基于短语的定位(phrase-grounded)任务和零样本(zero-shot)泛化。
- 通过联合推理语义(semantics)和几何(geometry)来提升分割精度。
论文的核心创新点在于:
- **首次将立体视觉引入开放词汇语义分割**:这是首个专门为立体图像设计的开放词汇语义分割框架,通过立体图像对提供的深度和几何信息来增强空间推理。
- **几何与语义的联合推理**:与现有单视图方法相比,SENSE独特地整合了立体视觉的几何线索与视觉语言模型的语义理解能力,显著提升了在遮挡和边界区域的分割准确性。
- **在多个基准上实现显著提升**:在PhraseStereo、Cityscapes和KITTI数据集上均超越了基线方法和最佳竞争方法,证明了其有效性和泛化能力。
论文对该领域的整体贡献包括:
- 提出了首个立体开放词汇语义分割框架SENSE,为动态环境下的精确场景理解提供了新解决方案。
- 通过实验验证了结合立体视觉和视觉语言模型能有效提升开放词汇分割的空间精度和鲁棒性。
- 为自动驾驶机器人(autonomous robots)和智能交通系统(Intelligent Transportation Systems)等需要自然语言交互和精确几何感知的应用提供了关键技术支撑。