← 返回论文列表

GeomPrompt:面向深度缺失与退化场景的RGB-D语义分割几何提示学习
GeomPrompt: Geometric Prompt Learning for RGB-D Semantic Segmentation Under Missing and Degraded Depth

作者: Krishna Jaganathan, Patricio Vela
arXiv: 2604.11585v1
分类: cs.CV, cs.RO
📝 论文摘要
机器人与具身人工智能的多模态感知系统通常假设RGB-D传感可靠,但在实践中,深度信息常常缺失、存在噪声或损坏。为此,我们提出GeomPrompt——一种轻量级跨模态适配模块,仅通过RGB图像即可为冻结的RGB-D语义分割模型的第四通道合成任务驱动的几何提示,且无需深度监督。我们进一步引入GeomPrompt-Recovery适配模块,通过预测与冻结分割器相关的第四通道修正值来补偿退化的深度信息。两个模块仅通过下游分割监督进行训练,能够恢复对分割有用的几何先验,而非直接估计深度信号。在SUN RGB-D数据集上,GeomPrompt在DFormer模型上相比纯RGB推理提升+6.1 mIoU,在GeminiFusion模型上提升+3.0 mIoU,同时与强大的单目深度估计方法保持竞争力。对于退化深度数据,GeomPrompt-Recovery持续提升鲁棒性,在严重深度损坏情况下最高可获得+3.6 mIoU增益。GeomPrompt的计算效率也显著优于单目深度基线方法,延迟时间仅为7.8毫秒,而基线方法分别为38.3毫秒和71.9毫秒。这些结果表明,在RGB-D感知中面临深度信息缺失或退化时,任务驱动的几何提示是一种高效的跨模态补偿机制。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人学和具身人工智能(embodied AI)中多模态感知系统面临的实际问题:RGB-D语义分割(semantic segmentation)中深度信息经常缺失、噪声干扰或损坏。研究背景是现有系统通常假设可靠的RGB-D感知,但实际应用中深度数据往往不可靠。
🔧 核心方法
论文提出了两种轻量级跨模态适应模块: - GeomPrompt:仅从RGB图像合成任务驱动的几何提示(geometric prompt),作为冻结的RGB-D语义分割模型的第四通道输入,无需深度监督(depth supervision)。 - GeomPrompt-Recovery:通过预测与冻结分割器相关的第四通道校正,补偿退化的深度数据。 两个模块仅使用下游分割监督进行训练,目标是恢复对分割有用的几何先验(geometric prior),而非估计深度信号。
💡 核心创新
核心创新点包括: - 提出了任务驱动的几何提示学习(task-driven geometric prompt learning)新范式,替代传统的单目深度估计(monocular depth estimation)。 - 设计轻量级适应模块,直接为冻结的预训练RGB-D分割模型生成几何提示,实现高效的跨模态补偿(cross-modal compensation)。 - 首次系统性地处理深度数据缺失和退化两种场景,通过统一的几何提示框架同时提升鲁棒性和效率。 - 与现有工作相比,独特之处在于不直接估计深度图,而是学习对分割任务最有用的几何表示,实现了更高的任务相关性和计算效率。
🏆 总体贡献
论文对该领域的整体贡献包括: - 在SUN RGB-D数据集上,GeomPrompt相比纯RGB推理显著提升性能(在DFormer上提升+6.1 mIoU,在GeminiFusion上提升+3.0 mIoU)。 - 在深度退化场景下,GeomPrompt-Recovery持续提升鲁棒性,在严重深度损坏下最高可获得+3.6 mIoU增益。 - 证明了任务驱动几何提示是RGB-D感知中处理缺失和退化深度输入的高效跨模态补偿机制。 - 实现了显著的计算效率优势(7.8 ms延迟 vs 基线方法的38.3 ms和71.9 ms),为实际部署提供了实用解决方案。