该论文旨在解决机器人学和具身人工智能(embodied AI)中多模态感知系统面临的实际问题:RGB-D语义分割(semantic segmentation)中深度信息经常缺失、噪声干扰或损坏。研究背景是现有系统通常假设可靠的RGB-D感知,但实际应用中深度数据往往不可靠。
论文提出了两种轻量级跨模态适应模块:
- GeomPrompt:仅从RGB图像合成任务驱动的几何提示(geometric prompt),作为冻结的RGB-D语义分割模型的第四通道输入,无需深度监督(depth supervision)。
- GeomPrompt-Recovery:通过预测与冻结分割器相关的第四通道校正,补偿退化的深度数据。
两个模块仅使用下游分割监督进行训练,目标是恢复对分割有用的几何先验(geometric prior),而非估计深度信号。
核心创新点包括:
- 提出了任务驱动的几何提示学习(task-driven geometric prompt learning)新范式,替代传统的单目深度估计(monocular depth estimation)。
- 设计轻量级适应模块,直接为冻结的预训练RGB-D分割模型生成几何提示,实现高效的跨模态补偿(cross-modal compensation)。
- 首次系统性地处理深度数据缺失和退化两种场景,通过统一的几何提示框架同时提升鲁棒性和效率。
- 与现有工作相比,独特之处在于不直接估计深度图,而是学习对分割任务最有用的几何表示,实现了更高的任务相关性和计算效率。
论文对该领域的整体贡献包括:
- 在SUN RGB-D数据集上,GeomPrompt相比纯RGB推理显著提升性能(在DFormer上提升+6.1 mIoU,在GeminiFusion上提升+3.0 mIoU)。
- 在深度退化场景下,GeomPrompt-Recovery持续提升鲁棒性,在严重深度损坏下最高可获得+3.6 mIoU增益。
- 证明了任务驱动几何提示是RGB-D感知中处理缺失和退化深度输入的高效跨模态补偿机制。
- 实现了显著的计算效率优势(7.8 ms延迟 vs 基线方法的38.3 ms和71.9 ms),为实际部署提供了实用解决方案。