RepSAM: 通过表示引导的适应连接基础模型与机器人视觉

📝 论文摘要

在非结构化环境中，尽管SAM等基础模型具备零样本能力，机器人感知仍面临挑战。本研究将性能退化归因于Transformer层间非均匀的表示迁移：浅层存在显著领域差异（CKA < 0.5），而深层可有效迁移（CKA > 0.7）。基于此发现，我们提出RepSAM——一种面向机器人视觉基础模型适配的表示引导参数高效微调（PEFT）框架。RepSAM采用理论驱动的CKA引导秩分配策略，结合多模态融合模块，以稳健处理透明物体和杂乱场景等机器人挑战性场景。跨六个基准及机器人操作任务的实验表明，RepSAM在减少158倍可训练参数（从6.32亿降至400万）的同时，达到全参数微调性能的97.9%（mIoU 89.0%对比90.9%）。RepSAM在单张A100 GPU上仅需4小时训练（较全参数微调的384 GPU小时减少96倍），即比DoRA提升7.9% mIoU。这些改进具有统计显著性（p < 0.01），并转化为机器人操作成功率较LoRA（RGB）基线绝对提升12.0%。

🎯 研究动机

- 机器人在非结构化环境中的感知仍存在挑战，基础模型（如SAM）虽具备零样本能力但性能下降 - 发现性能退化源于**Transformer(Transformer)** 各层表示偏移不一致：浅层领域差距大（CKA<0.5），深层迁移有效（CKA>0.7） - 现有**参数高效微调(PEFT)** 方法未针对此类非均匀偏移进行优化，需设计更适配机器人视觉的微调策略

🔧 核心方法

- 提出**表示引导的参数高效微调(Representation-Guided PEFT, RepSAM)** 框架，包含**CKA引导的秩分配(CKA-guided Rank Allocation)** 策略，根据各层表示对齐程度动态分配低秩矩阵的秩 - 引入**多模态融合模块(Multi-modal Fusion Module)**，融合RGB和深度信息以应对透明物体和杂乱场景等挑战 - 基于**中心核对齐(Centered Kernel Alignment, CKA)** 指标量化表示偏移，指导参数更新优先级

💡 核心创新

- **理论驱动**：首次利用**CKA指标(CKA metric)** 定量分析层间领域差距，并据此设计**非均匀秩分配(non-uniform rank allocation)**，显著优于均匀分配的低秩方法（如LoRA、DoRA） - **高效性**：仅需4百万参数量（全微调的1/158），在单张A100上4小时完成训练（全微调384小时），性能达到全微调的97.9% - **场景鲁棒性**：专门设计多模态融合模块处理机器人视觉中的**透明物体(transparent objects)** 和**杂乱场景(cluttered scenes)**，优于现有PEFT基线

🏆 总体贡献

- 揭示了基础模型在机器人视觉中性能下降的根本原因（表示偏移的层间非均匀性），为后续研究提供新视角 - 提出一种新颖的**表示引导微调范式(Representation-Guided Fine-tuning Paradigm)**，平衡了微调效率与下游任务性能 - 在6个标准基准和机器人操作任务上达到SOTA(state-of-the-art)，操作成功率相比LoRA提升12.0%（绝对），所有改进统计显著（p<0.01）

RepSAM: 通过表示引导的适应连接基础模型与机器人视觉
RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation

📊 核心分析

RepSAM: 通过表示引导的适应连接基础模型与机器人视觉 RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation

📊 核心分析

RepSAM: 通过表示引导的适应连接基础模型与机器人视觉
RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation