← 返回论文列表

RepSAM: 通过表示引导的适应连接基础模型与机器人视觉
RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation

作者: Wenhui Chu
arXiv: 2605.25495v1
分类: cs.RO, cs.CV
📝 论文摘要
在非结构化环境中,尽管SAM等基础模型具备零样本能力,机器人感知仍面临挑战。本研究将性能退化归因于Transformer层间非均匀的表示迁移:浅层存在显著领域差异(CKA < 0.5),而深层可有效迁移(CKA > 0.7)。基于此发现,我们提出RepSAM——一种面向机器人视觉基础模型适配的表示引导参数高效微调(PEFT)框架。RepSAM采用理论驱动的CKA引导秩分配策略,结合多模态融合模块,以稳健处理透明物体和杂乱场景等机器人挑战性场景。跨六个基准及机器人操作任务的实验表明,RepSAM在减少158倍可训练参数(从6.32亿降至400万)的同时,达到全参数微调性能的97.9%(mIoU 89.0%对比90.9%)。RepSAM在单张A100 GPU上仅需4小时训练(较全参数微调的384 GPU小时减少96倍),即比DoRA提升7.9% mIoU。这些改进具有统计显著性(p < 0.01),并转化为机器人操作成功率较LoRA(RGB)基线绝对提升12.0%。

📊 核心分析

🎯 研究动机
- 机器人在非结构化环境中的感知仍存在挑战,基础模型(如SAM)虽具备零样本能力但性能下降 - 发现性能退化源于**Transformer(Transformer)** 各层表示偏移不一致:浅层领域差距大(CKA<0.5),深层迁移有效(CKA>0.7) - 现有**参数高效微调(PEFT)** 方法未针对此类非均匀偏移进行优化,需设计更适配机器人视觉的微调策略
🔧 核心方法
- 提出**表示引导的参数高效微调(Representation-Guided PEFT, RepSAM)** 框架,包含**CKA引导的秩分配(CKA-guided Rank Allocation)** 策略,根据各层表示对齐程度动态分配低秩矩阵的秩 - 引入**多模态融合模块(Multi-modal Fusion Module)**,融合RGB和深度信息以应对透明物体和杂乱场景等挑战 - 基于**中心核对齐(Centered Kernel Alignment, CKA)** 指标量化表示偏移,指导参数更新优先级
💡 核心创新
- **理论驱动**:首次利用**CKA指标(CKA metric)** 定量分析层间领域差距,并据此设计**非均匀秩分配(non-uniform rank allocation)**,显著优于均匀分配的低秩方法(如LoRA、DoRA) - **高效性**:仅需4百万参数量(全微调的1/158),在单张A100上4小时完成训练(全微调384小时),性能达到全微调的97.9% - **场景鲁棒性**:专门设计多模态融合模块处理机器人视觉中的**透明物体(transparent objects)** 和**杂乱场景(cluttered scenes)**,优于现有PEFT基线
🏆 总体贡献
- 揭示了基础模型在机器人视觉中性能下降的根本原因(表示偏移的层间非均匀性),为后续研究提供新视角 - 提出一种新颖的**表示引导微调范式(Representation-Guided Fine-tuning Paradigm)**,平衡了微调效率与下游任务性能 - 在6个标准基准和机器人操作任务上达到SOTA(state-of-the-art),操作成功率相比LoRA提升12.0%(绝对),所有改进统计显著(p<0.01)