- 机器人在非结构化环境中的感知仍存在挑战,基础模型(如SAM)虽具备零样本能力但性能下降
- 发现性能退化源于**Transformer(Transformer)** 各层表示偏移不一致:浅层领域差距大(CKA<0.5),深层迁移有效(CKA>0.7)
- 现有**参数高效微调(PEFT)** 方法未针对此类非均匀偏移进行优化,需设计更适配机器人视觉的微调策略
- 提出**表示引导的参数高效微调(Representation-Guided PEFT, RepSAM)** 框架,包含**CKA引导的秩分配(CKA-guided Rank Allocation)** 策略,根据各层表示对齐程度动态分配低秩矩阵的秩
- 引入**多模态融合模块(Multi-modal Fusion Module)**,融合RGB和深度信息以应对透明物体和杂乱场景等挑战
- 基于**中心核对齐(Centered Kernel Alignment, CKA)** 指标量化表示偏移,指导参数更新优先级
- **理论驱动**:首次利用**CKA指标(CKA metric)** 定量分析层间领域差距,并据此设计**非均匀秩分配(non-uniform rank allocation)**,显著优于均匀分配的低秩方法(如LoRA、DoRA)
- **高效性**:仅需4百万参数量(全微调的1/158),在单张A100上4小时完成训练(全微调384小时),性能达到全微调的97.9%
- **场景鲁棒性**:专门设计多模态融合模块处理机器人视觉中的**透明物体(transparent objects)** 和**杂乱场景(cluttered scenes)**,优于现有PEFT基线
- 揭示了基础模型在机器人视觉中性能下降的根本原因(表示偏移的层间非均匀性),为后续研究提供新视角
- 提出一种新颖的**表示引导微调范式(Representation-Guided Fine-tuning Paradigm)**,平衡了微调效率与下游任务性能
- 在6个标准基准和机器人操作任务上达到SOTA(state-of-the-art),操作成功率相比LoRA提升12.0%(绝对),所有改进统计显著(p<0.01)