该论文旨在解决开放世界(open-world)机器人操作中手眼标定(hand-eye calibration)的关键问题。研究背景是:
- 基于深度学习的手眼标定模型在面对开放世界场景变化时,在适应未见数据时会出现灾难性遗忘(catastrophic forgetting)
- 简单的基于回放(rehearsal)的持续学习(continual learning)策略无法有效缓解此问题
论文提出了一个持续手眼标定框架,包含两个核心技术:
- 空间感知回放策略(Spatial-Aware Replay Strategy, SARS):构建几何均匀的回放缓冲区(replay buffer),确保全面覆盖每个场景的位姿空间(pose space),用信息量最大的视角替换冗余相邻帧
- 结构保持双重蒸馏(Structure-Preserving Dual Distillation, SPDD):将定位知识分解为粗略场景布局和精细位姿精度,并分别进行蒸馏(distillation)以缓解持续适应过程中的两类遗忘
论文的核心创新点在于:
- 提出了首个针对开放世界机器人操作的持续手眼标定框架,解决了场景变化下的灾难性遗忘问题
- 设计了空间感知回放策略(SARS),通过几何均匀采样构建回放缓冲区,突破了传统回放方法在视角选择上的局限性
- 提出了结构保持双重蒸馏(SPDD),创新性地将定位知识分解为场景布局和位姿精度两个层次进行结构化蒸馏,有效缓解了不同类型知识的遗忘
- 实现了框架的闭环工作流程:新场景到达时,SARS提供所有先前场景的几何代表性样本,SPDD对这些样本进行结构化蒸馏以保留先前知识,训练后SARS将新场景样本纳入缓冲区供未来回放
论文对该领域的整体贡献包括:
- 提出了一个完整的持续手眼标定框架,使机器人能够适应顺序遇到的开放世界操作场景
- 在多个公共数据集上的实验表明,该框架具有显著的抗场景遗忘性能,在保持过去场景精度的同时保留对新场景的适应能力
- 为开放世界机器人操作中的持续学习问题提供了新的解决方案,推动了机器人长期自主操作能力的发展