- 现有**人机循环强化学习(Human-in-the-loop RL)** 系统在源工作站上表现接近完美,但机器人移动几米后因照明变化导致**视觉输入分布偏移**,性能崩溃
- 在每一个新工作站重新采集演示和运行HIL不符合部署要求,而简单的微调会引发**灾难性遗忘(catastrophic forgetting)**
- 研究背景:跨工作站照明变化是机器人部署中的实际挑战,现有方法缺乏无额外真实交互的鲁棒解决方案
- 提出**RoHIL** 离线微调框架,无需额外真实机器人交互,包含三个关键组件
- **基于世界模型的图像重照明器(world-model-based image relighter)**:在多种虚拟**HDRI环境** 下重合成源工作站轨迹的视觉流,保留真实动作和奖励
- **照明保持重放(Illumination-Retention Replay, IRR)**:数据级抗遗忘机制,交错使用重照明后的适应轨迹和原始光照的保持轨迹,维持源工作站的**Bellman覆盖(Bellman coverage)**
- **锚定Bellman-演员正则化器(anchored Bellman-actor regulariser)**:约束表示和策略相对于源工作站策略的漂移
- **无额外真实交互**:首次实现仅通过离线微调(无新真实交互)解决跨工作站照明偏移问题
- **虚拟光照增强**:利用**世界模型** 和**多HDRI环境** 生成多种光照条件下的合成数据,丰富视觉多样性
- **双管齐下抗遗忘**:结合数据级(IRR)和算法级(锚定正则化)机制,同时避免灾难性遗忘并保持源性能
- **端到端离线微调**:无需重新采集数据和重新训练,直接适配新工作站
- 为**跨工作站照明变化** 下的机器人强化学习提供了一种无额外交互的离线微调范式
- 在四个真实机器人操作任务上显著提升光照变化后的性能,同时保持源工作站性能,消除灾难性遗忘
- 避免了为每个新工作站重新采集数据和重新训练,极大提升了**部署效率(deployment efficiency)**
- 开源项目页面提供代码与视频,促进社区复现与进一步研究