RoHIL: 鲁棒的人机协同机器人强化学习应对光照变化

📝 论文摘要

人在环强化学习系统在训练所用的工作站上能达到近乎完美的成功率，但当同一机器人被移至仅数米外的工作站时，由于新灯具位置和窗光造成的视觉输入分布偏移，系统性能会崩溃。在每个工作站重新收集示范数据并重新运行人在环强化学习与部署要求相悖，而直接在偏移光照数据上微调又会引发源工作站的灾难性遗忘。为弥合这一跨域差距，我们提出RoHIL——一种无需额外真实机器人交互的离线微调框架。RoHIL结合了：(i) 基于世界模型的图像重光照器，可在多种虚拟高动态范围环境光下重新合成源工作站轨迹的视觉流，同时保持动作与奖励的真实性；(ii) 光照保持回放（IRR），一种数据级反遗忘机制，通过交错重光照适应转换与原始光照保持转换来维持源工作站的贝尔曼覆盖；(iii) 锚定贝尔曼-动作器正则化器，约束源工作站原始策略的表征与策略漂移。在四项真实机器人操作任务中，面对显著跨工作站光照变化，RoHIL大幅提升了标准人在环强化学习失效场景下的偏移光照性能，同时保持源工作站性能，消除了为每个新工作站和环境重新收集数据和训练的需求。项目页面：https://anonymous4365.github.io/RoHIL/

🎯 研究动机

- 现有**人机循环强化学习(Human-in-the-loop RL)** 系统在源工作站上表现接近完美，但机器人移动几米后因照明变化导致**视觉输入分布偏移**，性能崩溃 - 在每一个新工作站重新采集演示和运行HIL不符合部署要求，而简单的微调会引发**灾难性遗忘(catastrophic forgetting)** - 研究背景：跨工作站照明变化是机器人部署中的实际挑战，现有方法缺乏无额外真实交互的鲁棒解决方案

🔧 核心方法

- 提出**RoHIL** 离线微调框架，无需额外真实机器人交互，包含三个关键组件 - **基于世界模型的图像重照明器(world-model-based image relighter)**：在多种虚拟**HDRI环境** 下重合成源工作站轨迹的视觉流，保留真实动作和奖励 - **照明保持重放(Illumination-Retention Replay, IRR)**：数据级抗遗忘机制，交错使用重照明后的适应轨迹和原始光照的保持轨迹，维持源工作站的**Bellman覆盖(Bellman coverage)** - **锚定Bellman-演员正则化器(anchored Bellman-actor regulariser)**：约束表示和策略相对于源工作站策略的漂移

💡 核心创新

- **无额外真实交互**：首次实现仅通过离线微调（无新真实交互）解决跨工作站照明偏移问题 - **虚拟光照增强**：利用**世界模型** 和**多HDRI环境** 生成多种光照条件下的合成数据，丰富视觉多样性 - **双管齐下抗遗忘**：结合数据级（IRR）和算法级（锚定正则化）机制，同时避免灾难性遗忘并保持源性能 - **端到端离线微调**：无需重新采集数据和重新训练，直接适配新工作站

🏆 总体贡献

- 为**跨工作站照明变化** 下的机器人强化学习提供了一种无额外交互的离线微调范式 - 在四个真实机器人操作任务上显著提升光照变化后的性能，同时保持源工作站性能，消除灾难性遗忘 - 避免了为每个新工作站重新采集数据和重新训练，极大提升了**部署效率(deployment efficiency)** - 开源项目页面提供代码与视频，促进社区复现与进一步研究

RoHIL: 鲁棒的人机协同机器人强化学习应对光照变化
RoHIL: Robust Human-in-the-Loop Robotic Reinforcement Learning Against Illumination Variations

📊 核心分析

RoHIL: 鲁棒的人机协同机器人强化学习应对光照变化 RoHIL: Robust Human-in-the-Loop Robotic Reinforcement Learning Against Illumination Variations

📊 核心分析

RoHIL: 鲁棒的人机协同机器人强化学习应对光照变化
RoHIL: Robust Human-in-the-Loop Robotic Reinforcement Learning Against Illumination Variations