- 强化学习(reinforcement learning, RL)在机器人操作中的实际部署受限于低效且不安全的探索,亟需提升安全性与效率
- 现有的人机交互方法仅将人类干预视为辅助训练信号,未能充分捕捉干预中蕴含的关于何时及如何引导自主性的丰富信息
- 人类干预往往编码了在安全和任务约束下的**相对偏好(relative preferences)**,而非精确的动作指令,现有方法未充分利用这种偏好信息
- 提出**OHP-RL(Online Human Preference as Guidance in Reinforcement Learning)** 框架,将人类干预作为偏好信息来指导策略学习
- 引入**状态依赖偏好门(state-dependent preference gate)**,自适应地调节人类干预应在何时以及何种程度上塑造策略学习
- 允许智能体从间歇性、不完美的人类反馈中受益,同时保留自主探索和稳定的策略优化
- **偏好引导范式**:首次将人类干预明确建模为**偏好信息(preference information)** 而非模仿信号,利用干预中蕴含的相对偏好指导学习
- **自适应门控机制**:提出的**状态依赖偏好门** 动态控制干预对策略更新的影响权重,解决了间歇性、不完美反馈下的学习稳定性问题
- **低干预高效性**:在真实机器人接触丰富操作任务中,实现**更快收敛** 和显著更低的**人类干预成本**,同时保持高成功率
- 为机器人强化学习提供了一种**在线人类偏好引导(online human preference guidance)** 新范式,提升了安全探索效率
- 在**Franka机器人** 的三个真实接触丰富操作任务上验证了有效性,展示了**更强的成功率、更快的收敛速度** 和更**稳定且对齐人类行为(human-aligned behavior)** 的策略
- 降低了人机交互中人类监督的成本,推动了强化学习在真实机器人场景中的实用化部署