OHP-RL：以在线人类偏好作为机器人操作强化学习中的引导

📝 论文摘要

尽管强化学习使机器人能够自主获取技能，但其实际部署因低效且不安全的探索而严重受限。人类干预提供了一种实用的解决方案，然而现有方法通常仅将这些干预作为辅助训练信号，未能充分捕捉这些干预中蕴含的关于何时以及如何引导自主性的更丰富信息。人类干预往往编码了在安全与任务约束下对行为相对偏好的选择，而非规定精确的模仿动作。基于这一视角，我们提出在线人类偏好引导强化学习框架（OHP-RL），该框架将人类干预作为偏好信息来指导策略学习。OHP-RL引入了一个状态相关的偏好门控机制，自适应地调节人类干预应在何时、以何种程度塑造策略学习。这一设计使智能体既能从间歇性且不完美的人类反馈中获益，又能保持自主探索与稳定策略优化。我们在Franka机器人上对三项具有挑战性的真实世界接触式操作任务评估了OHP-RL。在所有任务中，OHP-RL相较于先前方法均实现了更高的成功率、更快的收敛速度以及显著更低的人类干预工作量。此外，学习到的策略在整个训练过程中展现出更稳定且更符合人类偏好的行为模式。

🎯 研究动机

- 强化学习(reinforcement learning, RL)在机器人操作中的实际部署受限于低效且不安全的探索，亟需提升安全性与效率 - 现有的人机交互方法仅将人类干预视为辅助训练信号，未能充分捕捉干预中蕴含的关于何时及如何引导自主性的丰富信息 - 人类干预往往编码了在安全和任务约束下的**相对偏好(relative preferences)**，而非精确的动作指令，现有方法未充分利用这种偏好信息

🔧 核心方法

- 提出**OHP-RL(Online Human Preference as Guidance in Reinforcement Learning)** 框架，将人类干预作为偏好信息来指导策略学习 - 引入**状态依赖偏好门(state-dependent preference gate)**，自适应地调节人类干预应在何时以及何种程度上塑造策略学习 - 允许智能体从间歇性、不完美的人类反馈中受益，同时保留自主探索和稳定的策略优化

💡 核心创新

- **偏好引导范式**：首次将人类干预明确建模为**偏好信息(preference information)** 而非模仿信号，利用干预中蕴含的相对偏好指导学习 - **自适应门控机制**：提出的**状态依赖偏好门** 动态控制干预对策略更新的影响权重，解决了间歇性、不完美反馈下的学习稳定性问题 - **低干预高效性**：在真实机器人接触丰富操作任务中，实现**更快收敛** 和显著更低的**人类干预成本**，同时保持高成功率

🏆 总体贡献

- 为机器人强化学习提供了一种**在线人类偏好引导(online human preference guidance)** 新范式，提升了安全探索效率 - 在**Franka机器人** 的三个真实接触丰富操作任务上验证了有效性，展示了**更强的成功率、更快的收敛速度** 和更**稳定且对齐人类行为(human-aligned behavior)** 的策略 - 降低了人机交互中人类监督的成本，推动了强化学习在真实机器人场景中的实用化部署

OHP-RL：以在线人类偏好作为机器人操作强化学习中的引导
OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation

📊 核心分析

OHP-RL：以在线人类偏好作为机器人操作强化学习中的引导 OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation

📊 核心分析

OHP-RL：以在线人类偏好作为机器人操作强化学习中的引导
OHP-RL: Online Human Preference as Guidance in Reinforcement Learning for Robot Manipulation