该论文旨在解决机器人控制领域的一个核心挑战:如何学习既高性能又与专家行为一致的控制策略。研究背景是:强化学习(reinforcement learning)能发现高性能策略,但常偏离期望的人类行为;而模仿学习(imitation learning)受限于演示质量,难以超越专家数据。
论文提出了一个行为约束的强化学习(behavior-constrained reinforcement learning)框架,具体包含:
- 引入一个滚动时域预测机制(receding-horizon predictive mechanism),用于建模短期未来轨迹并在训练时提供前瞻性奖励(look-ahead rewards)。
- 将策略(policy)以参考轨迹(reference trajectories)为条件,使其能表示专家一致行为的分布,而非单一确定性目标。
- 在高保真赛车模拟环境中,使用专业驾驶员数据进行实证评估。
论文的核心创新点在于:
- 提出了一个新颖的滚动时域信用分配(receding-horizon credit assignment)机制,将专家一致行为建模为轨迹级约束,解决了动态控制中行为一致性的本质是轨迹层面的问题。
- 通过将策略条件化于参考轨迹,允许策略表示专家行为在干扰和变化条件下的自然变异性分布,而非模仿单一确定性行为,这超越了传统行为克隆(behavior cloning)的局限。
- 将行为约束与强化学习目标相结合,在明确控制与专家行为偏差的同时,实现性能超越演示数据。
论文对该领域的整体贡献是:
- 提出了一个能同时优化性能和控制行为偏差的通用框架,实现了在复杂动态系统(如极限驾驶)中学习既高性能又与专家行为一致的控制策略。
- 通过驾驶员在环(driver-in-the-loop)模拟器的人类评估证明,所学策略能复现依赖于车辆设置的驾驶特性,且与顶级职业赛车手的反馈一致,表明其可作为复杂控制系统中人类决策的可靠替代。
- 在具有极端动力学和狭窄性能裕度的领域(赛车模拟)中实证验证了方法的有效性,在圈速和模仿质量上均优于基线方法。