- 现有基于偏好的强化学习(preference-based RL)在大规模偏好数据集中面临**异质性和冲突监督** 问题,包括注释者间分歧和内部不一致
- 现有的**单奖励模型(single reward model)** 方法被迫平均不兼容的偏好信号,导致鲁棒性受限
- 研究背景:偏好反馈作为奖励工程的替代方案应用日益广泛,但数据质量参差不齐,亟需处理噪声与冲突的奖励学习方法
- 提出**PrefMoE框架**,采用**混合专家(mixture-of-experts, MoE)** 结构学习多个专门的奖励专家
- 使用**轨迹级软路由(trajectory-level soft routing)** 自适应地组合专家输出,捕获多样化的潜在偏好模式
- 引入**负载均衡正则化器(load-balancing regularizer)** 防止专家崩溃(expert collapse),稳定训练过程
- **首创性**:首次将**混合专家(MoE)架构** 应用于偏好建模中的奖励学习,解决异构噪声监督问题
- **软路由机制**:区别于硬路由或加权平均,轨迹级软路由允许每个样本自适应地组合不同专家,而非强制使用单一专家
- **负载均衡正则化**:提出专用正则化项避免专家退化或坍塌,确保多个专家均能学习到有意义的偏好模式
- 为基于偏好的强化学习领域提供了一种**鲁棒的奖励学习范式**,有效处理大规模数据集中的冲突与噪声
- 在D4RL locomotion和MetaWorld操作任务上,**偏好预测鲁棒性显著提升**,并带来更可靠的下游策略学习
- 提供了一种将**多专家集成(multi-expert ensemble)** 思想引入奖励建模的新方向,优于单模型基线